当前位置：网站首页>英雄联盟｜王者｜穿越火线 bgm AI配乐大赛分享

英雄联盟｜王者｜穿越火线 bgm AI配乐大赛分享

2022-07-06 16:47:00 【weixin_42001089】

前言

最近和同事打了一个多模态的比赛，最后获得第一名。分享给大家，这里有个小插曲，本来初赛期间一直处于领先地位，结果最后一天被突然反超，不过在答辩的时候翻盘了，最后比赛分数主要是通过对技术思路（占30%）、理论深度（占30%）、现场表现（占10%）和准确率（占30%，由初赛的得分进行换算）四个维度的分数计算。

废话不多说，开始主题

赛题

简单来说就是给视频自动匹配bgm，涉及到的游戏共有三种：王者荣耀 (HoK)、英雄联盟 (LOL) 和穿越火线 (CF)。目标就是给一个游戏video，输出其embedding以及所有候选bgm区库的embedding。

评价指标如下：

由于授权问题，这里就不提供给大家数据集了，但是笔者网上找了一个类似的数据【侵权可联系笔者删除】，可以感受下(由于csdn上传不了，大家想看可以看笔者知乎：)

EDA

我们对数据进行了摸底

（1）视频画面示例:

可以看到对于同一种游戏的画面来说其实是比较相似的

（2）时长

训练集: 长尾分布, 中位数: 67.6s, 平均数: 94.6s。测试集: 时长均为 32s。

（3）有分离好的主播解说音频数据, 但分离后BGM 噪声偏大。

（4）缺乏文本数据 (比如标题, ASR 等)

Method

整体框架

总体上也很简单是个双塔模型，输入端有文本、音频、视频三种模态。

基于前期的摸底，我们认为视频的画面是特别相似的，除非能给精确的提取出转场等有代表性的帧否则随机采帧是没有多大帮助的，而主播的解说是非常关键的，音调（音频）可直接体现激动、搞笑等等情绪，其次就是解说的内容（文本）也是很关键的。

注意这里不是说视频不重要，这里所说的是性价比，重心放到后两种更容易在一定时间内拿到较高的收益，如果往技术深度上走，视频模态是一定要好好挖掘的。

为了突出重点，下面只说有用的策略。

（1）音频

首先说音频的特征提取，目前大家使用比较多的是 VGGish，答辩的时候也发现大多数用的基本都是 VGGish，但是我们采用了HuBERT，它是一种基于bert思想训练的一个音频预训练模型，框架如下：

（2）数据增强

官方给的数据集是很少的，如何充分利用好数据集也是一个考虑的点，我们这里是对视频进行了切分。以 20s 为间隔对视频进行切割, 视频和相应 BGM 同步切割, 进行数据增强. 我们对切割时长也进行了实验，5s, 20s, 32s, 其中 20s 效果最好。

要点: 训练和预测采用相同时长, 保持策略一致，不然效果会很差

（3）loss

最后要求给出的是embedding，可以猜到大概率是根据做欧式相似度来判断结果的，所以我们这里采用了基于对比学习的Triplet Loss

核心代码：

最终：

收获

看到这里其实trick就已经讲完了，是不是感觉很简单，但是！笔者认为上面不是最重要的，接下来才是最重要的那就是：整个过程中的那些思考和实验细节！

关于视频模态，虽然一开始我们就预期其不会有太大的收益，但是还是实验验证了一下即每个视频片段抽 10 帧图片, 与配音模态融合，结果确实是没有收益。

另外对配音进行 ASR, 利用 BERT 提取特征, 效果无提升，这个挺意外的，很不符合预期，追了一下原因可能是ASR的效果不好，这里是直接用了一个开源模型识别的，文本结果也没有标点符号，由于时间原因这里也没再试了。

添加游戏类别预测作为辅助任务, 效果无提升，这里一个可能的解释就是BGM 具有通用性。

另外一个插曲就是前期本来遥遥领先榜单第一，但是最后一天晚上突然有个同学猛的上升了14名，到了第二，接着最后一个小时上到了第一，这一度让我们非常好奇究竟是什么trick？哈哈，最后得知整个的关键就是使用了两个音频很强的backbone，尽管很多选手设计了一些小trick点，但是在绝对强模型面前都黯然失色，由此可见在这个任务上解说的重要性以及基线模型选择的重要性。

除此之外还有一些小的碎碎念的点，就不说了，感兴趣的可联系笔者