当前位置:网站首页>Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR2022 oral)
Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR2022 oral)
2022-07-06 14:53:00 【Rainylt】
paper: https://arxiv.org/pdf/2203.15332.pdf
一句话总结:解决多模态训练时主导模态训得太快导致辅助模态没训充分的问题
交叉熵损失函数:
其中,f(x)为
解耦一下:
其中,a表示audio模态,v表示visual模态,f(x)为softmax前的两个模态联合输出的logits。在这个任务中a为主导模态,即对于gt类别,a模态输出的logits更大
以 W a W^a Wa为例,L对 W a W^a Wa求导:
可以看到,根据链式求导法则, φ a \varphi^a φa是与a模态相关的输出, ∂ L ∂ f ( x i ) \frac{\partial{L}}{\partial{f(x_i)}} ∂f(xi)∂L的值对于两个模态都相同,因此影响对不同模态的梯度差异的就是后面这部分,也就是 φ \varphi φ的值。由于一般主导模态输出的logits较高,即 φ \varphi φ和 W W W的值较大,因此反传时的梯度也更大,收敛也更快。
因此可能会出现主导模态先训好了,loss降得比较低了,辅助模态还没训好的问题。具体为啥辅助模态不能接着训好,有待探究。
对于本文,为了减速主导模态训练,因此在求梯度时加个衰减系数,减少主导模态反传的梯度,相当于单独减小主导模态的学习率:
用两个模态各自输出logits的softmax后的score比值来确定
将比值大于1的(主导模态)设置衰减系数k(0~1),辅助模态为1(不变)
与学习率相乘,相当于减小学习率
此外,根据SGD的梯度反传过程,梯度可以推到为原梯度+高斯噪声:
学习率越大=>高斯噪声协方差越大=>泛化能力越强。这里减小学习率相当于削弱了主导模态的泛化能力。加了衰减系数后的梯度,方差缩小为原来的k^2倍:
因此,本文人为增加一个高斯噪声,方差=batch内样本的方差:

相当于噪声的协方差相比以前还变大了:
边栏推荐
- 2022-07-05 使用tpcc对stonedb进行子查询测试
- 在IPv6中 链路本地地址的优势
- 二分图判定
- 【数字IC手撕代码】Verilog无毛刺时钟切换电路|题目|原理|设计|仿真
- Report on technological progress and development prospects of solid oxide fuel cells in China (2022 Edition)
- Learn the principle of database kernel from Oracle log parsing
- AI enterprise multi cloud storage architecture practice | Shenzhen potential technology sharing
- UDP编程
- 第4章:再谈类的加载器
- ResNet-RS:谷歌领衔调优ResNet,性能全面超越EfficientNet系列 | 2021 arxiv
猜你喜欢

Classic sql50 questions

NPDP认证|产品经理如何跨职能/跨团队沟通?

Leetcode exercise - Sword finger offer 26 Substructure of tree

config:invalid signature 解决办法和问题排查详解

Management background --4, delete classification

Aardio - 不声明直接传float数值的方法
![[linear algebra] determinant of order 1.3 n](/img/6e/54f3a994fc4c2c10c1036bee6715e8.gif)
[linear algebra] determinant of order 1.3 n
Learn the principle of database kernel from Oracle log parsing

每日一题:力扣:225:用队列实现栈
![[Digital IC hand tearing code] Verilog burr free clock switching circuit | topic | principle | design | simulation](/img/2b/15b3d831bba6aa772ad83f3ac91d23.png)
[Digital IC hand tearing code] Verilog burr free clock switching circuit | topic | principle | design | simulation
随机推荐
go多样化定时任务通用实现与封装
C# 三种方式实现Socket数据接收
剑指offer刷题记录1
3DMAX assign face map
Assembly and Interface Technology Experiment 6 - ADDA conversion experiment, AD acquisition system in interrupt mode
GD32F4XX串口接收中断和闲时中断配置
十二、启动流程
Management background --1 Create classification
Attack and defense world ditf Misc
leetcode:面试题 17.24. 子矩阵最大累加和(待研究)
LeetCode刷题(十一)——顺序刷题51至55
Oracle-控制文件及日志文件的管理
做国外LEAD2022年下半年几点建议
【踩坑合辑】Attempting to deserialize object on CUDA device+buff/cache占用过高+pad_sequence
HDR image reconstruction from a single exposure using deep CNNs阅读札记
Installation and use of labelimg
基于 QEMUv8 搭建 OP-TEE 开发环境
Aardio - 不声明直接传float数值的方法
ResNet-RS:谷歌领衔调优ResNet,性能全面超越EfficientNet系列 | 2021 arxiv
PVL EDI project case