当前位置:网站首页>Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR2022 oral)
Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR2022 oral)
2022-07-06 14:53:00 【Rainylt】
paper: https://arxiv.org/pdf/2203.15332.pdf
一句话总结:解决多模态训练时主导模态训得太快导致辅助模态没训充分的问题
交叉熵损失函数:
其中,f(x)为
解耦一下:
其中,a表示audio模态,v表示visual模态,f(x)为softmax前的两个模态联合输出的logits。在这个任务中a为主导模态,即对于gt类别,a模态输出的logits更大
以 W a W^a Wa为例,L对 W a W^a Wa求导:
可以看到,根据链式求导法则, φ a \varphi^a φa是与a模态相关的输出, ∂ L ∂ f ( x i ) \frac{\partial{L}}{\partial{f(x_i)}} ∂f(xi)∂L的值对于两个模态都相同,因此影响对不同模态的梯度差异的就是后面这部分,也就是 φ \varphi φ的值。由于一般主导模态输出的logits较高,即 φ \varphi φ和 W W W的值较大,因此反传时的梯度也更大,收敛也更快。
因此可能会出现主导模态先训好了,loss降得比较低了,辅助模态还没训好的问题。具体为啥辅助模态不能接着训好,有待探究。
对于本文,为了减速主导模态训练,因此在求梯度时加个衰减系数,减少主导模态反传的梯度,相当于单独减小主导模态的学习率:
用两个模态各自输出logits的softmax后的score比值来确定
将比值大于1的(主导模态)设置衰减系数k(0~1),辅助模态为1(不变)
与学习率相乘,相当于减小学习率
此外,根据SGD的梯度反传过程,梯度可以推到为原梯度+高斯噪声:
学习率越大=>高斯噪声协方差越大=>泛化能力越强。这里减小学习率相当于削弱了主导模态的泛化能力。加了衰减系数后的梯度,方差缩小为原来的k^2倍:
因此,本文人为增加一个高斯噪声,方差=batch内样本的方差:
相当于噪声的协方差相比以前还变大了:
边栏推荐
- 将MySQL的表数据纯净方式导出
- 十二、启动流程
- [leetcode daily clock in] 1020 Number of enclaves
- 做接口测试都测什么?有哪些通用测试点?
- sizeof关键字
- 变量与“零值”的比较
- Research and investment strategy report of China's VOCs catalyst industry (2022 Edition)
- 中国1,4-环己烷二甲醇(CHDM)行业调研与投资决策报告(2022版)
- A Mexican airliner bound for the United States was struck by lightning after taking off and then returned safely
- Insert sort and Hill sort
猜你喜欢
NPDP认证|产品经理如何跨职能/跨团队沟通?
剪映+json解析将视频中的声音转换成文本
AdaViT——自适应选择计算结构的动态网络
Unity3d minigame unity webgl transform plug-in converts wechat games to use dlopen, you need to use embedded 's problem
NPDP certification | how do product managers communicate across functions / teams?
数据处理技巧(7):MATLAB 读取数字字符串混杂的文本文件txt中的数据
Hardware development notes (10): basic process of hardware development, making a USB to RS232 module (9): create ch340g/max232 package library sop-16 and associate principle primitive devices
C # realizes crystal report binding data and printing 4-bar code
Management background --2 Classification list
2022年6月国产数据库大事记-墨天轮
随机推荐
NPDP认证|产品经理如何跨职能/跨团队沟通?
MySQL约束的分类、作用及用法
Leetcode exercise - Sword finger offer 26 Substructure of tree
Web APIs DOM 时间对象
Pit encountered by handwritten ABA
Memorabilia of domestic database in June 2022 - ink Sky Wheel
case 关键字后面的值有什么要求吗?
解决项目跨域问题
新手程序员该不该背代码?
OpenCV VideoCapture. Get() parameter details
【数字IC手撕代码】Verilog无毛刺时钟切换电路|题目|原理|设计|仿真
枚举与#define 宏的区别
0 basic learning C language - interrupt
2022-07-04 mysql的高性能数据库引擎stonedb在centos7.9编译及运行
NetXpert XG2帮您解决“布线安装与维护”难题
LeetCode 练习——剑指 Offer 26. 树的子结构
(十八)LCD1602实验
云原生技术--- 容器知识点
第3章:类的加载过程(类的生命周期)详解
PVL EDI 项目案例