当前位置:网站首页>多模态数据也能进行MAE?伯克利&谷歌提出M3AE,在图像和文本数据上进行MAE!最优掩蔽率可达75%,显著高于BERT的15%
多模态数据也能进行MAE?伯克利&谷歌提出M3AE,在图像和文本数据上进行MAE!最优掩蔽率可达75%,显著高于BERT的15%
2022-06-24 21:33:00 【智源社区】
本文分享论文『Multimodal Masked Autoencoders Learn Transferable Representations』,思考:多模态数据也能进行MAE?UC Berkeley&Google提出M3AE,在图像和文本数据上进行MAE!文本的最优掩蔽率可达75%,显著高于BERT的15%!
详细信息如下:

构建可扩展的模型以从多样化、多模态的数据中学习仍然是一个开放的挑战。对于视觉语言数据,主要的方法是基于对比学习目标,即为每个模态训练单独的编码器。虽然有效,但对比学习方法会根据使用的数据增加引入抽样偏差,这会降低下游任务的性能。此外,这些方法仅限于成对的图像文本数据,无法利用广泛可用的未成对数据。
在本文中,作者研究了一个仅通过掩蔽token预测训练的大型多模态模型,在不使用模态特定编码器或对比学习的情况下,可以学习下游任务的可迁移表示。作者提出了一种简单且可扩展的网络架构,即多模态掩蔽自动编码器(Multimodal Masked Autoencoder,M3AE),它通过掩蔽token预测学习视觉和语言数据的统一编码器。
作者对在大规模图像文本数据集上训练的M3AE进行了实证研究,发现M3AE能够学习可迁移的表示,并能很好地迁移给下游任务。由于两种数据模式的联合训练,与标准掩蔽率为15%的BERT相比,M3AE受益于更高的文本掩蔽率(50-90%)。作者还提供了定性分析,表明学习到的表征融合了来自图像和语言的有意义信息。最后,作者展示了M3AE的可扩展性,它具有更大的模型大小和训练时间,以及在成对图像文本数据和未成对数据上训练的灵活性。
边栏推荐
- 带马尔科夫切换的正向随机微分方程数值格式模拟
- Lenovo tongfuyao: 11 times the general trend, we attacked the city and pulled out the stronghold all the way
- 第04天-文件IO
- 欢迎来到联想智能大屏的新世界
- Abnova丨A4GNT多克隆抗体中英文说明
- Tencent moved!
- 弹性蛋白酶中英文说明书
- How much commission does CICC wealth securities open an account? Is stock account opening and trading safe and reliable?
- 高考之后,必然会出现以下四种情况:
- How to store dataframe data in pandas into MySQL
猜你喜欢
随机推荐
Golang example renewal lock: redis+channel+sync Mutex
Bi-sql - different join
mpls 笔记 part 1
Why does Dell always refuse to push the ultra-thin commercial notebook to the extreme?
Tencent cloud wecity solution
汇编语言(3)16位汇编基础框架与加减循环
第04天-文件IO
Tencent cloud wecity Hello 2022!
Merge sort template & understanding
Unity C# 网络学习(六)——FTP(二)
修身励学篇
PHP 利用getid3 获取mp3、mp4、wav等媒体文件时长等数据
MySQL multi condition matching fuzzy query
天书夜读笔记——深入虚函数virtual
“一个优秀程序员可抵五个普通程序员!”
Linux64Bit下安装MySQL5.6-不能修改root密码
2种常见的设备稼动率OEE监测方法
Bi SQL alias
这个国庆!腾讯云WeCity陪您一同出行,点亮城市地标...
天书夜读笔记——反汇编引擎xde32









