当前位置:网站首页>从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
2022-06-09 15:18:00 【智源社区】
视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系。得益于海量数据、Transformer 等优秀架构、CLIP 等跨模态模型以及硬件设备的支持,一系列开创性的工作探索了 VLP 模型,并在各种视觉语言任务上取得了显著进展。
借助大规模训练语料库(主要是英语),众多 VLP 模型已被证明对下游任务有益。然而中文视觉语言数据集很少,并且存在各种局限性。针对大规模预训练模型加下游任务精调的经典模式,中文跨模态领域缺少一个包含大量优质数据,且完整定义了预训练数据集、多个下游任务训练集及下游任务测试集的数据基准。
如何构建一个完整、公平且具有高质量文本描述的中文跨模态基准成为一个亟需解决的问题。
最近,奇虎 360 人工智能研究院和清华大学的研究者在其最新论文中重点关注了大规模视觉语言数据集和跨模态表征学习模型。研究者提出了一个大规模中文跨模态基准数据集 Zero,它包含了两个被称为 Zero-Corpus 的预训练数据集和五个下游任务数据集,一定程度上填补了中文图文跨模态领域数据集的空白。进一步,研究者们还提出了一个视觉语言预训练框架 R2D2,用于大规模跨模态学习,基于所提出的 Zero-Corpus 数据集进行预训练,并在多个下游任务上进行测试,R2D2 取得了多项超越 SOTA 的结果。上述数据集和模型,均已开源。
研究者还尝试用更大的 2.5 亿内部数据集训练 R2D2 模型,相对 2300 万数据,模型效果依然有显著提升。特别是在零样本任务上,相对此前的 SOTA,在 Flickr30k-CN 数据集上,[email protected] 提升到 85.6%(提升了 4.7%),在 COCO-CN 数据集上,[email protected] 提升到 80.5%(提升了 5.4%),在 MUGE 数据集上,[email protected] 提升到 69.5%(提升了 6.3%)。

论文地址:https://arxiv.org/pdf/2205.03860.pdf
边栏推荐
猜你喜欢

jupyter lab学习笔记

ONES 冯斌:从工程师到CTO,与不确定性和信息不完备为伴|ONES Talk

技术干货 | Linkis1.0.2安装及使用指南

How to write a test report approved by a large manufacturer? With these 30 sets of templates, I take off completely

基于tensorflow的猫狗分类

在大厂做了5年测试,5月被无情辞退,想给摸鱼的兄弟提个醒

EasyExcel-合并单元格

品牌焕新、产品上新、营销创新,东风标致的向上之路.

品牌与产品的二律背反

公司新来的阿里P6被辞退了,因为写测试用例不规范,躺平的悲哀?
随机推荐
混动大年,比亚迪的风评真要反转?
JS事件流、事件冒泡、阻止冒泡、事件捕获(一看就懂)
品牌焕新、产品上新、营销创新,东风标致的向上之路.
Performance monster on arm64: installation and performance test of API gateway Apache APIs IX on AWS graviton3
Huawei announced its top ten inventions: efficient additive network and multi-objective game intelligent driving
中国银联(云计算类)定点服务:灵雀云、DaoCloud、有云、博云中标(开发类);神州信息、腾讯云、新华三中标(运维类)
王兴张勇徐雷,谁能问鼎本地电商?
PHP云购源码附教程(源码)
Vuforia for Unity 添加按钮实现模型放大缩小
3 tips to crack the flutter productivity you can use immediately!
揭秘箭头函数
InfoQ 极客传媒 15 周年庆征文|云原生时代微服务架构设计实践
鸿蒙 Picker日期选择器实现教程
ARToolKit for Unity 入门
EasyExcel-合并单元格
有关 cdn.jsdelivr.net 证书错误的一些想法
From outsourcing to self research and then to large factories, who knows how I came here in the past five years
js奇怪的知识--console.table
我把自动化测试学完后,一个月拿了2w+,才知道自动化测试这么吃香
tmux(Terminal MultipleXer)命令使用