当前位置：网站首页>ACL 2022 | 预训练语言模型和图文模型的强强联合

ACL 2022 | 预训练语言模型和图文模型的强强联合

2022-06-12 02:02:00 【智源社区】

ACL 2022华为发表了一篇论文：Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation（VLKD）。这篇文章将CLIP的跨模态能力以及预训练语言模型的BART的生成能力进行联合，实现了对CLIP模型text encoder的加强，在VQA、Caption等多个任务上都取得非常好的效果。

论文链接：

https://arxiv.org/abs/2203.06386

VLKD的整体结构非常简单，如下图所示，将原来CLIP模型中的text encoder替换成预训练BART的encoder + decoder，通过知识蒸馏的方式让BART的encoder和decoder学到CLIP中的跨模态知识。这里的跨模态知识，指的是让BART能够处理图像信息，借助CLIP中已经将图像和文本的表示映射到同一空间的能力，将BART对文本的表示也映射到这一空间。

原网站

版权声明
本文为[智源社区]所创，转载请带上原文链接，感谢
https://hub.baai.ac.cn/views/17901

当前位置：网站首页>ACL 2022 | 预训练语言模型和图文模型的强强联合

ACL 2022 | 预训练语言模型和图文模型的强强联合

边栏推荐

猜你喜欢

随机推荐