当前位置:网站首页>CVPR 2022 | 文本引导的实体级别图像操作ManiTrans
CVPR 2022 | 文本引导的实体级别图像操作ManiTrans
2022-06-11 11:28:00 【智源社区】
本文主要介绍复旦大学付彦伟老师课题组与华为诺亚方舟实验室合作的一篇文章,ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation。这篇文章被接受于CVPR 2022(Oral)。
作者:Jianan Wang, Guansong Lu, Hang Xu*, Zhenguo Li, Chunjing Xu and Yanwei Fu*
arxiv: https://arxiv.org/abs/2204.04428
项目主页:https://jawang19.github.io/manitrans/
介绍
最近OpenAI 发布了最新的DALLE-2 版本(https://openai.com/dall-e-2/) 引起了学术界和工业界广泛关注。DALLE-2 具有很好的对已知图片,根据文本进行实体级别的图像修改的能力。类似的,本文介绍我们CVPR2022的工作,也是侧重于文本引导的实体图像操作能力。受DALL-E[1]、VQGAN[2]等工作的启发,我们基于两阶段图像生成方法提出了一种新的框架,即ManiTrans,它不仅可以编辑实体的外观,还可以生成与文本引导所对应的新实体,并支持对多个实体进行操作。
方法

ManiTrans框架
ManiTrans是一个两阶段框架,由(1)图像自动编码器,与(2)拟合文本与图像联合分布的Transformer模型组成。
(1)图像自动编码器学习了编码器、解码器与图像嵌入三个部分。它首先将输入的图片下采样,再使用图像嵌入来量化下采样过后的特征图,最后对量化后的特征图使用解码器,重新生成图片。
(2)中的Transformer是一个自回归(auto-regressive)模型,以文本序列与图像量化的索引序列为输入,预测序列中下一个可能的元素。在这一阶段的训练中,为了帮助Transformer能够更好地捕捉文本与图像的对应关系,也为了与(1)中生成图像的解码过程结合起来,我们设计了语义对齐损失

语义对齐损失的目的即是最大化文本与生成图像的相似程度。
在对图像的实体进行操作时,我们需要三个输入,包括一个视觉输入:原始图像(image);两个语言输入:想要修改的实体(prompt)、目标文本(text)。操作过程如下:
(a)分割原始图像上的各个实体;
(b)根据prompt与图像实体的相似度,确定需要修改的实体在图像中的位置,并对应到索引序列的位置;
(c)以目标文本为条件,对需要改变的图像索引,即(b)中确定的索引,进行重新预测。当模型仅需要对实体的外观进行操作时,需再加上原图的灰度图像为另一条件,以提供原实体的结构先验信息。
结果

多实体操作COCO数据集上的跨类别操作CUB与Oxford数据集上的花与鸟的跨类别操作
如果您对模型的细节、更多的结果或分析感兴趣,请移步我们的文章。
后记
近年来,借助Transformer技术、预训练技术与算力的提升,视觉与语言多模态理解领域得到了快速的发展,也开始被更多的人关注。近期DALL-E-2工作更是令人惊叹,让大家对视觉语言方向的未来有了更大的期盼。事实上,在这一领域中还有着许多仍未被彻底探究的方向,基于文本的图像操作正在此列。本文的工作并不完美,还有可以进一步提升的空间,但我们希望本文的工作能够代表我们朝文本引导的图像操作这一方向迈进了一步。最后,祝愿大家都能做出自己觉得有趣、有价值的工作。
[1] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-Shot Text-to-Image Generation. arXiv:2102.12092, 2021.
[2] Patrick Esser, Robin Rombach, and Björn Ommer. Taming Transformers for High-Resolution Image Synthesis. arXiv:2012.09841, 2020.
边栏推荐
- Only when you find your own advantages can you work tirelessly and get twice the result with half the effort!
- Use yolov5 to train your own data set and get started quickly
- WP Super Cache静态缓存插件简明使用教程
- 2019年书单
- MYCAT sub database and sub table
- How to solve the problem that high-precision positioning technologies such as ultra wideband UWB, Bluetooth AOA and RTK cannot be widely used due to their high cost? Adopt the idea of integrated deplo
- Vscode——vscode 多窗口名字配置成项目名字
- [issue 30] shopee golang development experience
- 設置默認收貨地址【項目 商城】
- Iterator mode -- battlefield autumn point
猜你喜欢

Exploration of kangaroo cloud data stack on spark SQL optimization based on CBO

Only when you find your own advantages can you work tirelessly and get twice the result with half the effort!

Iterator mode -- battlefield autumn point

It will be too late if you don't brush the questions. The most complete bat interview questions

CAP理论听起来很高大上,其实很简单

Appearance mode -- it has been used in various packages for a long time!

MyCat-分库分表

Liufan, CFO of papaya mobile, unleashes women's innovative power in the digital age

The complete manual of the strongest Flink operator is a good choice for the interview~

Want to be iron man? It is said that many big men use it to get started
随机推荐
The complete manual of the strongest Flink operator is a good choice for the interview~
CPU负载怎么理解
202年最新热门收益较高的年金险产品是什么?
WordPress登录页面美化插件:Login Designer推荐
测试cos-html-cache静态缓存插件
Publish WordPress database cache plug-in: DB cache reloaded 3.1
17.5 互斥量的概念、用法、死锁演示与解决详解
Template engine - thymeleaf
JS prototype. The find () method has no effect on the object array. It is urgent...
The tutor transferred me 800 yuan and asked me to simulate a circuit (power supply design)
[fragmentary thoughts] thoughts on wavelength, wave velocity and period
Tu ne peux pas être libre sans richesse?
js面试题---箭头函数,find和filter some和every
The no category parents plug-in helps you remove the category prefix from the category link
命令模式--进攻,秘密武器
17.5 concept, usage, deadlock demonstration and solution of mutex
NFT digital collection system development and construction process
Exploration of kangaroo cloud data stack on spark SQL optimization based on CBO
Let WordPress support registered users to upload custom avatars
不做伪工作者