当前位置:网站首页>2022年最新文本生成图像研究 开源工作速览(Papers with code)
2022年最新文本生成图像研究 开源工作速览(Papers with code)
2022-07-26 22:46:00 【中杯可乐多加冰】
Papers with code
- 1、DALL-E 2
- 2、Recurrent Affine Transformation for Text-to-image Synthesis
- 3、Vector Quantized Diffusion Model for Text-to-Image Synthesis
- 4、Autoregressive Image Generation using Residual Quantization
- 5、LAFITE
- 6、DF-GAN
- 7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
- 8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,
这篇博文将简要介绍一些已经开源的文本生成图像研究工作,基本上都是2022年的最新研究成果:
1、DALL-E 2
《Hierarchical Text-Conditional Image Generation with CLIP Latents》
OpenAI的最新工作,目前是文本到图像的 SOTA
论文:https://cdn.openai.com/papers/dall-e-2.pdf
代码:https://github.com/lucidrains/DALLE2-pytorch(非官方)
2、Recurrent Affine Transformation for Text-to-image Synthesis
《Recurrent Affine Transformation for Text-to-image Synthesis》
提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系,跟DF-GAN很类似。
论文:https://arxiv.org/pdf/2204.10482.pdf
代码:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis
3、Vector Quantized Diffusion Model for Text-to-Image Synthesis
《Vector Quantized Diffusion Model for Text-to-Image Synthesis》
第一次把矢量量化扩散 (VQ-Diffusion) 模型用于文本到图像生成,与之前基于 GAN 的文本到图像的方法相比,VQ-Diffusion 可以处理更复杂的场景并大幅提高合成图像的质量。
会议:CVPR 2022
论文:https://arxiv.org/abs/2111.14822
代码:https://github.com/microsoft/vq-diffusion
4、Autoregressive Image Generation using Residual Quantization
《Autoregressive Image Generation using Residual Quantization》
由残差量化 VAE (RQ-VAE) 和 RQ-Transformer 组成的两阶段框架生成高分辨率图像。RQ-VAE 可以精确地逼近图像的特征图,并将图像表示为离散码的堆叠图。然后,RQ-Transformer 通过预测下一个代码栈来学习预测下一个位置的量化特征向量。
会议:CVPR 2022
论文:https://arxiv.org/abs/2203.01941
代码:https://github.com/kakaobrain/rq-vae-transformer
5、LAFITE
《LAFITE: Towards Language-Free Training for Text-to-Image Generation》
第一次提出在没有任何文本数据的情况下训练文本到图像生成模型的工作,利用了强大的预训练 CLIP 模型。
会议:CVPR 2022
论文:https://arxiv.org/abs/2111.13792
代码:https://github.com/drboog/Lafite
6、DF-GAN
《DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis》
抛弃了传统GAN的堆叠式结构,采用了单级主干,生成器中引入一种新颖的深度文本图像融合块,包含了仿射块的结构,鉴别器引入匹配感知梯度惩罚和单向输出。
会议:CVPR 2022
论文:https://arxiv.org/abs/2008.05865
代码:https://github.com/tobran/DF-GAN
精读:https://blog.csdn.net/air__Heaven/article/details/124288473
7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
《Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors》
正在进行的工作,引入了几个新功能:(i)场景编辑,(ii)带有锚场景的文本编辑,(iii)克服分布式文本提示,以及(iv)故事插图生成(即由故事生成插图)
论文:https://arxiv.org/abs/2203.13131
代码:https://github.com/CasualGANPapers/Make-A-Scene
8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,
《Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers》
研究了文本到图像生成转换器的推理能力和社会偏见。第一测量了四种视觉推理技能:物体识别、物体计数、颜色识别和空间关系理解。提出了 PaintSkills诊断数据集和评估工具包,用于测量这四种视觉推理技能。第二,基于预训练的图像字幕、图像文本检索和图像分类模型来测量生成图像的文本对齐和质量。第三,评估了模型中的社会偏见
论文:https://arxiv.org/abs/2202.04053
代码:https://github.com/j-min/DallEval
边栏推荐
- Identify artifact MX yolov3
- 机器学习概述
- Shell (13) Three Musketeers
- [untitled]
- Share 29 chrome plug-ins, and there is always one for you
- Removal and addition of reference types in template and generic programming
- 事务数据库及其四特性,原理,隔离级别,脏读,幻读,不可重复读?
- Use ECs and OSS to set up personal network disk
- 解决方案:炼丹师养成计划 Pytorch+DeepLearning遇见的各种报错与踩坑避坑记录(三)
- 【无标题】
猜你喜欢

MySQL installation
![[daily question] 565. Array nesting](/img/d7/b3fbdbabdc4193816c490b684bba66.png)
[daily question] 565. Array nesting

索引失效原理讲解及其常见情况

--Project summary

MySQL备份恢复

Harmonyos image processing application development live broadcast notes

Introduction to network - Introduction to home networking & basic network knowledge

25pxe efficient batch network installation

MySQL单表查询练习

mysql的安装
随机推荐
mysql的安装
RT-thread学习
Shell programming specifications and variables
How can smart people leave without offending others?
introduction
作业1-4学习笔记
RT thread learning
解决方案:炼丹师养成计划 Pytorch+DeepLearning遇见的各种报错与踩坑避坑记录(二)
Timestamp conversion Greenwich mean time
MySQL multi table query
[reprint] 6. Tensorrt advanced usage
Shell script - backup, update and rollback of files
MySQL stored procedure function
Shell course summary
MySQL installation
25pxe efficient batch network installation
dlib安装失败解决办法
How does MySQL get the first three items in each group
GAN的训练技巧:炼丹师养成计划 ——生成式对抗网络训练、调参和改进
The bottom implementation of string container