当前位置:网站首页>清华&智源 | CogView2:更快更好的文本图像生成模型
清华&智源 | CogView2:更快更好的文本图像生成模型
2022-06-27 00:33:00 【智源社区】

论文名:CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers(arxiv)
智源唐杰副院长团队的工作,第一作者丁铭,是悟道文汇模型的最新进展。在Reddit上获得大量关注。GitHub上已经有500多星。
摘要
基于Transformer的文本到图像模型的发展,高分辨率图像的缓慢生成和复杂性的阻碍。在本文中,我们提出了一种基于分层Transformer和局部并行自回归生成的解决方案。我们使用简单灵活的自监督任务预训练了一个60亿参数的Transformer模型——跨模态通用语言模型 (CogLM) ,并对其进行微调以实现快速超分辨率。与目前最先进的 DALL·E 2 相比,新的文本到图像系统 CogView2 显示出非常具有竞争力的生成,并且自然地支持对图像进行交互式文本引导编辑。
论文最后的讨论部分很有意思:
自回归还是扩散?尽管 GPT 在文本生成方面取得了巨大成功,但扩散模型在图像生成方面正变得越来越流行。我们从速度方面比较扩散模型和自回归模型,这是第 1 节中讨论的自回归模型的最大缺点。在相同的架构下,扩散模型需要更多的 FLOP,但具有高度的并行性。它们还可以通过手动安排采样步长在质量和时间消耗之间进行权衡。例如,Glide [19] 采样 250 个扩散步骤进行评估,以及 27 个步骤进行交互式采样,从而将延迟减少到 15 秒。
自回归模型必须逐个标记生成图像,但我们的 LoPAR 可以以高并行度对图像进行上采样,因此(潜在地)我们可以通过引入更多层次结构来设计模型,从而比扩散模型更快地降低时间成本。DALL-E-2 和 CogView2 的比较。 DALL·E 2 [27] 是最近发布的用于在 1024 × 1024 分辨率上生成文本到图像的并行工作。虽然它的概率模型和架构与 CogView2 有很大的不同,但两者有着相同的精神——分层生成。CogView2 能够根据 DALL-E2 的有限演示合成相似的场景,例如“狮子老师”(图 1)与“熊猫科学家”(DALL·E 2),尽管 CogView2 只训练了 DALL·E 2 使用的总数据的 5% 左右。与 CogView2 相比,DALL·E 2的主要区别是三级超分辨率和“零”级图像先验生成。由于训练一个三级超分辨率很耗费资源,而且比较偏工程,我们把它留给未来的工作。
代码: https://github.com/THUDM/CogView2
想要实验的同学可能要注意,这个模型对硬件要求较高,推荐NVIDIA A100机器。
边栏推荐
猜你喜欢

Solve the problem that only one line of text is displayed or not displayed in u8glib

MATLAB data type - character type
![Count the logarithm of points that cannot reach each other in an undirected graph [classic adjacency table building +dfs Statistics - > query set optimization] [query set manual / write details]](/img/cc/a0be58eddc72c22a9a6ee5c61eb81a.png)
Count the logarithm of points that cannot reach each other in an undirected graph [classic adjacency table building +dfs Statistics - > query set optimization] [query set manual / write details]

Custom class loader encrypts and decrypts classes

Lambda表达式

Law of Large Numbers

Employment prospect of GIS and remote sensing specialty and ranking selection of universities in 2022

Lwip之ARP模块实现

Pet hospital management system based on SSMP

滑环安装有哪些技巧和方法
随机推荐
How to control the quality of HD slip ring in the production process
Xiaobai looks at MySQL -- installing MySQL in Windows Environment
Custom MVC (imported into jar package) + difference from three-tier architecture + reflection + interview questions
buuctf-pwn write-ups (6)
Interface test framework practice (I) | requests and interface request construction
Beyond lithium battery -- the concept of battery in the future
buuctf-pwn write-ups (6)
xml学习笔记
JS library for number formatting
温故知新--常温常新
网上开通证券账户安全吗 手机炒股靠谱吗
玩转OLED,U8g2动画,增长数字和随机三角形等
世界很大,有人把二维码纹在脖子上
XML learning notes
Gaussian and Summary Stats
Hid device descriptor and keyboard key value corresponding coding table in USB protocol
数字格式化的 js 库
memcached基础7
Esp32 add multi directory custom component
Keepalived 实现 Redis AutoFailover (RedisHA)13