当前位置:网站首页>清华&智源 | CogView2:更快更好的文本图像生成模型
清华&智源 | CogView2:更快更好的文本图像生成模型
2022-06-27 00:33:00 【智源社区】

论文名:CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers(arxiv)
智源唐杰副院长团队的工作,第一作者丁铭,是悟道文汇模型的最新进展。在Reddit上获得大量关注。GitHub上已经有500多星。
摘要
基于Transformer的文本到图像模型的发展,高分辨率图像的缓慢生成和复杂性的阻碍。在本文中,我们提出了一种基于分层Transformer和局部并行自回归生成的解决方案。我们使用简单灵活的自监督任务预训练了一个60亿参数的Transformer模型——跨模态通用语言模型 (CogLM) ,并对其进行微调以实现快速超分辨率。与目前最先进的 DALL·E 2 相比,新的文本到图像系统 CogView2 显示出非常具有竞争力的生成,并且自然地支持对图像进行交互式文本引导编辑。
论文最后的讨论部分很有意思:
自回归还是扩散?尽管 GPT 在文本生成方面取得了巨大成功,但扩散模型在图像生成方面正变得越来越流行。我们从速度方面比较扩散模型和自回归模型,这是第 1 节中讨论的自回归模型的最大缺点。在相同的架构下,扩散模型需要更多的 FLOP,但具有高度的并行性。它们还可以通过手动安排采样步长在质量和时间消耗之间进行权衡。例如,Glide [19] 采样 250 个扩散步骤进行评估,以及 27 个步骤进行交互式采样,从而将延迟减少到 15 秒。
自回归模型必须逐个标记生成图像,但我们的 LoPAR 可以以高并行度对图像进行上采样,因此(潜在地)我们可以通过引入更多层次结构来设计模型,从而比扩散模型更快地降低时间成本。DALL-E-2 和 CogView2 的比较。 DALL·E 2 [27] 是最近发布的用于在 1024 × 1024 分辨率上生成文本到图像的并行工作。虽然它的概率模型和架构与 CogView2 有很大的不同,但两者有着相同的精神——分层生成。CogView2 能够根据 DALL-E2 的有限演示合成相似的场景,例如“狮子老师”(图 1)与“熊猫科学家”(DALL·E 2),尽管 CogView2 只训练了 DALL·E 2 使用的总数据的 5% 左右。与 CogView2 相比,DALL·E 2的主要区别是三级超分辨率和“零”级图像先验生成。由于训练一个三级超分辨率很耗费资源,而且比较偏工程,我们把它留给未来的工作。
代码: https://github.com/THUDM/CogView2
想要实验的同学可能要注意,这个模型对硬件要求较高,推荐NVIDIA A100机器。
边栏推荐
猜你喜欢

Gaussian and Summary Stats

Basic introduction to C program structure Preview

Lambda expression

3 - wire SPI Screen Drive

简单快速的数网络(网络中的网络套娃)

JSON parsing, esp32 easy access to time, temperature and weather

XSS攻击笔记(上)

ESP32-添加多目录的自定义组件

Review the old and know the new -- constant renewal at normal temperature

Law of Large Numbers
随机推荐
Batch generate folders based on file names
3线spi屏幕驱动方式
可视化介绍 Matplotlib 和 Plotnine
Lambda expression
Review the old and know the new -- constant renewal at normal temperature
05 | standard design (Part 2): how to standardize the different styles of commit information, which are difficult to read?
CPU exception handling
At present, which securities company is the best and safest to open an account for stock speculation?
解决u8glib只显示一行文字或者不显示的问题
leetcode 1143. Longest common subsequence (medium)
2022年地理信息系统与遥感专业就业前景与升学高校排名选择
memcached基础2
如何写好测试用例以及go单元测试工具testify简单介绍
目前哪个证券公司炒股开户是最好最安全的?
Solve the problem that only one line of text is displayed or not displayed in u8glib
疫情期间居家办公的总结体会 |社区征文
Simple and fast digital network (network dolls in the network)
The world is very big. Some people tattoo QR codes on their necks
Keepalived 实现 Redis AutoFailover (RedisHA)11
ESP32-SOLO开发教程,解决CONFIG_FREERTOS_UNICORE问题