当前位置：网站首页>清华＆智源 | CogView2：更快更好的文本图像生成模型

清华＆智源 | CogView2：更快更好的文本图像生成模型

2022-06-27 00:33:00 【智源社区】

论文名：CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers（arxiv）

智源唐杰副院长团队的工作，第一作者丁铭，是悟道文汇模型的最新进展。在Reddit上获得大量关注。GitHub上已经有500多星。

摘要

基于Transformer的文本到图像模型的发展，高分辨率图像的缓慢生成和复杂性的阻碍。在本文中，我们提出了一种基于分层Transformer和局部并行自回归生成的解决方案。我们使用简单灵活的自监督任务预训练了一个60亿参数的Transformer模型——跨模态通用语言模型 (CogLM) ，并对其进行微调以实现快速超分辨率。与目前最先进的 DALL·E 2 相比，新的文本到图像系统 CogView2 显示出非常具有竞争力的生成，并且自然地支持对图像进行交互式文本引导编辑。

论文最后的讨论部分很有意思：

自回归还是扩散？尽管 GPT 在文本生成方面取得了巨大成功，但扩散模型在图像生成方面正变得越来越流行。我们从速度方面比较扩散模型和自回归模型，这是第 1 节中讨论的自回归模型的最大缺点。在相同的架构下，扩散模型需要更多的 FLOP，但具有高度的并行性。它们还可以通过手动安排采样步长在质量和时间消耗之间进行权衡。例如，Glide [19] 采样 250 个扩散步骤进行评估，以及 27 个步骤进行交互式采样，从而将延迟减少到 15 秒。
自回归模型必须逐个标记生成图像，但我们的 LoPAR 可以以高并行度对图像进行上采样，因此（潜在地）我们可以通过引入更多层次结构来设计模型，从而比扩散模型更快地降低时间成本。
DALL-E-2 和 CogView2 的比较。 DALL·E 2 [27] 是最近发布的用于在 1024 × 1024 分辨率上生成文本到图像的并行工作。虽然它的概率模型和架构与 CogView2 有很大的不同，但两者有着相同的精神——分层生成。CogView2 能够根据 DALL-E2 的有限演示合成相似的场景，例如“狮子老师”（图 1）与“熊猫科学家”（DALL·E 2），尽管 CogView2 只训练了 DALL·E 2 使用的总数据的 5% 左右。与 CogView2 相比，DALL·E 2的主要区别是三级超分辨率和“零”级图像先验生成。由于训练一个三级超分辨率很耗费资源，而且比较偏工程，我们把它留给未来的工作。

代码： https://github.com/THUDM/CogView2

想要实验的同学可能要注意，这个模型对硬件要求较高，推荐NVIDIA A100机器。

原网站

版权声明
本文为[智源社区]所创，转载请带上原文链接，感谢
https://hub.baai.ac.cn/views/18348

当前位置：网站首页>清华＆智源 | CogView2：更快更好的文本图像生成模型

清华＆智源 | CogView2：更快更好的文本图像生成模型

摘要

边栏推荐

猜你喜欢

随机推荐