当前位置:网站首页>清华&智源 | CogView2:更快更好的文本图像生成模型
清华&智源 | CogView2:更快更好的文本图像生成模型
2022-06-27 00:33:00 【智源社区】

论文名:CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers(arxiv)
智源唐杰副院长团队的工作,第一作者丁铭,是悟道文汇模型的最新进展。在Reddit上获得大量关注。GitHub上已经有500多星。
摘要
基于Transformer的文本到图像模型的发展,高分辨率图像的缓慢生成和复杂性的阻碍。在本文中,我们提出了一种基于分层Transformer和局部并行自回归生成的解决方案。我们使用简单灵活的自监督任务预训练了一个60亿参数的Transformer模型——跨模态通用语言模型 (CogLM) ,并对其进行微调以实现快速超分辨率。与目前最先进的 DALL·E 2 相比,新的文本到图像系统 CogView2 显示出非常具有竞争力的生成,并且自然地支持对图像进行交互式文本引导编辑。
论文最后的讨论部分很有意思:
自回归还是扩散?尽管 GPT 在文本生成方面取得了巨大成功,但扩散模型在图像生成方面正变得越来越流行。我们从速度方面比较扩散模型和自回归模型,这是第 1 节中讨论的自回归模型的最大缺点。在相同的架构下,扩散模型需要更多的 FLOP,但具有高度的并行性。它们还可以通过手动安排采样步长在质量和时间消耗之间进行权衡。例如,Glide [19] 采样 250 个扩散步骤进行评估,以及 27 个步骤进行交互式采样,从而将延迟减少到 15 秒。
自回归模型必须逐个标记生成图像,但我们的 LoPAR 可以以高并行度对图像进行上采样,因此(潜在地)我们可以通过引入更多层次结构来设计模型,从而比扩散模型更快地降低时间成本。DALL-E-2 和 CogView2 的比较。 DALL·E 2 [27] 是最近发布的用于在 1024 × 1024 分辨率上生成文本到图像的并行工作。虽然它的概率模型和架构与 CogView2 有很大的不同,但两者有着相同的精神——分层生成。CogView2 能够根据 DALL-E2 的有限演示合成相似的场景,例如“狮子老师”(图 1)与“熊猫科学家”(DALL·E 2),尽管 CogView2 只训练了 DALL·E 2 使用的总数据的 5% 左右。与 CogView2 相比,DALL·E 2的主要区别是三级超分辨率和“零”级图像先验生成。由于训练一个三级超分辨率很耗费资源,而且比较偏工程,我们把它留给未来的工作。
代码: https://github.com/THUDM/CogView2
想要实验的同学可能要注意,这个模型对硬件要求较高,推荐NVIDIA A100机器。
边栏推荐
- Custom class loader encrypts and decrypts classes
- Flink practical problems (VII): no watermark (watermarks are only available eventtime is used)
- ESP32-添加多目录的自定义组件
- 自定义JSP[if,foreach,数据,select]标签
- 如何把老式键盘转换成USB键盘并且自己编程?
- 小白看MySQL--windows环境安装MySQL
- 解决u8glib只显示一行文字或者不显示的问题
- 05 | standard design (Part 2): how to standardize the different styles of commit information, which are difficult to read?
- Solve the problem that stc8g1k08 program cannot run and port configuration
- 滑环安装有哪些技巧和方法
猜你喜欢

Live review | Ziya &ccf TF: Discussion on software supply chain risk management technology under cloud native scenario

07 | workflow design: how to design a reasonable multi person development mode?

BootstrapBlazor + FreeSql实战 Chart 图表使用(2)

Simple and fast digital network (network dolls in the network)

自定义类加载器对类加密解密

Processing of slice loss in ArcGIS mosaic dataset

史上最难618,TCL夺得电视行业京东和天猫份额双第一

其他服务注册与发现

根据文件名批量生成文件夹

Batch generate folders based on file names
随机推荐
Law of Large Numbers
Batch generate folders based on file names
JSON parsing, esp32 easy access to time, temperature and weather
世界很大,有人把二维码纹在脖子上
buuctf-pwn write-ups (6)
史上最难618,TCL夺得电视行业京东和天猫份额双第一
Central Limit Theorem
Generate flow chart with code, and how to use markdown
从位图到布隆过滤器,C#实现
Is it safe to open a securities account online? Is it reliable to speculate in stocks by mobile phone
Xiaobai looks at MySQL -- installing MySQL in Windows Environment
滑环安装有哪些技巧和方法
直播回顾 | 子芽&CCF TF:云原生场景下软件供应链风险治理技术浅谈
论文解读(LG2AR)《Learning Graph Augmentations to Learn Graph Representations》
find_circ详细使用指南
Sword finger offer 10- ii Frog jumping on steps
可视化介绍 Matplotlib 和 Plotnine
buuctf-pwn write-ups (6)
Find the minimum value in the rotation sort array ii[classical Abstract dichotomy + how to break the game left, middle and right are equal]
XML learning notes