当前位置:网站首页>【CANN训练营】学习笔记——Diffusion和GAN对比,Dalle2和Parti
【CANN训练营】学习笔记——Diffusion和GAN对比,Dalle2和Parti
2022-07-23 00:40:00 【华为云】
听了关于GAN的直播课,阅读了一下相关的文章,想利用这个笔记做一个总结。同时这个笔记也是个人对于训练营进阶班第三问的一些思考,问题问如何看待GAN和Diffision的发展潜力,我觉得从现在的SOTA模型出发是最能直观感受他们的能力的,于是便有了这篇文章。除了DALLE2和Parti,我也希望梳理一下他们涉及到的前置工作。由于本人以前没有深入了解过图像生成领域,时间仓促内容可能也有所纰漏。
DALLE2

如上图所示,Dalle2 的训练被分为两个阶段。虚线上半部分使用CLIP进行对比学习,以获得一个text encoder 和一个image encoder, 他们能够分别将文字和图片编码到向量中并使得图片embedding 和文字embedding尽可能相似。而下半部分则用于图像生成,由prior和Decoder组成。Decoder的作用是将由image encoder所产生的编码反向生成原图片,Prior则将标题文本或text embedding映射到image embedding的空间中。Decoder是一个扩散模型, 和GLIDE相似,但同时将clip image embedding映射添加到原来的输入中。文章给出了两种Prior的结构,自回归和扩散模型。人工评判下,文章使用两种prior分别和GLIDE对比发现扩散模型的在真实性,标题符合度和多样性上效果要略微好于自回归模型

量化的FID指标也显示了扩散模型的优势

Parti基于Google新提出的Pathway架构实现高效的网络训练,最大的版本拥有200亿参数

如上图所示,该模型的文本由Transformer Encoder编码,中间的Transformer Decoder将Text-to-Image生成作为一个Seq2Seq任务。而图片由ViT (Vision Transformer)编码(如下图)

GAN和Diffusion比较
GAN由于需要同时训练生成器和判别器,比较难平衡,这使得训练不稳定。相比之下,Diffusion只需要训练一个模型,优化更加容易一些。但是Diffusion的p过程需要分步完成也影响了其推理的效率。在Parti使用了VQGAN并取得了比Diffusion更好的效果,但也要注意Parti拥有比以往模型多得多的参数,预训练的文本识别模型也会对最终结果有显著的影响,难以说明模型整体性能的提升是否来自于GAN,在Parti文章的末尾作者也说可以进一步考虑使用Diffusion和autoregression的结合。在图像生成领域,个人感觉diffusion仍然处于主导地位,但是GAN的应用领域更加灵活广泛,这些是Diffusion无法替代的。
边栏推荐
- XSS labs customs collection
- BGP experiment
- 1.5万字概括ES6全部特性
- [openvx] VX for basic use of objects_ reference
- After planning job hopping for nearly half a year, there were finally four interviews and three interviews
- flutter 线性布局,填充
- 启牛开户安全性高吗?说万3的佣金靠谱吗?
- Geely Xingrui: from product technology empowerment to cultural confidence
- 生成13位条形码
- Canal realizes MySQL data synchronization
猜你喜欢

【并发编程】第二章:从核心源码深入ReentrantLock锁

NodeJS 基于 Dapr 构建云原生微服务应用,从 0 到 1 快速上手指南

1.5万字概括ES6全部特性

After planning job hopping for nearly half a year, there were finally four interviews and three interviews

在校生非正常下载2578篇文献,中国社科大IP遭一数据库商封禁

阿里二面:Mysql的索引为什么用B+树而不是跳表?

Construction of mGRE network

Developed an app that can run small programs with fluent

基于JSP实现OA办公系统

实操演练 | MySQL PROCESSLIST 表和 Navicat Monitor 识别慢速查询的简单方法
随机推荐
College students downloaded 2578 documents abnormally, and the IP of the University of Social Sciences of China was banned by a database
基于共轭梯度法的对抗攻击
JMeter --- JMeter installation tutorial
BGP federal experiment
NodeJS 基于 Dapr 构建云原生微服务应用,从 0 到 1 快速上手指南
正则表达式转换为相应的文字小工具
K3s - lightweight kubernetes cluster
Flutter 3.0
Three schemes to realize finclip wechat authorized login
[openvx] VX for basic use of objects_ array
7. Image data processing of paddlepaddle
LiveQing直播点播流媒体OBS推流直播如何获得接口校验token视频校验streamToken及配置token有效期
Must I make money by buying REITs funds? Is it safe to open an account
启牛开户安全性高吗?说万3的佣金靠谱吗?
Kali 2022.2 installation
DOM series prohibit selected text and prohibit right-click menu
Under Arduino frame, esp32c3 +1.8 "TFT LCD is driven and displayed through tft_espi library
Development of ordering system in epidemic isolation area
Svg+canvas canvas track JS special effect
中金财富开户安全吗 股票怎么买