当前位置:网站首页>N ¨UWA: Visual Synthesis Pre-training for Neural visUal World creAtionChenfei
N ¨UWA: Visual Synthesis Pre-training for Neural visUal World creAtionChenfei
2022-07-27 10:59:00 【想搞钱的小陈】
NUWA:一种多模态方法,操纵视觉图像。

贡献:
1、一个3D transformer,可以包括文字、图片与视频输入。
2、提出3D Nearby attention(3DNA)。3DNA由空域和时域的局部特征组成。不仅减少了复杂度,同时提高了最后可视化图片的质量。
3、在T2I(text-to-image),T2V(text-to-video),Video prediction 等等任务中都达到SOTA结果。并且模型不仅在text-guided image manipulation(文本操控图片)(图一的第一行第四列)展示了很好的zero-shot能力,在text-guide video manipulation(文本操控视频)(图1的第二行第一列)也展示了很不错的能力。
引言:
一些Auto-regressive 自回归模型都基于pixel-by-pixel的方式,所以都有一个缺点:无法处理高维度high-dimensional visual data,只能处理一些低分辨率low-resolution 图片和视频。
最近,VQ-VAE 是一个离散可视token化的方法,可以有效并且在large-scale上训练visual synthesis task.但其有个缺点,就是VQ-VAE把视频和图片分离开,这对训练来说并不友好。
方法:
如何分别标准文本、图像、视频?
1、用一个通用的维度来获得输入
,其中h和w代表图像的高和宽,s代表多少个token(NLP的词向量的个数),d代表每个token的维度。
2、文本用一个lower-case byte pair encodeing(BPE)将文本嵌入到
中。文本在h和w方向都没有维度,因此用1表示;
图片的输入
,也是需要编码的,公式如下:

代表一个encoder,将raw data送入encoder,得到
,比较
和
codebook的距离,其中
,
,得到离
最近的token,将其离散化,并且利用decoder(G)重构I_hat.这部分就是VQ-VAE,然后通过G和D的不断训练,得到B。最后的
用于训练,1代表没有temporal dimensions
3、视频可以被视为图像的时间扩展,最近的作品如VideoGPT[48]和VideoGen[51]将VQ-V AE编码器中的卷积从2D扩展到3D,并训练视频特定的表示。然而,这不能为图像和视频共享一个共同的码本。在本文中,我们展示了简单地使用2D VQ-GAN编码视频的每一帧也可以产生时间一致性的视频,同时受益于图像和视频数据。结果表示为asRh×w×s×d,其中表示帧的数量。
3DNA
一个减法的算法,原论文写的听清楚的,这里不介绍了(主要做K和V的减法)
Loss

边栏推荐
- 求组合数 AcWing 886. 求组合数 II
- Maker Hongmeng application development training notes 03
- LeetCode 02: 剑指 Offer 58 - I. 翻转单词顺序(简单); T123. 验证回文串 ; T9. 回文数
- Digital triangle model acwing 1027. Grid retrieval
- A deep analysis of the soul of C language -- pointer
- 多种进制之间的转换
- "My" bug collection (Reprinted)
- 区间问题 AcWing 906. 区间分组
- Codeforces round #664C
- LAN SDN hard core technology insider 24 outlook for the future - RDMA (middle)
猜你喜欢

Caused by:org.gradle.api.internal.plugins . PluginApplicationException: Failed to apply plugin

Longest ascending subsequence model acwing 1014. mountaineering

第8章 多线程

博弈论 AcWing 894. 拆分-Nim游戏

Basic use of cmake

Find the combinatorial number acwing 889. 01 sequence satisfying the condition

求组合数 AcWing 887. 求组合数 III

The C programming language (2nd) -- Notes -- 1.6

Remember an experience of using canvas to make the banner streamer effect of Tencent cloud homepage

Pat (Grade B) 2022 summer exam
随机推荐
Knapsack model acwing 1024. Packing problem
Lazy loading of lists and pictures
区间问题 AcWing 906. 区间分组
请教大佬们,请问用flink sink数据到mysql有事务控制吗?如果在一个checkpoint时
Modelarts voice detection and text classification
LeetCode 02: 剑指 Offer 58 - I. 翻转单词顺序(简单); T123. 验证回文串 ; T9. 回文数
高斯消元 AcWing 883. 高斯消元解线性方程组
【着色器实现Shake随机摇动效果_Shader效果第十篇】
Win10 vscode code code format setting and remote breakpoint debugging
VSCode复制代码时去掉样式/语法高亮/代码高亮/黑色背景
Tensorflow tensor operation function set
WGet warning: unable to verify
C programming language (2nd Edition) -- Reading Notes -- 1.5.4
Beyond Compare 3 下一个差异段/向下搜索箭头 找不到了
The C programming language (2nd) -- Notes -- 1.7
记忆化搜索 AcWing 901. 滑雪
第8章 多线程
Quantitative industry knowledge summary
Bus error problem of MMAP and its solution
Digital triangle model acwing 1027. Grid retrieval