当前位置:网站首页>MAE 掩码自编码是可扩展的学习
MAE 掩码自编码是可扩展的学习
2022-07-28 05:23:00 【山上的小酒馆】
目录
1.前言
MAE Masked Autoencoders Are Scalable Vision Learners
自监督学习,随机遮住(mask)一部分patches,并重构原始图片。(基于BERT)

如图,左侧为mask一部分的图,中间为解码器重构的图,右侧为原始图片。
2.摘要
两个要点:一是基于非对称的编码器、解码器架构。编码器只输入没有mask的patch,编码器的输出(语义空间的潜表示latent representation)。二是mask较大比例(例如75%)的patches是一种非显然的有意义的自监督任务,由于输入图片大部分被遮住了,可以加速训练。MAE证明了,在ImageNet-1K data(ImageNet-1K data)、迁移学习、自监督学习等任务中都取得了较好的效果。
3.引言
引言中提出问题:what makes masked autoencoding different between vision and language?(视觉任务与语言任务的不同)
第一,卷积窗口不好将mask操作加入进去,卷积无法对mask进行特征提取。
第二,信息密度不同,比如一个词:树,可以表示一棵树。但一张图片中的树,需要多个patch来表示。transformer学习全局信息而不是关注局部的信息。
第三,解码器,还原像素是低层次的,而NLP里还原一个词是语义里比较高层面的,BERT使用MLP即可对标号进行预测。还原像素输出的解码器网络架构要复杂一些,例如语义分割里采用转置卷积做解码器,而MAE这篇文章采用了transformer做解码器。
4.相关工作Related Work
Masked language modeling: BERT,GPT
Autoencoding:Denoising autoencoders (DAE)
Masked image encoding:iGPT,BEiT
Self-supervised learning:contrastive learning
5.实施方法Approach


MAE是一个根据部分信息重构原始信息的自编码器,采用非对称设计(编码器输入25%未masked的patches,解码器输入编码器输出的潜表示以及masked的全部信息)。
(1)类似于ViT,patch切片后通过线性投影(linear projection)并加入位置信息(position embedding)得到token。
(2)随机masked,切片后随机打乱顺序(shuffle),masked最后75%并取出。将余下的25%token作为输入进入Encoder。
(3)Encoder是若干个个纯的transformer块,经过编码器提取特征后,输出潜表示。
(4)将编码器的输出与masked的patch,加入位置信息后输入解码器,损失函数采用MSE(最小均方误差),重构原始图片。
(5)如果用在迁移学习中,在下游任务中,只需编码器提取输入特征,然后进行分类即可。
参考自李沐在b站上的论文精读!
跟李沐学AI的个人空间_哔哩哔哩_bilibili
https://space.bilibili.com/1567748478/?spm_id_from=333.999.0.0
边栏推荐
- (PHP graduation project) based on PHP student daily behavior management system access
- 浅谈误码仪的使用场景?
- 一、语音合成与自回归模型
- 二、OpenVINO简述与构建流程
- 硬件电路设计学习笔记1--温升设计
- EIGamal cryptosystem description
- 使用PowerCli来创建自定义ESXi ISO镜像
- 一、AMD - OpenVINO环境配置
- (PHP graduation project) obtained based on thinkphp5 campus news release management system
- Summary of Intranet Information Collection
猜你喜欢

Scenario solution of distributed cluster architecture: cluster clock synchronization

File upload vulnerability summary

硬件电路设计学习笔记1--温升设计

TCL和ELTCL?CDNEXT和CMRL?

Difference between shallow copy and deep copy

1、 Speech synthesis and autoregressive model

On low resolution face recognition in the wild:comparisons and new technologies

神经网络学习

Building neural network based on tensorflow

一、语音合成与自回归模型
随机推荐
AEM-TESTpro K50和南粤勘察结下的缘分
福禄克DSX2-5000、DSX2-8000模块如何找到校准到期日期?
使用PowerCli来创建自定义ESXi ISO镜像
USB Network Native Driver for ESXi更新到支持ESXi7.0.1
在win7 上安装 Visual Studio 2019 步骤 及 vs2019离线安装包
LED发光二极管选型-硬件学习笔记3
ESXi Arm Edition version 1.10更新
ESXi 社区版网卡驱动
1、 Amd - openvino environment configuration
Improved knowledge distillation for training fast lr_fr for fast low resolution face recognition model training
物联网互操作系统:分类、标准与未来发展方向综述
ESXi on ARM v1.2 (2020年11月更新)
用颜色区分PCB品质本身就是一个笑话
What are the general wechat applet development languages?
四、模型优化器与推理引擎
frameset 用法示例
开关电源电路EMI设计在layout过程中注意事项
详解爬电距离和电气间隙
Reinforcement learning - continuous control
监控安装ESXi on Arm的树莓派4b的CPU温度