当前位置:网站首页>MAE 掩码自编码是可扩展的学习
MAE 掩码自编码是可扩展的学习
2022-07-28 05:23:00 【山上的小酒馆】
目录
1.前言
MAE Masked Autoencoders Are Scalable Vision Learners
自监督学习,随机遮住(mask)一部分patches,并重构原始图片。(基于BERT)

如图,左侧为mask一部分的图,中间为解码器重构的图,右侧为原始图片。
2.摘要
两个要点:一是基于非对称的编码器、解码器架构。编码器只输入没有mask的patch,编码器的输出(语义空间的潜表示latent representation)。二是mask较大比例(例如75%)的patches是一种非显然的有意义的自监督任务,由于输入图片大部分被遮住了,可以加速训练。MAE证明了,在ImageNet-1K data(ImageNet-1K data)、迁移学习、自监督学习等任务中都取得了较好的效果。
3.引言
引言中提出问题:what makes masked autoencoding different between vision and language?(视觉任务与语言任务的不同)
第一,卷积窗口不好将mask操作加入进去,卷积无法对mask进行特征提取。
第二,信息密度不同,比如一个词:树,可以表示一棵树。但一张图片中的树,需要多个patch来表示。transformer学习全局信息而不是关注局部的信息。
第三,解码器,还原像素是低层次的,而NLP里还原一个词是语义里比较高层面的,BERT使用MLP即可对标号进行预测。还原像素输出的解码器网络架构要复杂一些,例如语义分割里采用转置卷积做解码器,而MAE这篇文章采用了transformer做解码器。
4.相关工作Related Work
Masked language modeling: BERT,GPT
Autoencoding:Denoising autoencoders (DAE)
Masked image encoding:iGPT,BEiT
Self-supervised learning:contrastive learning
5.实施方法Approach


MAE是一个根据部分信息重构原始信息的自编码器,采用非对称设计(编码器输入25%未masked的patches,解码器输入编码器输出的潜表示以及masked的全部信息)。
(1)类似于ViT,patch切片后通过线性投影(linear projection)并加入位置信息(position embedding)得到token。
(2)随机masked,切片后随机打乱顺序(shuffle),masked最后75%并取出。将余下的25%token作为输入进入Encoder。
(3)Encoder是若干个个纯的transformer块,经过编码器提取特征后,输出潜表示。
(4)将编码器的输出与masked的patch,加入位置信息后输入解码器,损失函数采用MSE(最小均方误差),重构原始图片。
(5)如果用在迁移学习中,在下游任务中,只需编码器提取输入特征,然后进行分类即可。
参考自李沐在b站上的论文精读!
跟李沐学AI的个人空间_哔哩哔哩_bilibili
https://space.bilibili.com/1567748478/?spm_id_from=333.999.0.0
边栏推荐
- What is the process of building a small program?
- Realization of topic function
- Reading experience of protecting against DNN model steaming attacks
- Byte Android post 4 rounds of interviews, received 50k*18 offers, and successfully broke the situation under the layoff
- CalendarExtender控件的中文显示问题
- The difference and connection between cookies, sessions and tokens
- 三极管设计,理解饱和,线性区域和截止区
- dsp和fpga的通讯
- Improved knowledge distillation for training fast lr_fr for fast low resolution face recognition model training
- (PHP graduation project) based on PHP Gansu tourism website management system to obtain
猜你喜欢

Reversible digital watermarking method based on histogram modification

FLUKE福禄克Aircheck wifi测试仪无法配置文件?---终极解决心得

物联网互操作系统:分类、标准与未来发展方向综述

51单片机独立按键联动数码管LED蜂鸣器

Prime_ Series range from detection to weight lifting

Agilent安捷伦 E5071测试阻抗、衰减均正常,惟独串扰NG?---修复方案

硬件电路设计学习笔记1--温升设计

关于接触器线圈控制电路设计分析

开关电源电路EMI设计在layout过程中注意事项

AEM线上产品推介会---线缆认证测仪
随机推荐
Building neural network based on tensorflow
Clustering of machine learning
机群作业管理系统,求解答进程方面的疑问
Getting started with latex
用于快速低分辨率人脸识别模型训练的改进知识蒸馏《Improved Knowledge Distillation for Training Fast LR_FR》
ESXi on ARM v1.2 (2020年11月更新)
硬件电路设计学习笔记2--降压电源电路
(PHP graduation project) obtain the campus network repair application management system based on PHP
File upload vulnerability summary
Research on threat analysis and defense methods of deep learning data theft attack in data sandbox mode
Nanjing University of Posts and Telecommunications CTF topic writeup (I) including topic address
TVS管参数与选型
确保PoE设备成功部署的最佳实践
Overview of unconstrained low resolution face recognition III: homogeneous low resolution face recognition methods
Cluster operation management system, to answer questions about the process
四、模型优化器与推理引擎
浅谈FLUKE光缆认证?何为CFP?何为OFP?
Cyclic neural network
C语言EOF的理解
vSphere ESXi 7.0 Update 3 发行说明