当前位置：网站首页>MAE 掩码自编码是可扩展的学习

MAE 掩码自编码是可扩展的学习

2022-07-28 05:23:00 【山上的小酒馆】

目录

4.相关工作Related Work

5.实施方法Approach

1.前言

MAE Masked Autoencoders Are Scalable Vision Learners

自监督学习，随机遮住（mask）一部分patches，并重构原始图片。（基于BERT）

如图，左侧为mask一部分的图，中间为解码器重构的图，右侧为原始图片。

2.摘要

两个要点：一是基于非对称的编码器、解码器架构。编码器只输入没有mask的patch，编码器的输出（语义空间的潜表示latent representation）。二是mask较大比例（例如75%）的patches是一种非显然的有意义的自监督任务，由于输入图片大部分被遮住了，可以加速训练。MAE证明了，在ImageNet-1K data（ImageNet-1K data）、迁移学习、自监督学习等任务中都取得了较好的效果。

3.引言

引言中提出问题:what makes masked autoencoding different between vision and language?（视觉任务与语言任务的不同）

第一，卷积窗口不好将mask操作加入进去，卷积无法对mask进行特征提取。

第二，信息密度不同，比如一个词：树，可以表示一棵树。但一张图片中的树，需要多个patch来表示。transformer学习全局信息而不是关注局部的信息。

第三，解码器，还原像素是低层次的，而NLP里还原一个词是语义里比较高层面的，BERT使用MLP即可对标号进行预测。还原像素输出的解码器网络架构要复杂一些，例如语义分割里采用转置卷积做解码器，而MAE这篇文章采用了transformer做解码器。

4.相关工作Related Work

Masked language modeling： BERT，GPT

Autoencoding：Denoising autoencoders (DAE)

Masked image encoding：iGPT，BEiT

Self-supervised learning：contrastive learning

5.实施方法Approach

MAE是一个根据部分信息重构原始信息的自编码器，采用非对称设计（编码器输入25%未masked的patches，解码器输入编码器输出的潜表示以及masked的全部信息）。

（1）类似于ViT，patch切片后通过线性投影（linear projection）并加入位置信息（position embedding）得到token。

（2）随机masked，切片后随机打乱顺序（shuffle），masked最后75%并取出。将余下的25%token作为输入进入Encoder。

（3）Encoder是若干个个纯的transformer块，经过编码器提取特征后，输出潜表示。

（4）将编码器的输出与masked的patch，加入位置信息后输入解码器，损失函数采用MSE（最小均方误差），重构原始图片。

（5）如果用在迁移学习中，在下游任务中，只需编码器提取输入特征，然后进行分类即可。

参考自李沐在b站上的论文精读！

跟李沐学AI的个人空间_哔哩哔哩_bilibilihttps://space.bilibili.com/1567748478/?spm_id_from=333.999.0.0

版权声明
本文为[山上的小酒馆]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_45104951/article/details/123486302

边栏推荐

猜你喜欢

随机推荐