当前位置:网站首页>新技术:高效的自监督视觉预训练,局部遮挡再也不用担心!
新技术:高效的自监督视觉预训练,局部遮挡再也不用担心!
2022-06-12 14:11:00 【计算机视觉研究院】
关注并星标
从此不迷路
计算机视觉研究院



公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2206.00790.pdf
计算机视觉研究院专栏
作者:Edison_G
计算机视觉的自监督学习取得了巨大的进步,并改进了许多下游视觉任务,例如图像分类、语义分割和对象检测。
01
概要简介
计算机视觉的自监督学习取得了巨大的进步,并改进了许多下游视觉任务,例如图像分类、语义分割和对象检测。其中,生成式自监督视觉学习方法如MAE和BEiT表现出良好的性能。然而,它们的全局掩码重建机制在计算上要求很高。
为了解决这个问题,研究者提出了局部掩码重建(LoMaR),这是一种简单而有效的方法,它在简单的Transformer编码器上的7×7补丁的小窗口内执行掩码重建,与全局相比,提高了效率和准确性之间的权衡对整个图像进行掩码重建。

大量实验表明,LoMaR在ImageNet-1K分类上的top-1准确率达到84.1%,优于MAE 0.5%。在384×384图像上对预训练的LoMaR进行微调后,top-1准确率可以达到85.4%,超过MAE 0.6%。在MS COCO上,LoMaR在目标检测方面比MAE高0.5 APbox,在实例分割方面比MAE高0.5 APmask。LoMaR在预训练高分辨率图像上的计算效率尤其高,例如,它比MAE快3.1倍,在预训练448×448图像上的分类精度提高0.2%。这种局部掩码重建学习机制可以很容易地集成到任何其他生成式自监督学习方法中。代码将公开
02
研究背景
在Transformer模型中,全局自注意力机制关注所有n个图像块,产生O(n2)时间复杂度。但是在重建中关注遥远的补丁的好处仍不清楚。在下图中,我们可视化了重建遮挡图像块(以黑色显示)时的注意力权重。

从预训练的MAELarge模型中,我们从解码器层2、4、6和8中提取注意力权重,并使用白色表示高度注意力。该模型主要关注接近目标的补丁,这促使我们限制重建中使用的注意力范围。
因此,研究者提出了一种新模型,称为局部掩码重建或LoMaR。该模型将注意力区域限制在一个小窗口,例如7×7图像块,这足以进行重建。类似的方法在许多NLP领域中已经出现,适用于那些需要对长序列进行操作的人。小窗口也已在视觉领域进行了探索,以提高训练和推理速度。但与以前的transformers不同,例如Swin Transformer,它为每个图像创建具有固定坐标的移动窗口。相反,研究者对几个具有随机位置的窗口进行采样,这样可以更好地捕捉不同空间区域中的对象。

在上图中,我们比较了LoMaR和MAE并注意到两个主要区别:
a)使用k×k个补丁对一个区域进行采样,以执行掩码重建,而不是从全部数量的补丁中进行。我们发现仅用一些局部视觉线索来恢复丢失的信息就足够了,而不是从全局位于图像中的25%可见块中重建掩码块
b) 用轻量级MLP头替换MAE中的重量级解码器。将所有图像补丁直接输入编码器,包括掩码和可见补丁。相比之下,在MAE中,只有可见的补丁被馈送到编码器。
实验表明,这些架构变化为小窗口中的局部掩码重建带来了更多的性能提升。
03
新框架分析
LoMaR依赖于一堆Transformer块,通过从类似于MAE的损坏图像中恢复丢失的补丁来预训练大量未标记的图像,但LoMaR在几个关键地方与MAE不同。 下图并排比较了两者。

接下来我们首先重新审视MAE模型,然后描述LoMaR和MAE之间的区别。
Background: Masked Autoencoder
掩码自动编码器(MAE)模型,如上图左侧所示,采用非对称编码器-解码器架构。编码器从图像中获取补丁子集并输出补丁的潜在表示。根据这些,解码器重建丢失的补丁。对于分辨率为h×w的输入图像,MAE首先将其划分为一系列不重叠的块。然后,MAE随机屏蔽掉大部分(例如75%)的图像块。位置编码被添加到每个补丁中以指示它们的空间位置。MAE首先将剩余的补丁编码到潜在表示空间中,然后将潜在表示与掩码补丁的占位符一起输入解码器,解码器执行重建。对于每个重建图像,MAE使用像素空间中原始图像的均方误差(MSE)作为损失函数。
Local Masked Reconstruction (LoMaR)
局部与全局掩码重建。MAE使用从整个图像中采样的补丁重建每个丢失的补丁。然而,如下图所示。

通常只有目标补丁附近的补丁对重建有显着贡献,这表明局部信息足以进行重建。因此,对小区域内的补丁执行掩码和重建。实验发现,7×7块的区域大小可以在准确性和效率之间取得最佳平衡。另一方面,与卷积网络类似,由于每次迭代使用在随机空间位置采样的小窗口,LoMaR具有平移不变性。
Implementation
给定一个图像,首先将它分成几个不重叠的块。每个补丁被线性投影到嵌入中。在不同的空间位置随机采样了几个K×K块的方形窗口。然后将每个窗口内固定百分比的补丁归零。之后,以光栅顺序将每个窗口中的所有补丁(包括可见补丁和遮挡补丁)提供给编码器。编码器在自注意力层中应用可学习的相对位置编码。使用简单的MLP头将来自编码器voutput的潜在表示转换回其原始特征维度,然后使用归一化的真实图像计算均方误差。
04
实验及可视化
Image classification results on the ImageNet-1K


Computational efficiency evaluation

High-resolution image pretraining



THE END
转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606

往期推荐
边栏推荐
- 使用make方法创建slice切片的坑
- Shell notes
- 单总线温度传感器18B20数据上云(阿里云)
- SystemC simulation scheduling mechanism
- Lua callinfo structure, stkid structure resolution
- 测试工程师如何转型测开
- Void pointer (void*) usage
- Ppt cannot be opened, always prompt how to fix it
- Details of bypassing safeseh mechanism by using modules that do not enable safeseh
- Mémoire de l'examen d'entrée à l'université
猜你喜欢

In C language, the main function calls another function, which is understood by assembly code

Player actual combat 25 unpacking module add close

Summary of virtual box usage problems

The original Xiaoyuan personal blog project that has been around for a month is open source (the blog has basic functions, including background management)

NotePad 常用设置

Reverse order of Excel

高考回忆录

对某热水软件的加密参数逆向

浅谈中国程序员为什么要跳槽?

单总线温度传感器18B20数据上云(阿里云)
随机推荐
For cross-border e-commerce, the bidding strategy focusing more on revenue - Google SEM
QT database realizes page turning function
Visual studio common shortcuts
华为设备配置BGP AS号替换
chrome://tracing Performance analysis artifact
Player actual combat 23 decoding thread
CSDN博客积分规则
Introduction to database system (Fifth Edition) notes Chapter 1 Introduction
The original Xiaoyuan personal blog project that has been around for a month is open source (the blog has basic functions, including background management)
Alicloud development board vscode development environment setup
Knowledge of wireless card driver
3. Process concealment under the ring ----- continuous concealment and new opening prevention
2000. reverse word prefix
Analysis of lua source code
WinDbg preview debug analysis createtoolhelp32snapshot
To SystemC Beginners: the first program
QT realize picture dragging
What is the default gateway
Why do Chinese programmers change jobs?
Player actual combat 12 QT playing audio