当前位置:网站首页>VAN(DWConv+DWDilationConv+PWConv)
VAN(DWConv+DWDilationConv+PWConv)
2022-07-28 05:23:00 【山上的小酒馆】
1.引言
最初自注意力机制(self-attention)的提出是在NLP领域,但是由于其全局特征提取的能力,自注意力机制很快就席卷了CV领域。但是对于2D的图像,self-attention有以下不足:(1)将图像铺成1D序列损失了2D结构信息。(2)平方复杂度使得高分辨率的图片(如800*800)计算开销太大了。(3)仅仅提取了空间上的适应性,而忽视了通道channel维度的适应性。因此,基于LKA(Large Kernel Attention)提出一种新的网络架构VAN。尽管架构比较简单,就是DWConv+DWDilationConv+PWConv的叠加,但是它的表现却能与当前SOFT的视觉Transformer以及CNN相媲美。作为一种通用的骨干网络,在图像识别、目标检测、语义分割以及个体分割等下游任务中均取得很好效果。
2.实现方法
注意力模块的实现主要有两种,一是Transformer中的self attention,但是对于2D图像有三种缺陷;二是使用大核卷积(类似于MobileNet_V3中使用的SE模块),但是参数太多,计算开销过大。因此就提出将大核注意力模块分解的思想。
2.1大核注意力模块LKA

将大的卷积核分解成DWConv+DWDilationConv+PWConv的形式,
(1)DWConv提取局部细致特征
(2)DWDilationConv提取大范围特征
(3)PWConv提取通道C维度上的特征
经过以上三个阶段,计算得到对应像素点的权重。
3.整体架构



计算参数:
普通卷积:卷积核H*卷积核W*输入通道数*输出通道数
DW卷积:卷积核H*卷积核W *输出通道数


由表5可以看出,d=3,K=21精度基
本饱和并且计算参数不算多。
由表1可以看出,VAN综合考虑了局部特征、大范围特征、空间适应性以及通道维度的适应性。

VAN由4个stage组成。每个stage由LKA模块以及前馈神经网络CFF组成,整体架构与transformer的self-attention+两层MLP的架构非常类似。(在ConNeXt中提到过,transformer表现的好与其架构的设计是分不开的)
与swin-transformer一致,每个stage第一个block都进行下采样down sample,模块图像分辨resolution都减小,而通道数channels增加。文中通过控制卷积的滑移步长stride来控制下采样率。除第一个block下采样外,其余block的输入输出特征图保持一致。
4.结果
4.1试验细节
在ImageNet上进行试验,数据增强方面,random clipping, random horizontal flipping, label-smoothing [59], mixup [102],cutmix [100] and random erasing [105] 。使用AdamW优化器训练了310个epochs,momentum=0.9, weight decay=5 × 10−2。初始学习率LR=5 × 10−4,使用下降的余弦cosin学习率,Layer-Scale技术,batch_size=1024,Exponential moving average (EMA)来提高训练过程。
4.2在ImageNet上实验结果

由表6可知,VAN在top1上均取得最好的准确率,这还是在作者根据直觉调出的架构,相信对架构参数一些细节优化后,肯定还能提点。因为VAN综合了VIT和CNN,使用注意力综合了全局信息,又对局部细节进行了细致的处理。
消融实验
DWConv+DWDilationConv+PWConv缺一不可,
缺少DWConv,准确率下降0.5%;
缺少DWDilationConv,准确率下降1.3%,
缺少注意力机制,准确率下降1.1%;
缺少PWConv,准确率下降0.8%。
5.可视化分析

使用Grad-CAM进行可视化发现,在捕捉大范围特征的能力上优于SWIN_T以及ConvNeXt。
6.未来展望
(1)只是直觉的提出架构,架构参数还可继续优化。
In this paper, we only demonstrate an intuitive structure. There are a lot of potential improvements such as adopting different kernel size, introducing multi-scale structure and using multi-branch structure.
(2)大规模的自监督学习以及迁移学习。
综合了ViT与CNN架构的优势,能有提取2D结构的特征并且可根据输入动态的调整输出。
we believe VAN can achieve better performance in image self-supervised learning and transfer learning field.
边栏推荐
- 机群作业管理系统,求解答进程方面的疑问
- 电快速脉冲群(EFT)设计-EMC系列 硬件设计笔记4
- Differences between processes and threads
- 压敏电阻设计参数及经典电路记录 硬件学习笔记5
- Cluster operation management system, to answer questions about the process
- 确保PoE设备成功部署的最佳实践
- 浪涌冲击抗扰度实验(SURGE)-EMC系列 硬件设计笔记6
- Summary of command injection bypass methods
- When to replace jack socket for dsx-pc6 jumper module?
- 端接电阻详解 信号完整系列 硬件学习笔记7
猜你喜欢

How does fluke dtx-1800 test cat7 network cable?

Latex入门

AEM线上产品推介会---线缆认证测仪

When to replace jack socket for dsx-pc6 jumper module?

简述EMD分解、希尔伯特变换、谱方法

Neural network learning

关于gcc :multiple definition of

Fluke fluke aircheck WiFi tester cannot configure file--- Ultimate solution experience

FLUKE福禄克Aircheck wifi测试仪无法配置文件?---终极解决心得

1、 Amd - openvino environment configuration
随机推荐
CString转char[]函数
Notes on the thinking of software analysis and library acquisition of a Taobao customer
LED发光二极管选型-硬件学习笔记3
用颜色区分PCB品质本身就是一个笑话
Paper reading notes of field low resolution face recognition based on selective knowledge extraction
Convolutional neural network
福禄克DTX-1800其配件DTX-CHA002通道适配器CHANNEL更换RJ45插座小记
关于Fusion on Apple Silicon的谨慎猜测
生活随机-1
简述EMD分解、希尔伯特变换、谱方法
4、 Model optimizer and inference engine
dsp和fpga的通讯
DSX2-8000如何校准?校准流程?
说说ESXi虚拟交换机和端口组的“混杂模式”
Latex入门
ESXi on ARM v1.2 (2020年11月更新)
Common CTF encryption methods JS
(PHP graduation project) based on PHP Gansu tourism website management system to obtain
TVS管参数与选型
When to replace jack socket for dsx-pc6 jumper module?