当前位置:网站首页>大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?

大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的?

2022-06-09 12:55:00 智源社区

Transformer已成为深度学习中的主要架构之一,尤其是作为计算机视觉中卷积神经网络 (CNN) 的强大替代品。然而,由于Self-Attention在长序列表示上的二次复杂性,特别是对于高分辨率密集预测任务,先前工作中的Transformer训练和推理可能非常昂贵。为此,我们提出了一种新颖的少注意力视觉Transformer(LIT),基于Transformers中早期的Self-Attention仍然专注于局部模式,并在最近的分层视觉Transformers中带来较小的好处。

具体来说,提出了一个分层 Transformer,使用纯多层感知器(MLP)在早期阶段对丰富的局部模式进行编码,同时应用Self-Attention模块在更深层捕获更长的依赖关系。此外,进一步提出了一种 Learned Deformable Token Merging Module,以非均匀方式自适应地融合信息Patch

所提出的 LIT 在图像识别任务(包括图像分类、对象检测和实例分割)上取得了可观的性能,可作为许多视觉任务的强大支柱。

论文地址:https://arxiv.org/abs/2105.14217

开源地址:https://github.com/zhuang-group/LIT

 

原网站

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/17821