当前位置：网站首页>大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的？

大道至简 | 设计 ViT 到底怎么配置Self-Attention才是最合理的？

2022-06-09 12:55:00 【智源社区】

Transformer已成为深度学习中的主要架构之一，尤其是作为计算机视觉中卷积神经网络 (CNN) 的强大替代品。然而，由于Self-Attention在长序列表示上的二次复杂性，特别是对于高分辨率密集预测任务，先前工作中的Transformer训练和推理可能非常昂贵。为此，我们提出了一种新颖的少注意力视觉Transformer（LIT），基于Transformers中早期的Self-Attention仍然专注于局部模式，并在最近的分层视觉Transformers中带来较小的好处。

具体来说，提出了一个分层 Transformer，使用纯多层感知器（MLP）在早期阶段对丰富的局部模式进行编码，同时应用Self-Attention模块在更深层捕获更长的依赖关系。此外，进一步提出了一种 Learned Deformable Token Merging Module，以非均匀方式自适应地融合信息Patch。

所提出的 LIT 在图像识别任务（包括图像分类、对象检测和实例分割）上取得了可观的性能，可作为许多视觉任务的强大支柱。

论文地址：https://arxiv.org/abs/2105.14217

开源地址：https://github.com/zhuang-group/LIT

原网站

版权声明
本文为[智源社区]所创，转载请带上原文链接，感谢
https://hub.baai.ac.cn/views/17821