当前位置:网站首页>Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?
Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?
2022-06-29 19:06:00 【智源社区】
最近的研究表明,Transformer 具有强大的远程关系建模的能力,但在捕获高频局部信息方面却无能为力。为了解决这个问题,本文提出了 Inception Transformer,简称 iFormer,可以有效地学习视觉数据中包含高频和低频信息的综合特征。
具体来说,本文设计了一个 Inception mixer将卷积和最大池化的优势移植到 Transformer 中捕获高频信息。与最近的mixer不同,Inception mixer通过通道拆分机制带来更高的效率,同时采用并行卷积/最大池化路径和自注意力路径作为high-frequency mixer和low-frequency mixer可以灵活地对分散在其中的判别信息进行建模。
考虑到Low-level Layer在捕捉高频细节方面发挥更多作用,而High-level Layer在建模低频全局信息方面发挥更多作用,作者进一步引入frequency ramp structure,即逐渐减小送到high-frequency mixer的维度,并增加low-frequency mixer的维度(一句话就是ResNet的层次设计思想),可以有效地权衡不同层的高频和低频分量。
在一系列视觉任务上对 iFormer 进行了基准测试,并展示了它在图像分类、COCO检测和 ADE20K 分割方面的出色表现。例如,iFormer-S 在 ImageNet-1K 上达到了 83.4% 的 top-1 准确率,比 DeiT-S 高出 3.6%,在只有 1/4 的参数和 1/3 的FLOPs的情况下甚至略好于更大的模型 Swin-B (83.3%)。

论文链接:
https://arxiv.org/abs/2205.12956
边栏推荐
- Redis (I) -- getting started with redis (2) -- redis data type
- [proteus simulation] matrix keyboard interrupt scanning
- 75. nearest common ancestor of binary search tree
- DAO 中存在的不足和优化方案
- MariaDB的安装与配置
- After CDN is added to the website, the Font Icon reports an error access control allow origin
- 物理验证LVS流程和技术点滴(上)
- With these four security testing tools, software security testing can be said so easy!
- 打新债线上开户安全吗
- 微信推出图片大爆炸功能;苹果自研 5G 芯片或已失败;微软解决导致 Edge 停止响应的 bug|极客头条
猜你喜欢

正则表达式系列之手机号码正则

开发者任务中心上线!千元豪礼送不停!

细说GaussDB(DWS)复杂多样的资源负载管理手段

使用 OpenCV 的基于标记的增强现实

2. how to install MySQL database in Galaxy Kirin offline mode

虎符限币种提现 用户曲线出金即亏损

Product axure9 (English version), repeater implements addition, deletion, query and modification of table contents (crud)

元素等待机制

unittest单元测试框架

电脑ssd硬盘怎么安装使用
随机推荐
Cantata 9.5版本已正式通过SGS-TÜV认证,符合所有主要软件安全标准
4-2端口Banner信息获取
Selenium WebDriver的高级特性
谁在抖音文玩里趁乱打劫?
PHP implementation of sorting two-dimensional arrays by specified key names
Fastdfs
Win11策略服务被禁用怎么办?Win11策略服务被禁用的解决方法
sql server备份以及还原的命令操作
乐鑫面试流程
2. how to install MySQL database in Galaxy Kirin offline mode
Machine learning 7-Support vector machine
Selenium的各类API方法
php实现 提取不重复的整数(编程题目能够最快的熟悉函数)
QC protocol + Huawei fcp+ Samsung AFC fast charging 5v9v chip fs2601 application
为什么信息化 ≠ 数字化?终于有人讲明白了
docker compose 部署Flask项目并构建redis服务
Flutter 2.0 FocusScope.of(context).requestFocus(FocusNode()) 不生效的问题
出逃与进军,临期食品的「双面江湖」
QC协议+华为FCP+三星AFC快充取电5V9V芯片FS2601应用
Oracle11.2.0.4-Rac集群hang分析记录