当前位置:网站首页>Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?
Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?
2022-06-29 19:06:00 【智源社区】
最近的研究表明,Transformer 具有强大的远程关系建模的能力,但在捕获高频局部信息方面却无能为力。为了解决这个问题,本文提出了 Inception Transformer,简称 iFormer,可以有效地学习视觉数据中包含高频和低频信息的综合特征。
具体来说,本文设计了一个 Inception mixer将卷积和最大池化的优势移植到 Transformer 中捕获高频信息。与最近的mixer不同,Inception mixer通过通道拆分机制带来更高的效率,同时采用并行卷积/最大池化路径和自注意力路径作为high-frequency mixer和low-frequency mixer可以灵活地对分散在其中的判别信息进行建模。
考虑到Low-level Layer在捕捉高频细节方面发挥更多作用,而High-level Layer在建模低频全局信息方面发挥更多作用,作者进一步引入frequency ramp structure,即逐渐减小送到high-frequency mixer的维度,并增加low-frequency mixer的维度(一句话就是ResNet的层次设计思想),可以有效地权衡不同层的高频和低频分量。
在一系列视觉任务上对 iFormer 进行了基准测试,并展示了它在图像分类、COCO检测和 ADE20K 分割方面的出色表现。例如,iFormer-S 在 ImageNet-1K 上达到了 83.4% 的 top-1 准确率,比 DeiT-S 高出 3.6%,在只有 1/4 的参数和 1/3 的FLOPs的情况下甚至略好于更大的模型 Swin-B (83.3%)。

论文链接:
https://arxiv.org/abs/2205.12956
边栏推荐
- PHP实现二维数组按指定的键名排序的方法
- Redis (I) -- getting started with redis (2) -- redis data type
- The developer task center is online! Thousands of yuan of gifts!
- Determination of concurrent number of pressure measurement
- 揭秘!付费会员制下的那些小心机!
- 信息系统项目管理师---第七章项目成本管理历年考题
- 创作者基金会 6 月份亮点
- How to use the low code platform of the Internet of things for service management?
- 压测并发数的确定
- 高能直播,大咖云集!邀你共启BizDevOps探索之路。
猜你喜欢

tp5 where查询数据库中的某个字段是否包含某个值,不用like的方法,模糊查询

使用 OpenCV 的基于标记的增强现实

4-2端口Banner信息获取

数据基础设施升级窗口下,AI 新引擎的技术方法论

细说GaussDB(DWS)复杂多样的资源负载管理手段

习题8 #第8章 Verilog有限状态机设计-4 #Verilog #Quartus #modelsim

Deep learning --- the weight of the three good students' scores (2)

76. nearest common ancestor of binary tree

SQL Server Backup and restore command operations

Seven cattle image access parameters (thumbnails are small in size to avoid wasting traffic)
随机推荐
【历史上的今天】6 月 29 日:SGI 和 MIPS 合并;微软收购 PowerPoint 开发商;新闻集团出售 Myspace
元素等待机制
销量赶不上拿钱速度,威马赴港救急
求职大厂被拒?腾讯高手总结了11条被拒的原因!
Game Maker 基金会呈献:归属之谷
Selenium WebDriver的高级特性
福昕软件受邀亮相2022先进制造业数智发展论坛
[proteus simulation] matrix keyboard interrupt scanning
Mobile end test
Oracle11.2.0.4-Rac集群hang分析记录
产品-Axure9(英文版),中继器(Repeater)实现表格内容的增删查改(CRUD)
MBA-day26 数的概念与性质
【️爬虫必备->Scrapy框架从黑铁到王者️】初篇——万字博文详解(建议收藏)
Meta agent model can be migrated to resist attacks
3-3主机发现-四层发现
高能直播,大咖云集!邀你共启BizDevOps探索之路。
jfinal中如何使用过滤器监控Druid监听SQL执行?
76.二叉树的最近公共祖先
Win11安装权限在哪里设置?Win11安装权限设置的方法
压测并发数的确定