当前位置:网站首页>swin-transformer初步理解
swin-transformer初步理解
2022-07-29 17:51:00 【追光少年羽】
一、初步介绍
近期 Transformer 在 CV 领域掀起了一股热潮,从图像分类的 ViT, 到目标检测的 DETR,再到图像分割的SETR 以及 3D 人体姿态的 METRO,预计在未来所有 CNN 能干的事情,都会涌现出一大批论文。虽然灌水总是存在的,但客观上的确也一定程度上推进了AI 领域技术和方法的融合与发展。
回到正题,虽然这些针对不同任务设计的 Transformer 的确把 CNN 的活儿给干了,但其原生Self-Attention 的计算复杂度问题一直没有得到解决,Self-Attention 需要对输入的所有N个 token 计算 N2 大小的相互关系矩阵,考虑到视觉信息本来就就是二维(图像)甚至三维(视频),分辨率稍微高一点这计算量就很难低得下来。
Swin Transformer 想要解决的就是这个计算复杂度的问题。
二、大致过程

Swin Transformer 之所以爆火,外部因素是 Transformer 在 CV 领域已掀起一波浪潮,内部因素是它本身的确用了很合理的方式解决了 Transformer 中计算复杂度的问题。Swin Transformer 的核心思想其实在人类社会结构、树的分形、以及快速排序算法等等中都有体现,即分而治之:

简单来说就是,原生 Transformer 对 N 个 token 做 Self-Attention ,复杂度为 O(N2) ,Swin Transformer 将 N 个 token 拆为 N/n 组, 每组 n (n设为常数)个token 进行计算,复杂度降为 O(N∗n2) ,考虑到 n 是常数,那么复杂度其实为 O(N) 。
分组计算的方式虽然大大降低了 Self-Attention 的复杂度,但与此同时,有两个问题需要解决,其一是分组后 Transformer 的视野局限于 n 个token,看不到全局信息,其二是组与组之间的信息缺乏交互。
对于问题一,Swin Transformer 的解决方案即 Hierarchical,每个 stage 后对 2x2 组的特征向量进行融合和压缩(空间尺寸 H×W→H2×W2 ,特征维度 C→4C→2C ),这样视野就和 CNN-based 的结构一样,随着 stage 逐渐变大。
对于问题二,Swin Transformer 的解决方法是 Shifted Windows,如下图所示:

通过 Shifted Windows 的方式,使相邻的组(patch)进行信息交互,思想上其实和shufflenet 类似,不过这里是空间邻接上的shuffle,而shufflenet是通道维度的shuffle。
此外还有一个细节就是在计算 Self-Attention 时,使用了 Relative position bias,
![]()
B 为可学习的参数,作用与 Local Relation Networks for Image Recognition中的Geometry Prior 类似。
边栏推荐
- 开放原子开源基金会秘书长孙文龙:要打造以开发者为本的开源服务平台
- 国产钡铼分布式IO模块如何与西门子PLC Profinet通讯
- Zigbee组网控制流程
- The 14th day of the special assault version of the sword offer
- 联发科天玑2000最快Q3量产,4G基带芯片将拿下Apple Watch订单
- 2022 年 WebAssembly 应用现状
- 常见的磁盘格式以及它们之间的区别
- 带你入门云开发实践总结篇
- 请问跑sql任务调度必须得设置依赖的上游节点嘛?比如说我sql里面a b两张表join出来的结果写入
- 分析师:百度到2030年可能成为中国市值最高的公司
猜你喜欢
随机推荐
【回忆】奶奶的歌谣
The structure of the earth's over 200 million proteins is fully predicted, and AlphaFold detonates the "protein universe"
[Deep Learning] Use yolov5 to pre-label data
不惧AMD及Arm挑战,英特尔称霸服务器市场的秘诀是什么?
发力5G平板市场,品网科技首发展锐5G平板解决方案
FPGA设计16位二进制全加器模块
Zigbee组网控制流程
go协程栈底层讲解
十大企业数据安全优秀实践
最近很郁闷
西人马重磅发布自研电荷信号调理芯片CU0102B
SK海力士工厂发生氢氟酸泄漏,3名工人受伤!官方称不会影响生产
免费创建一个令人惊叹的网站的7个技巧
【Harmony OS】【ARK UI】ets使用第三方类库crypto实现加密解密
In the Chinese ToB market, it is too difficult to choose the right supplier
redis学习三redis里的list、set、hash、sorted_set、skiplist
工业软件上云的矛与盾
剖析Mooncake的代理原理,实现快速提效
不同的 DAO 对世界带来的改变
华东师范大学副校长周傲英:数据赋能,从数据库到数据中台









