当前位置:网站首页>[CNN]|CNN与Transformer区别
[CNN]|CNN与Transformer区别
2022-06-11 03:30:00 【rrr2】
论文题目:
Do Vision Transformers See Like Convolutional Neural Networks?
论文链接:
http://arxiv.org/abs/2108.08810
Transformer 处理图像时获取的特征是否和之前主流的 CNN 有所区别?
基于这样的动机,Google用Centered Kernel Alignment (CKA)对ResNet和ViT的一些关键层进行了检验。首先了解一下CKA这种方法。CKA是Google在2019年提出的,用于衡量神经网络中层与层之间相似度的指标 [3]。这个指标的优势在于,它能够确定基于不同随机初始化和不同宽度训练的神经网络的隐藏层之间的对应关系。因此,适合用于寻找ResNet和ViT中是否存在有对应的网络层。
利用CKA,研究者发现ResNet和ViT在最接近输入的网络底层(lower layer)时,表征的内容持有较大的相似度;然而,由于两个网络处理表征的方式有很大区别,在层层传递之后,在接近输出的网络上层(higher layer)两者的表征最终区别很大。

两个在底层表征上有相似之处的网络,居然长着长着发展到了两个方向。
原因1 在整合全局信息的能力上存在差异
因为ResNet在处理输入时,需要经过更多层才能获得类似于ViT底层的表征,由此引发了一个合理的猜想:两个网络在整合全局信息的能力上存在差异。
为了验证这个想法,研究者先是对ViT的不同层中,注意力集中区域的距离进行的计算,他们发现,ViT无论是低层还是高层,都是局部和全局信息混杂的,相比之下,ResNet更为严格地遵守从局部特征提炼全局特征的处理过程。这是导致两个网络中表征的差异逐层增加的一大关键因素。

ResNet的有效感受域有一个明确地从局部“生长”到全局的过程,而ViT只是在感知局部和全局信息的权重上发生调整
原因2 ViT从底层到高层的相似度比ResNet高
另一方面,这种差异的原因还可能来自ViT从底层到高层的相似度比ResNet高的这一现象。研究者认为,是ViT中的跳跃连接结构 (skip connection)保护了底层到高层的表征传递,如下图所示,如果撤掉特定块区上的这种连接结构,对应的表征信息就会立刻“失传”。
由于上述在处理信息过程上的差异,最终,ViT的高层表征能够更精细地保留局部空间信息。尤其是到了最后分类的关键时刻,ResNet还进行了一次全局的平均池化,进一步显著地减少了高层中局部信息的精细度。
通过全方位的比较,包括将隐藏层揪出来细细观察。最终,研究者下定结论:虽然它们在性能上不相上下,但以ResNet为代表的CNN与ViT在处理信息的工艺原理上大相径庭。
Google这次的工作其实是把大家直觉性经验性的结论用可复现的实验规范地落在了纸上,并且努力夸夸ViT,好吸引更多研究者采用。在整个验证过程中,ViT模型是Google的,JFT-300M数据集是Google的,CKA度量指标也是Google的
ref
https://www.zhuanzhi.ai/document/2e54a4e67814e53b2f72a1dc958cbe69
边栏推荐
- OpenGL Chapter 8 material
- Pthread in the multithreaded Trilogy
- Oppo reno6 turned sour by "inner roll"
- /The world of 10 recommended websites for learning programming has entered the era of the Internet. According to a recently released Internet trends 2016 report, China has become a leader in the Inter
- JS the most commonly used sorting - hand tearing JS series
- Log4j use
- js最常用的排序---手撕js系列
- What has TCL done right to break through the technological strength of Chinese brand innovation?
- [elt.zip] openharmony paper Club - Data high-throughput lossless compression scheme
- svg实现纸飞机自由的飞翔动画
猜你喜欢

JS click the sun and moon to switch between day and night JS special effect

has been blocked by CORS policy: No ‘Access-Control-Allow-Origin‘ header is present on the requested

iQOO 8实测上手体验:王者归来,从不高调

被“内卷”酸翻的OPPO Reno6

OPPO K9试水“捆绑销售”,消费者“赚了”还是“亏了”?

SQL查询连续三天登录的用户

What has TCL done right to break through the technological strength of Chinese brand innovation?

【ELT.ZIP】OpenHarmony啃论文俱乐部——电子设备软件更新压缩

正则表达式

Promise use
随机推荐
If not, use the code generator to generate a set of addition, deletion, modification and query (2)
Instructor add function_ Enable auto fill_ Instructor modification function
PostgreSQL statement
OpenGL Chapter 11 multiple light sources
Mavros控制无人机在gazebo环境下进行双目SLAM
Iqoo 8 measured hands-on experience: return of the king, never high profile
Image scaling with aspect ratio preserving by opencv
OpenGL Chapter 7 basic lighting
UML系列文章(28)体系结构建模---协作
正则表达式
Product milestones in May 2022
OpenGL第八章 材质material
Lecturer paging query_ Instructor condition query with page
/10个值得推荐的学习编程的网站 世界已经进入了互联网的时代。据最近发布的一篇《2016年互联网趋势》报告显示,中国已成为互联网市场的领导者,中国互联网用户的数量达到了6.68亿。可以预见,有
Shangpinhui mall_ Background homepage of
Log4j use
Object storage Minio tutorial
联易融一面(已过)
canvas+svg线条粒子动画网页背景
OpenGL Chapter 8 material