当前位置：网站首页>14、Transformer--VIT TNT BETR

14、Transformer--VIT TNT BETR

2022-07-05 20:18:00 【C--G】

VIT–Vision Transformer

在这里插入图片描述

在这里插入图片描述
VIT架构图

VIT为图像分类任务，这里使用了transformer的编码器，将图片分为九块，加上位置编码后并转化为一维再放入编码器，编码器此时有9个输入token，其中0号token与其他9位token进行了交互计算，融合了其他9位token的特征信息，因此只需要0号token即可，后面就是MLP Head和分类即可

CNN的问题
transformer优势
公式
VIT格局
位置编码
效果分析
代码链接
https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_classification/vision_transformer

TNT-Transformer in Transformer

在这里插入图片描述

基本组成
序列构建

在这里插入图片描述

基本计算

在这里插入图片描述

位置编码

在这里插入图片描述

PatchEmbedding可视化

在这里插入图片描述

BETR

目标检测
基本思想

并行预测100个坐标框，没有物体，那就是背景
网络架构

在这里插入图片描述
cnn获取一维特征图，positional encoding获取位置编码，与VIT不同，BETR没有0号token，与传统Transformer Decoder不同，BETR是由object queries一次产生多少坐标框，每个框并行与encoder输出进行匹配，再通过prediction heads判断是否是目标框

Encoder的任务

encoder提供目标的注意力结果优于cnn的特征图结果，有利于解码器快速识别目标，如图所示，encoder在有遮挡情况下也能很好的识别物体
网络架构
输出匹配
注意力的作用
谷歌源码
https://github.com/google-research/bert
数据资源–大佬的博客
https://blog.csdn.net/qq_37774399/article/details/121748163

版权声明
本文为[C--G]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_50973728/article/details/125599157

边栏推荐

猜你喜欢

随机推荐