当前位置:网站首页>14、Transformer--VIT TNT BETR

14、Transformer--VIT TNT BETR

2022-07-05 20:18:00 C--G

VIT–Vision Transformer

在这里插入图片描述

在这里插入图片描述
VIT架构图
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

VIT为图像分类任务,这里使用了transformer的编码器,将图片分为九块,加上位置编码后并转化为一维再放入编码器,编码器此时有9个输入token,其中0号token与其他9位token进行了交互计算,融合了其他9位token的特征信息,因此只需要0号token即可,后面就是MLP Head和分类即可

TNT-Transformer in Transformer

在这里插入图片描述

  • 基本组成
    在这里插入图片描述
  • 序列构建

在这里插入图片描述

  • 基本计算

在这里插入图片描述

  • 位置编码

在这里插入图片描述

  • PatchEmbedding可视化

在这里插入图片描述

BETR

  • 目标检测
    在这里插入图片描述

  • 基本思想
    在这里插入图片描述
    并行预测100个坐标框,没有物体,那就是背景

  • 网络架构

在这里插入图片描述
cnn获取一维特征图,positional encoding获取位置编码,与VIT不同,BETR没有0号token,与传统Transformer Decoder不同,BETR是由object queries一次产生多少坐标框,每个框并行与encoder输出进行匹配,再通过prediction heads判断是否是目标框

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_50973728/article/details/125599157