当前位置:网站首页>14、Transformer--VIT TNT BETR
14、Transformer--VIT TNT BETR
2022-07-05 20:18:00 【C--G】
VIT–Vision Transformer


VIT架构图



VIT为图像分类任务,这里使用了transformer的编码器,将图片分为九块,加上位置编码后并转化为一维再放入编码器,编码器此时有9个输入token,其中0号token与其他9位token进行了交互计算,融合了其他9位token的特征信息,因此只需要0号token即可,后面就是MLP Head和分类即可
- CNN的问题

- transformer优势

- 公式

- VIT格局

- 位置编码

- 效果分析

- 代码链接
https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_classification/vision_transformer
TNT-Transformer in Transformer

- 基本组成

- 序列构建

- 基本计算

- 位置编码

- PatchEmbedding可视化

BETR
目标检测

基本思想

并行预测100个坐标框,没有物体,那就是背景网络架构

cnn获取一维特征图,positional encoding获取位置编码,与VIT不同,BETR没有0号token,与传统Transformer Decoder不同,BETR是由object queries一次产生多少坐标框,每个框并行与encoder输出进行匹配,再通过prediction heads判断是否是目标框
Encoder的任务

encoder提供目标的注意力结果优于cnn的特征图结果,有利于解码器快速识别目标,如图所示,encoder在有遮挡情况下也能很好的识别物体网络架构

输出匹配

注意力的作用


数据资源–大佬的博客
https://blog.csdn.net/qq_37774399/article/details/121748163
边栏推荐
- 19 Mongoose模块化
- Go language | 01 wsl+vscode environment construction pit avoidance Guide
- 基础篇——配置文件解析
- c语言oj得pe,ACM入门之OJ~
- leetcode刷题:二叉树11(平衡二叉树)
- Some problems encountered in cocos2d-x project summary
- 解决Thinkphp框架应用目录下数据库配置信息修改后依然按默认方式连接
- CCPC 2021威海 - G. Shinyruo and KFC(组合数,小技巧)
- BZOJ 3747 POI2015 Kinoman 段树
- Bzoj 3747 poi2015 kinoman segment tree
猜你喜欢

【数字IC验证快速入门】8、数字IC中的典型电路及其对应的Verilog描述方法

图嵌入Graph embedding学习笔记

【数字IC验证快速入门】6、Questasim 快速上手使用(以全加器设计与验证为例)

JS implementation prohibits web page zooming (ctrl+ mouse, +, - zooming effective pro test)

Convolution free backbone network: Pyramid transformer to improve the accuracy of target detection / segmentation and other tasks (with source code)

.Net分布式事務及落地解决方案
![[quick start of Digital IC Verification] 7. Basic knowledge of digital circuits necessary for verification positions (including common interview questions)](/img/90/aad9d7900d686efca10140717a5c5c.png)
[quick start of Digital IC Verification] 7. Basic knowledge of digital circuits necessary for verification positions (including common interview questions)

leetcode刷题:二叉树13(相同的树)

Leetcode skimming: binary tree 10 (number of nodes of a complete binary tree)

2023年深圳市绿色低碳产业扶持计划申报指南
随机推荐
无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度(附源代码)...
MySql的root密码忘记该怎么找回
14. Users, groups, and permissions (14)
618 "low key" curtain call, how can baiqiushangmei join hands with the brand to cross the "uncertain era"?
Minimum commission for stock trading account opening, where to open an account with low commission? Is it safe to open an account on your mobile phone
Debezium series: modify the source code to support UNIX_ timestamp() as DEFAULT value
Four methods of random number generation | random | math | threadlocalrandom | securityrandom
Parler de threadlocal insecurerandom
信息学奥赛一本通 1340:【例3-5】扩展二叉树
selenium 元素信息
实操演示:产研团队如何高效构建需求工作流?
全国爱眼教育大会,2022第四届北京国际青少年眼健康产业展会
Leetcode brush questions: binary tree 11 (balanced binary tree)
银河证券在网上开户安全吗?
Reinforcement learning - learning notes 4 | actor critical
Introduction to dead letter queue (two consumers, one producer)
【数字IC验证快速入门】2、通过一个SoC项目实例,了解SoC的架构,初探数字系统设计流程
点云文件的.dat文件读取保存
C language OJ gets PE, OJ of ACM introduction~
kubernetes资源对象介绍及常用命令(五)-(ConfigMap&Secret)