当前位置:网站首页>“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
2022-07-01 10:54:00 【计算机视觉研究院】
关注并星标
从此不迷路
计算机视觉研究院



公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2206.05836.pdf
代码地址:https://github.com/microsoft/GLIP
计算机视觉研究院专栏
作者:Edison_G
提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。
01
概述
GLIPv2优雅地将localization预训练和视觉语言预训练 (VLP) 与三个预训练任务相结合:phrase grounding作为检测任务的VL重构,区域-词对比学习作为新的区域-词级对比学习任务和掩码语言建模。这种统一不仅简化了之前的多阶段VLP程序,而且实现了定位和理解任务之间的互惠互利。实验结果表明,单个GLIPv2模型(所有模型权重共享)在各种定位和理解任务上实现了接近SoTA的性能。该模型还展示了:
在开放词汇目标检测任务上的强大的零样本和少样本自适应性能;
在 VL 理解任务上的出色grounding能力
02
背景
最近,人们普遍关注构建通用视觉系统,也称为视觉基础模型,它可以同时解决各种视觉任务,例如图像分类、物体检测,以及视觉语言 (VL) 理解。特别感兴趣的是定位任务(例如,目标检测和分割)和VL理解任务(例如,VQA和图像字幕)之间的统一。
localization预训练有利于VL任务,“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一,旨在这两种任务之间互惠互利,简化预训练程序并降低预训练成本。
然而,这两种任务似乎有很大的不同:定位任务仅是视觉任务,需要细粒度的输出(例如,边界框或像素掩码),而VL理解任务强调两种模式之间的融合,需要高级语义输出。例如,答案或标题)。
03
新框架

Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2统一公式的核心是分类匹配技巧,它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配,这使模型能够直接从原始图像-文本数据中学习,并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中,我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。

GLIPv2 Pre-training
GLIPv2使用三个预训练损失进行预训练:来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter,以及标准掩码BERT中提出的语言建模损失Lmlm。

Transfer GLIPv2 to Localization and VL Tasks
我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外,GLIPv2可以在本地化的同时执行传统的VL任务(例如VQA),有效地使我们认为的每项任务都成为“基础的VL理解”任务。

GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
实验及可视化




THE END
转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606

往期推荐
边栏推荐
- bash: ln: command not found
- Want to open an account, is it safe to open an account of Huatai Securities online?
- Oracle和JSON的结合
- Recommend a JSON visualization tool artifact!
- 中国探月工程独家藏品限量发售!
- MIT最新论文《对可解释特征的需求:动机和分类》:在机器学习模型的组成元素中建立可解释性
- 《数据安全法》出台一周年,看哪四大变化来袭?
- Does anyone know why? The table structure is the source table MySQL CDC that has just been directly copied
- 442. 数组中重复的数据
- Today in history: the semiconductor war in the late 1990s; Von Neumann published the first draft; CBS acquires CNET
猜你喜欢

PHP有哪些优势和劣势

Submission lottery - light application server essay solicitation activity (may) award announcement
![[paper reading] trajectory guided control prediction for end to end autonomous driving: a simple yet strong Ba](/img/fa/f2d24ee3dbbbe6332c84a82109338e.png)
[paper reading] trajectory guided control prediction for end to end autonomous driving: a simple yet strong Ba

数据库实验报告(一)

Addition, deletion, modification and query of database

IDEA运行报错Command line is too long. Shorten command line for...

China's cellular Internet of things users have reached 1.59 billion, and are expected to surpass mobile phone users within this year

数字藏品新一轮热度开启

SQL optimization - in and not in, exist
![[matytype] insert MathType inter line and intra line formulas in CSDN blog](/img/ff/871a3f06f898ed107a2a974d2c7bc4.png)
[matytype] insert MathType inter line and intra line formulas in CSDN blog
随机推荐
442. duplicate data in array
bash: ln: command not found
Can MySQL CDC take out the op field
新品大揭秘!雅迪冠能 3 多元产品矩阵,满足全球用户出行需求
Want to open an account, is it safe to open an account of Huatai Securities online?
[encounter Django] - (II) database configuration
YoDA统一数据应用——融合计算在蚂蚁风险场景下的探索与实践
LeetCode.515. 在每个树行中找最大值___逐一BFS+DFS+按层BFS
Graduation season · advanced technology er
sdp 协议中的packetization-mode方式和三种流传输模式
[.NET6]使用ML.NET+ONNX预训练模型整活B站经典《华强买瓜》
JS基础--数据类型
想请教一下,我在广州,到哪里开户比较好?现在网上开户安全么?
How to solve the problem of SQL?
CRC 校驗
数字藏品市场新局面
flutter Uint8List格式的图片和File格式图片的互相转换
SQL Server列一相同的情况下,如何取列二的最大值,并重新生成表
Database experiment report (I)
LeetCode 438. Find all letter ectopic words in the string__ sliding window