当前位置:网站首页>“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
2022-07-01 10:54:00 【计算机视觉研究院】
关注并星标
从此不迷路
计算机视觉研究院



公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2206.05836.pdf
代码地址:https://github.com/microsoft/GLIP
计算机视觉研究院专栏
作者:Edison_G
提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。
01
概述
GLIPv2优雅地将localization预训练和视觉语言预训练 (VLP) 与三个预训练任务相结合:phrase grounding作为检测任务的VL重构,区域-词对比学习作为新的区域-词级对比学习任务和掩码语言建模。这种统一不仅简化了之前的多阶段VLP程序,而且实现了定位和理解任务之间的互惠互利。实验结果表明,单个GLIPv2模型(所有模型权重共享)在各种定位和理解任务上实现了接近SoTA的性能。该模型还展示了:
在开放词汇目标检测任务上的强大的零样本和少样本自适应性能;
在 VL 理解任务上的出色grounding能力
02
背景
最近,人们普遍关注构建通用视觉系统,也称为视觉基础模型,它可以同时解决各种视觉任务,例如图像分类、物体检测,以及视觉语言 (VL) 理解。特别感兴趣的是定位任务(例如,目标检测和分割)和VL理解任务(例如,VQA和图像字幕)之间的统一。
localization预训练有利于VL任务,“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一,旨在这两种任务之间互惠互利,简化预训练程序并降低预训练成本。
然而,这两种任务似乎有很大的不同:定位任务仅是视觉任务,需要细粒度的输出(例如,边界框或像素掩码),而VL理解任务强调两种模式之间的融合,需要高级语义输出。例如,答案或标题)。
03
新框架

Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2统一公式的核心是分类匹配技巧,它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配,这使模型能够直接从原始图像-文本数据中学习,并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中,我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。

GLIPv2 Pre-training
GLIPv2使用三个预训练损失进行预训练:来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter,以及标准掩码BERT中提出的语言建模损失Lmlm。

Transfer GLIPv2 to Localization and VL Tasks
我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外,GLIPv2可以在本地化的同时执行传统的VL任务(例如VQA),有效地使我们认为的每项任务都成为“基础的VL理解”任务。

GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
实验及可视化




THE END
转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606

往期推荐
边栏推荐
- 12 product management platforms that everyone is using
- Graduation season · advanced technology er
- 想请教一下,我在广州,到哪里开户比较好?现在网上开户安全么?
- SQLAchemy 常用操作
- 关于#SQL#的问题,如何解决?
- In the new database era, don't just learn Oracle and MySQL
- 数字藏品新一轮热度开启
- 投稿开奖丨轻量应用服务器征文活动(5月)奖励公布
- 使用强大的DBPack处理分布式事务(PHP使用教程)
- Button button clear border
猜你喜欢

Addition, deletion, modification and query of database

数字藏品市场新局面

Error: missing revert data in call exception

Detailed explanation of linear regression in machine learning

Simulink simulation circuit model of open loop buck buck buck chopper circuit based on MATLAB

Sqlachemy common operations

Yoda unified data application -- Exploration and practice of fusion computing in ant risk scenarios

CRC check

106. construct binary tree from middle order and post order traversal sequence

12款大家都在用的产品管理平台
随机推荐
Valgrind usage of memory leak locating tool
12 product management platforms that everyone is using
2022年已经过去一半了,是不是很突然呢?
内存泄漏定位工具之 valgrind 使用
【MPC】②quadprog求解正定、半正定、负定二次规划
. Net 5.0+ does not need to rely on third-party native implementation of scheduled tasks
Half of 2022 has passed, isn't it sudden?
Can MySQL CDC take out the op field
Today in history: the semiconductor war in the late 1990s; Von Neumann published the first draft; CBS acquires CNET
数字藏品市场新局面
Oracle和JSON的结合
Huawei HMS core joins hands with hypergraph to inject new momentum into 3D GIS
Lack of comparator, operational amplifier to save the field! (the op amp is recorded as a comparator circuit)
缺少比较器,运放来救场!(运放当做比较器电路记录)
106. construct binary tree from middle order and post order traversal sequence
Recommend a JSON visualization tool artifact!
NC | 肠道细胞和乳酸菌共同作用来防止念珠菌感染
[MPC] ② quadprog solves positive definite, semi positive definite and negative definite quadratic programming
Personal mall two open Xiaoyao B2C mall system source code - Commercial Version / group shopping discount seckill source code
New situation of digital collection market