当前位置:网站首页>“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
2022-07-01 10:54:00 【计算机视觉研究院】
关注并星标
从此不迷路
计算机视觉研究院



公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2206.05836.pdf
代码地址:https://github.com/microsoft/GLIP
计算机视觉研究院专栏
作者:Edison_G
提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。
01
概述
GLIPv2优雅地将localization预训练和视觉语言预训练 (VLP) 与三个预训练任务相结合:phrase grounding作为检测任务的VL重构,区域-词对比学习作为新的区域-词级对比学习任务和掩码语言建模。这种统一不仅简化了之前的多阶段VLP程序,而且实现了定位和理解任务之间的互惠互利。实验结果表明,单个GLIPv2模型(所有模型权重共享)在各种定位和理解任务上实现了接近SoTA的性能。该模型还展示了:
在开放词汇目标检测任务上的强大的零样本和少样本自适应性能;
在 VL 理解任务上的出色grounding能力
02
背景
最近,人们普遍关注构建通用视觉系统,也称为视觉基础模型,它可以同时解决各种视觉任务,例如图像分类、物体检测,以及视觉语言 (VL) 理解。特别感兴趣的是定位任务(例如,目标检测和分割)和VL理解任务(例如,VQA和图像字幕)之间的统一。
localization预训练有利于VL任务,“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一,旨在这两种任务之间互惠互利,简化预训练程序并降低预训练成本。
然而,这两种任务似乎有很大的不同:定位任务仅是视觉任务,需要细粒度的输出(例如,边界框或像素掩码),而VL理解任务强调两种模式之间的融合,需要高级语义输出。例如,答案或标题)。
03
新框架

Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2统一公式的核心是分类匹配技巧,它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配,这使模型能够直接从原始图像-文本数据中学习,并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中,我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。

GLIPv2 Pre-training
GLIPv2使用三个预训练损失进行预训练:来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter,以及标准掩码BERT中提出的语言建模损失Lmlm。

Transfer GLIPv2 to Localization and VL Tasks
我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外,GLIPv2可以在本地化的同时执行传统的VL任务(例如VQA),有效地使我们认为的每项任务都成为“基础的VL理解”任务。

GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
实验及可视化




THE END
转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606

往期推荐
边栏推荐
- 678. Valid bracket string
- Venv: directory structure of venv
- [.NET6]使用ML.NET+ONNX预训练模型整活B站经典《华强买瓜》
- 【Matytype】在CSDN博客中插入Mathtype行间与行内公式
- CRC 校驗
- CRC check
- 106. 从中序与后序遍历序列构造二叉树
- Matplotlib数据可视化基础
- Suggest collecting | what to do when encountering slow SQL on opengauss?
- Personal mall two open Xiaoyao B2C mall system source code - Commercial Version / group shopping discount seckill source code
猜你喜欢

中国探月工程独家藏品限量发售!

A new round of popularity of digital collections opens

YoDA统一数据应用——融合计算在蚂蚁风险场景下的探索与实践

LeetCode. 515. Find the maximum value in each tree row___ BFS + DFS + BFS by layer

数据库实验报告(二)

CRC 校验

Combination of Oracle and JSON

个人商城二开逍遥B2C商城系统源码-可商用版/拼团拼购优惠折扣秒杀源码

venv: venv 的目录结构

Suggest collecting | what to do when encountering slow SQL on opengauss?
随机推荐
LeetCode. One question of the day: offer II 091 Paint the house (DP problem)
flutter Uint8List格式的图片和File格式图片的互相转换
北汽蓝谷:业绩承压,极狐难期
使用强大的DBPack处理分布式事务(PHP使用教程)
Development overview of fund internationalization
Addition, deletion, modification and query of database
新一代云原生数据库的设计与实践
106. 从中序与后序遍历序列构造二叉树
谷歌新论文-Minerva:用语言模型解决定量推理问题
Detailed explanation of linear regression in machine learning
选择在中金证券上炒股开户可以吗?安全吗?
数字藏品市场新局面
Compliance management of fund managers
106. construct binary tree from middle order and post order traversal sequence
Want to open an account, is it safe to open an account of Huatai Securities online?
PHP有哪些优势和劣势
Mutual conversion of pictures in fluent uint8list format and pictures in file format
Design and practice of new generation cloud native database
Button button clear border
[MPC] ② quadprog solves positive definite, semi positive definite and negative definite quadratic programming