当前位置:网站首页>“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
2022-07-01 10:54:00 【计算机视觉研究院】
关注并星标
从此不迷路
计算机视觉研究院



公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2206.05836.pdf
代码地址:https://github.com/microsoft/GLIP
计算机视觉研究院专栏
作者:Edison_G
提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。
01
概述
GLIPv2优雅地将localization预训练和视觉语言预训练 (VLP) 与三个预训练任务相结合:phrase grounding作为检测任务的VL重构,区域-词对比学习作为新的区域-词级对比学习任务和掩码语言建模。这种统一不仅简化了之前的多阶段VLP程序,而且实现了定位和理解任务之间的互惠互利。实验结果表明,单个GLIPv2模型(所有模型权重共享)在各种定位和理解任务上实现了接近SoTA的性能。该模型还展示了:
在开放词汇目标检测任务上的强大的零样本和少样本自适应性能;
在 VL 理解任务上的出色grounding能力
02
背景
最近,人们普遍关注构建通用视觉系统,也称为视觉基础模型,它可以同时解决各种视觉任务,例如图像分类、物体检测,以及视觉语言 (VL) 理解。特别感兴趣的是定位任务(例如,目标检测和分割)和VL理解任务(例如,VQA和图像字幕)之间的统一。
localization预训练有利于VL任务,“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一,旨在这两种任务之间互惠互利,简化预训练程序并降低预训练成本。
然而,这两种任务似乎有很大的不同:定位任务仅是视觉任务,需要细粒度的输出(例如,边界框或像素掩码),而VL理解任务强调两种模式之间的融合,需要高级语义输出。例如,答案或标题)。
03
新框架

Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2统一公式的核心是分类匹配技巧,它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配,这使模型能够直接从原始图像-文本数据中学习,并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中,我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。

GLIPv2 Pre-training
GLIPv2使用三个预训练损失进行预训练:来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter,以及标准掩码BERT中提出的语言建模损失Lmlm。

Transfer GLIPv2 to Localization and VL Tasks
我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外,GLIPv2可以在本地化的同时执行传统的VL任务(例如VQA),有效地使我们认为的每项任务都成为“基础的VL理解”任务。

GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
实验及可视化




THE END
转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
VX:2311123606

往期推荐
边栏推荐
- NC | intestinal cells and lactic acid bacteria work together to prevent Candida infection
- [.NET6]使用ML.NET+ONNX预训练模型整活B站经典《华强买瓜》
- Suggest collecting | what to do when encountering slow SQL on opengauss?
- Ten years of sharpening a sword: unveiling the secrets of ant group's observability platform antmonitor
- 谷歌新论文-Minerva:用语言模型解决定量推理问题
- Development overview of fund internationalization
- CRC check
- 基金国际化的发展概况
- What legal risks and qualifications should be paid attention to when building a digital collection platform?
- 想请教一下,我在广州,到哪里开户比较好?现在网上开户安全么?
猜你喜欢

数字藏品平台搭建需要注意哪些法律风险及资质?

How to solve the problem of SQL?

云上“视界” 创新无限 | 2022阿里云直播峰会正式上线

十年磨一剑:蚂蚁集团可观测性平台 AntMonitor 揭秘

bash: ln: command not found

What legal risks and qualifications should be paid attention to when building a digital collection platform?

JS基础--数据类型

北汽蓝谷:业绩承压,极狐难期

机器学习之线性回归详解

Recommend a JSON visualization tool artifact!
随机推荐
Rising stars in Plant Sciences (rsps2022) final Science Lecture (6.30 pm)
数字藏品市场新局面
Design and practice of new generation cloud native database
Does anyone know why? The table structure is the source table MySQL CDC that has just been directly copied
prism journal导航按钮的可用性探索记录
【邂逅Django】——(二)数据库配置
商城小程序源码开源版-可二开
机器学习之线性回归详解
云上“视界” 创新无限 | 2022阿里云直播峰会正式上线
What legal risks and qualifications should be paid attention to when building a digital collection platform?
Addition, deletion, modification and query of database
Uncover the secrets of new products! Yadi Guanneng 3 multi product matrix to meet the travel needs of global users
Valgrind usage of memory leak locating tool
Oracle和JSON的結合
What a high commission! The new programmer's partner plan is coming. Everyone can participate!
12. Gateway new generation gateway
Ask everyone in the group about the fact that the logminer scheme of flick Oracle CDC has been used to run stably in production
Kotlin coprocessor scheduling switch threads it's time to unravel the truth
flutter Uint8List格式的图片和File格式图片的互相转换
LeetCode 438. Find all letter ectopic words in the string__ sliding window