当前位置:网站首页>[CVPR‘22 Oral2] TAN: Temporal Alignment Networks for Long-term Video
[CVPR‘22 Oral2] TAN: Temporal Alignment Networks for Long-term Video
2022-07-02 06:26:00 【想搞钱的小陈】
Title: Temporal Alignment Networks for Long-term Video
作者:Tengda Han, Weidi Xie, and Andrew Zisserman
发表单位:Visual Geometry Group, University of Oxford and Shanghai Jiao Tong University
关键词:clip、video
论文:https://arxiv.org/pdf/2204.02968.pdf
首先我并不是做视频的方向,如有错误,欢迎指正。
摘要
本文的目标是建立一个时间对齐网络,该网络吸收长期视频序列和相关的文本句子,以便:(1)确定句子是否与视频对齐;和(2)如果可对齐,则确定其对齐。面临的挑战是从大规模数据集(如HowTo100M)中训练这样的网络,其中相关的文本句子具有显著的噪声,并且在相关时只有弱对齐。
除了提出对齐网络外,我们还做出了四个贡献:(i)我们描述了一种新的协同训练方法,该方法能够在噪声较大的情况下,不使用手动注释对原始教学视频进行去噪和训练;(ii)为了对对齐性能进行基准测试,我们手动curate了一个10小时的HowTo100M子集,总共80个视频,其时间描述很少。我们提出的模型,经过HowTo100M的训练,在这个对齐数据集上比强基线(CLIP,MIL-NCE)有很大的优势;(iii)我们将零镜头设置下的训练模型应用于多个下游视频理解任务,并实现最先进的结果,包括YouCook2上的文本视频检索,以及早餐动作上的弱监督视频动作分割;(iv)我们使用automaticallyaligned HowTo100M注释对主干模型进行端到端微调,并在下游动作识别任务上获得更好的性能。
预备知识
视频对齐
如下图所示,就是希望文字和图片能够相对应,蓝色代表的是可对齐文本,橙色代表的是这个文本不可对齐(因为这句话描述的可能是实物的味道,时间等)。

任务描述
给定一个未修剪的视频X={I,S},其中I={I1,I2, ..., IT},T 代表有T个帧。S={S1,...,Sk},K代表K个句子(按时间排序)。对于第k个句子,我们有对应的时间戳([t_k^start, t_k^end])。我们的目标是通过一个非线性函数
得到{y_hat, A_hat}.

其中,y_hat是所有句子的一个二分类数,所以维度是K*2.这个二分类数代表这个句子是否是一个可对齐文本。A_hat是一个图片与文本的对齐矩阵。
TAN

TAN的结构如上图左所示。图片通过S3D-G backbone提取特征,得到vision token,文本通过word2vec embedding+ 2 linear 得到text token,两者进通过一个multimodal transformer得到具有交互信息的
和
。这两者在通过cosine similarity计算得到一个对齐矩阵。同时,
用1个linear layer来输出y_hat.公式总结如下:



Training
用对比学习的方式学习。InfoNCE。公式如图。(这块部分有点不太明白)

Co-training
co-training是核心,作者首先提出了一个dual encoder,如图2的右所示,dual encoder是没有信息交互的,只有在最后计算矩阵的时候有信息交互。作者认为这样可以让模型更加敏感。

如图3(a)与图3(b)所示,这是TAN和dual encoder的相似度矩阵,联合TAN和Dual encoder的输出,将TAN的输出与Dual-Encoder的输出计算IoU,如果超过某个阈值,那就将2者的输出结果做一个并为pseudo-labels。如果没有超过阈值,那就保留之前的标签。
边栏推荐
- 实现接口 Interface Iterable<T>
- 常见CNN网络创新点
- 【模型蒸馏】TinyBERT: Distilling BERT for Natural Language Understanding
- [introduction to information retrieval] Chapter 7 scoring calculation in search system
- PHP returns the abbreviation of the month according to the numerical month
- 矩阵的Jordan分解实例
- 使用 Compose 实现可见 ScrollBar
- Classloader and parental delegation mechanism
- 【论文介绍】R-Drop: Regularized Dropout for Neural Networks
- Delete the contents under the specified folder in PHP
猜你喜欢

SSM supermarket order management system

Analysis of MapReduce and yarn principles

读《敏捷整洁之道:回归本源》后感

【信息检索导论】第三章 容错式检索

Illustration of etcd access in kubernetes

Oracle EBs and apex integrated login and principle analysis
![[introduction to information retrieval] Chapter 1 Boolean retrieval](/img/78/df4bcefd3307d7cdd25a9ee345f244.png)
[introduction to information retrieval] Chapter 1 Boolean retrieval

Three principles of architecture design

【信息检索导论】第一章 布尔检索

自然辩证辨析题整理
随机推荐
Oracle 11.2.0.3 handles the problem of continuous growth of sysaux table space without downtime
使用百度网盘上传数据到服务器上
使用 Compose 实现可见 ScrollBar
Two table Association of pyspark in idea2020 (field names are the same)
叮咚,Redis OM对象映射框架来了
@Transational踩坑
Huawei machine test questions-20190417
[medical] participants to medical ontologies: Content Selection for Clinical Abstract Summarization
【Torch】最简洁logging使用指南
PHP uses the method of collecting to insert a value into the specified position in the array
【Ranking】Pre-trained Language Model based Ranking in Baidu Search
架构设计三原则
Determine whether the version number is continuous in PHP
聊天中文语料库对比(附上各资源链接)
传统目标检测笔记1__ Viola Jones
[paper introduction] r-drop: regulated dropout for neural networks
離線數倉和bi開發的實踐和思考
常见的机器学习相关评价指标
Sparksql data skew
Optimization method: meaning of common mathematical symbols