当前位置:网站首页>[CVPR‘22 Oral2] TAN: Temporal Alignment Networks for Long-term Video
[CVPR‘22 Oral2] TAN: Temporal Alignment Networks for Long-term Video
2022-07-02 06:26:00 【想搞钱的小陈】
Title: Temporal Alignment Networks for Long-term Video
作者:Tengda Han, Weidi Xie, and Andrew Zisserman
发表单位:Visual Geometry Group, University of Oxford and Shanghai Jiao Tong University
关键词:clip、video
论文:https://arxiv.org/pdf/2204.02968.pdf
首先我并不是做视频的方向,如有错误,欢迎指正。
摘要
本文的目标是建立一个时间对齐网络,该网络吸收长期视频序列和相关的文本句子,以便:(1)确定句子是否与视频对齐;和(2)如果可对齐,则确定其对齐。面临的挑战是从大规模数据集(如HowTo100M)中训练这样的网络,其中相关的文本句子具有显著的噪声,并且在相关时只有弱对齐。
除了提出对齐网络外,我们还做出了四个贡献:(i)我们描述了一种新的协同训练方法,该方法能够在噪声较大的情况下,不使用手动注释对原始教学视频进行去噪和训练;(ii)为了对对齐性能进行基准测试,我们手动curate了一个10小时的HowTo100M子集,总共80个视频,其时间描述很少。我们提出的模型,经过HowTo100M的训练,在这个对齐数据集上比强基线(CLIP,MIL-NCE)有很大的优势;(iii)我们将零镜头设置下的训练模型应用于多个下游视频理解任务,并实现最先进的结果,包括YouCook2上的文本视频检索,以及早餐动作上的弱监督视频动作分割;(iv)我们使用automaticallyaligned HowTo100M注释对主干模型进行端到端微调,并在下游动作识别任务上获得更好的性能。
预备知识
视频对齐
如下图所示,就是希望文字和图片能够相对应,蓝色代表的是可对齐文本,橙色代表的是这个文本不可对齐(因为这句话描述的可能是实物的味道,时间等)。

任务描述
给定一个未修剪的视频X={I,S},其中I={I1,I2, ..., IT},T 代表有T个帧。S={S1,...,Sk},K代表K个句子(按时间排序)。对于第k个句子,我们有对应的时间戳([t_k^start, t_k^end])。我们的目标是通过一个非线性函数
得到{y_hat, A_hat}.

其中,y_hat是所有句子的一个二分类数,所以维度是K*2.这个二分类数代表这个句子是否是一个可对齐文本。A_hat是一个图片与文本的对齐矩阵。
TAN

TAN的结构如上图左所示。图片通过S3D-G backbone提取特征,得到vision token,文本通过word2vec embedding+ 2 linear 得到text token,两者进通过一个multimodal transformer得到具有交互信息的
和
。这两者在通过cosine similarity计算得到一个对齐矩阵。同时,
用1个linear layer来输出y_hat.公式总结如下:



Training
用对比学习的方式学习。InfoNCE。公式如图。(这块部分有点不太明白)

Co-training
co-training是核心,作者首先提出了一个dual encoder,如图2的右所示,dual encoder是没有信息交互的,只有在最后计算矩阵的时候有信息交互。作者认为这样可以让模型更加敏感。

如图3(a)与图3(b)所示,这是TAN和dual encoder的相似度矩阵,联合TAN和Dual encoder的输出,将TAN的输出与Dual-Encoder的输出计算IoU,如果超过某个阈值,那就将2者的输出结果做一个并为pseudo-labels。如果没有超过阈值,那就保留之前的标签。
边栏推荐
- 华为机试题-20190417
- 读《敏捷整洁之道:回归本源》后感
- 【论文介绍】R-Drop: Regularized Dropout for Neural Networks
- Oracle RMAN semi automatic recovery script restore phase
- [paper introduction] r-drop: regulated dropout for neural networks
- 类加载器及双亲委派机制
- Oracle EBS ADI development steps
- view的绘制机制(一)
- How to efficiently develop a wechat applet
- 常见CNN网络创新点
猜你喜欢

Tencent machine test questions

MySQL has no collation factor of order by

SSM second hand trading website

Play online games with mame32k

MMDetection安装问题

软件开发模式之敏捷开发(scrum)
![[introduction to information retrieval] Chapter 3 fault tolerant retrieval](/img/75/ac2fdcd256f5c2336ca53c7a2744b8.png)
[introduction to information retrieval] Chapter 3 fault tolerant retrieval

使用 Compose 实现可见 ScrollBar

Faster-ILOD、maskrcnn_benchmark安装过程及遇到问题

spark sql任务性能优化(基础)
随机推荐
Ding Dong, here comes the redis om object mapping framework
腾讯机试题
spark sql任务性能优化(基础)
Oracle RMAN automatic recovery script (migration of production data to test)
架构设计三原则
Transform the tree structure into array in PHP (flatten the tree structure and keep the sorting of upper and lower levels)
华为机试题-20190417
Faster-ILOD、maskrcnn_benchmark训练coco数据集及问题汇总
Module not found: Error: Can't resolve './$$_ gendir/app/app. module. ngfactory'
CSRF attack
[medical] participants to medical ontologies: Content Selection for Clinical Abstract Summarization
Analysis of MapReduce and yarn principles
Oracle EBS ADI development steps
深度学习分类优化实战
Delete the contents under the specified folder in PHP
使用 Compose 实现可见 ScrollBar
Oracle EBS interface development - quick generation of JSON format data
ssm垃圾分类管理系统
Two table Association of pyspark in idea2020 (field names are the same)
常见的机器学习相关评价指标