当前位置:网站首页>【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
2022-07-25 11:11:00 【chad_lee】
《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
快手和北大的工作,视频文本检索任务,即让视频和文本对齐,已经用于快手的各个场景中。
视频-文本对齐方法

现有的视频-文本对齐的方法有三类:
- Two-stream,文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer,然后在多模态 Transformer 中融合,代表方法例如 ViLBERT、LXMERT等。
- Single-stream,文本和视觉信息只通过一个多模态 Transformer 进行融合,代表方法例如 VisualBERT、Unicoder-VL等。
- Dual-stream,文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT、T2VLAD等。
显然第三类双塔类型的时间开销是最小的,本文也是采用双塔结构,以满足大规模视频文本检索需求。
本文主要有两个创新点:1、不仅在最后一层表征对齐,还在第一层表征对齐。2、引入MoCo的动量更新机制到对比学习匹配中。
第二点比较复杂,每个塔还有一个动量更新塔,因此一共用4个模型(四塔模型)存在。再加上两层对比学习loss,一对pair样本会有4个pair loss需要计算。
模型

首先所有的Encoder都是Transformer。
对于一对video-Text样本,text输入Query Text Encoder和Key Text Encoder,video抽帧,然后拉成序列再输入Query Video Encoder和Key Text Encoder。输出是所有token embedding的pooling。
所以一共有4个Encoder模型获得输入,分别有两个模型(Query-Key)的输入是相同的,Key模型是由Query模型动量更新的。
Key 模型也各自维护一个Text/Video负样本队列。分别有Video作为Query、Text作为Key的对比学习loss;还有Text作为Query、Video作为Key的loss。

然后又在底层和顶层计算loss,又翻倍,因此一共有4个loss。

实验

边栏推荐
- 【云驻共创】AI在数学界有哪些作用?未来对数学界会有哪些颠覆性影响?
- winddows 计划任务执行bat 执行PHP文件 失败的解决办法
- 【USB设备设计】--复合设备,双HID高速(64Byte 和 1024Byte)
- The first C language program (starting from Hello World)
- GPT plus money (OpenAI CLIP,DALL-E)
- 11. Reading rumors spread with deep learning
- Chapter 4 linear equations
- WIZnet W5500系列培训活动之“MQTT协议讲解和实践(接入OneNET)”
- brpc源码解析(五)—— 基础类resource pool详解
- W5500在处于TCP_Server模式下,在交换机/路由器网络中无法ping通也无法通讯。
猜你喜欢

Small program of vegetable distribution in community

The first C language program (starting from Hello World)

浅谈低代码技术在物流管理中的应用与创新

How to solve the problem that "w5500 chip cannot connect to the server immediately after power failure and restart in tcp_client mode"

brpc源码解析(二)—— brpc收到请求的处理过程

Meta-learning(元学习与少样本学习)

教你如何通过MCU配置S2E为TCP Client的工作模式

Risks in software testing phase

Go 垃圾回收器指南

Brpc source code analysis (VI) -- detailed explanation of basic socket
随机推荐
The principle analysis of filter to solve the request parameter garbled code
Brpc source code analysis (VI) -- detailed explanation of basic socket
W5500通过上位机控制实现调节LED灯带的亮度
Attendance system based on w5500
Multi-Label Image Classification(多标签图像分类)
php 一台服务器传图片到另一台上 curl post file_get_contents保存图片
php curl post Length Required 错误设置header头
A beautiful gift for girls from programmers, H5 cube, beautiful, exquisite, HD
如何解决“W5500芯片在TCP_Client模式下,断电重启之后无法立即连接到服务器”的问题
擎创科技加入龙蜥社区,共建智能运维平台新生态
Greedy problem 01_ Activity arrangement problem
Experimental reproduction of image classification (reasoning only) based on caffe resnet-50 network
小程序image 无法显示base64 图片 解决办法 有效
Review in the middle of 2022 | understand the latest progress of pre training model
任何时间,任何地点,超级侦探,认真办案!
基于TCP/IP在同一局域网下的数据传输
Functions in JS
Similarity matrix, diagonalization condition
JVM performance tuning methods
布局管理==PYQT5