当前位置:网站首页>论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
2022-07-06 23:35:00 【hei_hei_hei_】
Semantic Tag Augmented XlanV Model for Video Captioning
- 发表:ACMM 2021
- 代码:ST-XlanV
- idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment
详细设计

感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
1. Semantic Tag Augmented XlanV Model
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
2. Cross-modal Attention
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
C ~ \widetilde C C表示平均池化后的特征, E y t − 1 E_{y_{t-1}} Eyt−1表示上一时刻输出词的embedding
3. Pre-training Tasks
- Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换

- Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词

- Video Captioning(VCAP):caption generation

实验结果
Ablative Studies

总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现Performance Comparison

P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略
边栏推荐
猜你喜欢

The sooner you understand the four rules of life, the more blessed you will be

AOSP ~binder communication principle (I) - Overview

Life experience of an update statement

U++ metadata specifier learning notes

SQL injection HTTP header injection
![[question] Compilation Principle](/img/ce/71f8409ba2cebd497bed0210290895.png)
[question] Compilation Principle

SQL injection cookie injection

DJ-ZBS2漏电继电器

利用OPNET进行网络仿真时网络层协议(以QoS为例)的使用、配置及注意点

基于 hugging face 预训练模型的实体识别智能标注方案:生成doccano要求json格式
随机推荐
【PHP SPL笔记】
Photo selector collectionview
Mysql database learning (7) -- a brief introduction to pymysql
Leetcode (46) - Full Permutation
漏电继电器JELR-250FG
高压漏电继电器BLD-20
Writing process of the first paper
JHOK-ZBL1漏电继电器
Timer创建定时器
1.AVL树:左右旋-bite
漏电继电器JOLX-GS62零序孔径Φ100
【QT】自定义控件-Loading
基于 hugging face 预训练模型的实体识别智能标注方案:生成doccano要求json格式
np. random. Shuffle and np Use swapaxis or transfer with caution
NPDP产品经理认证,到底是何方神圣?
A cool "ghost" console tool
How Alibaba cloud's DPCA architecture works | popular science diagram
《4》 Form
Phenomenon analysis when Autowired annotation is used for list
《5》 Table