当前位置：网站首页>论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】

论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】

2022-07-06 23:35:00 【hei_hei_hei_】

Semantic Tag Augmented XlanV Model for Video Captioning

发表：ACMM 2021
代码：ST-XlanV
idea：通过预训练的模型生成semantic tag减小模态之间的差异，增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment

详细设计

在这里插入图片描述
感觉ACMM这几篇的思路都很类似，都和原始的X-Linear那篇很像，只是将其扩展到多模态。

1. Semantic Tag Augmented XlanV Model

大致框架与上一篇类似，都是对multi-modal feature分别通过XLAN encoder提取高阶特征，然后concate之后输入cross encoder中提取包含cross-modal interactions的feature，最后输入LSTM中解码并生成captions

2. Cross-modal Attention

各个特征通过各自的encoder编码后加上位置信息，然后concate在一起并输入一个XLAN encoder中，输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下：
在这里插入图片描述
$\widetilde C$ 表示平均池化后的特征， $E_{y_{t-1}}$ 表示上一时刻输出词的embedding

3. Pre-training Tasks

Tag Alignment Prediction (TAP)：用其他标记随机替换当前视频的语义标记，概率为50%，并预测标记是否已被替换
Mask Language Modeling (MLM)：与bert类似，随机mask掉15%的输入的句子的词
Video Captioning(VCAP)：caption generation

实验结果

Ablative Studies

总结：semantic tag是架起vision和language的桥梁；预训练任务有利于模型能够充分利用multi-modal interactions；强化学习策略能够改善模型的表现
Performance Comparison

$P$ 表示模型使用了预训练任务； $R L$ 表示使用了强化学习策略