当前位置:网站首页>论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
2022-07-06 23:35:00 【hei_hei_hei_】
Semantic Tag Augmented XlanV Model for Video Captioning
- 发表:ACMM 2021
- 代码:ST-XlanV
- idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment
详细设计
感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
1. Semantic Tag Augmented XlanV Model
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
2. Cross-modal Attention
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
C ~ \widetilde C C表示平均池化后的特征, E y t − 1 E_{y_{t-1}} Eyt−1表示上一时刻输出词的embedding
3. Pre-training Tasks
- Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换
- Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词
- Video Captioning(VCAP):caption generation
实验结果
Ablative Studies
总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现Performance Comparison
P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略
边栏推荐
- If you want to choose some departments to give priority to OKR, how should you choose pilot departments?
- Redis如何实现多可用区?
- 张平安:加快云上数字创新,共建产业智慧生态
- Two person game based on bevy game engine and FPGA
- Creation and use of thread pool
- 高级程序员必知必会,一文详解MySQL主从同步原理,推荐收藏
- Development thoughts of adding new requirements in secondary development
- 1.AVL树:左右旋-bite
- qt 简单布局 盒子模型 加弹簧
- 《5》 Table
猜你喜欢
U++ metadata specifier learning notes
qt 简单布局 盒子模型 加弹簧
Leetcode (417) -- Pacific Atlantic current problem
在米家、欧瑞博、苹果HomeKit趋势下,智汀如何从中脱颖而出?
利用OPNET进行网络指定源组播(SSM)仿真的设计、配置及注意点
Record a pressure measurement experience summary
【opencv】图像形态学操作-opencv标记不同连通域的位置
数字化创新驱动指南
U++4 interface learning notes
高级程序员必知必会,一文详解MySQL主从同步原理,推荐收藏
随机推荐
Vector and class copy constructors
How can project managers counter attack with NPDP certificates? Look here
qt 简单布局 盒子模型 加弹簧
DFS,BFS以及图的遍历搜索
局部变量的数组初始化问题
Pytest testing framework -- data driven
实现网页内容可编辑
Development thoughts of adding new requirements in secondary development
c语言神经网络基本代码大全及其含义
window定时计划任务
删除文件时提示‘源文件名长度大于系统支持的长度’无法删除解决办法
背包问题(01背包,完全背包,动态规划)
最长不下降子序列(LIS)(动态规划)
Linkedblockingqueue source code analysis - initialization
Longest non descent subsequence (LIS) (dynamic programming)
DFS, BFS and traversal search of Graphs
Longest palindrome substring (dynamic programming)
AOSP ~binder communication principle (I) - Overview
Longest common subsequence (LCS) (dynamic programming, recursive)
LabVIEW is opening a new reference, indicating that the memory is full