当前位置:网站首页>论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
2022-07-06 23:35:00 【hei_hei_hei_】
Semantic Tag Augmented XlanV Model for Video Captioning
- 发表:ACMM 2021
- 代码:ST-XlanV
- idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment
详细设计

感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
1. Semantic Tag Augmented XlanV Model
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
2. Cross-modal Attention
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
C ~ \widetilde C C表示平均池化后的特征, E y t − 1 E_{y_{t-1}} Eyt−1表示上一时刻输出词的embedding
3. Pre-training Tasks
- Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换

- Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词

- Video Captioning(VCAP):caption generation

实验结果
Ablative Studies

总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现Performance Comparison

P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略
边栏推荐
- Linkedblockingqueue source code analysis - initialization
- 在米家、欧瑞博、苹果HomeKit趋势下,智汀如何从中脱颖而出?
- 做自媒体,有哪些免费下载视频剪辑素材的网站?
- Use Zhiyun reader to translate statistical genetics books
- Longest palindrome substring (dynamic programming)
- Mysql database learning (8) -- MySQL content supplement
- K6EL-100漏电继电器
- Leetcode (46) - Full Permutation
- 【js组件】date日期显示。
- Array initialization of local variables
猜你喜欢

y58.第三章 Kubernetes从入门到精通 -- 持续集成与部署(三一)

JVM (XX) -- performance monitoring and tuning (I) -- Overview

SQL injection HTTP header injection

Full link voltage test: the dispute between shadow database and shadow table

A cool "ghost" console tool

高级程序员必知必会,一文详解MySQL主从同步原理,推荐收藏

【js组件】自定义select

Is it necessary to renew the PMP certificate?

《4》 Form

The sooner you understand the four rules of life, the more blessed you will be
随机推荐
实现网页内容可编辑
Vector and class copy constructors
QT simple layout box model with spring
ScheduledExecutorService定时器
创始人负债10亿,开课吧即将“下课”?
SQL injection HTTP header injection
腾讯云数据库公有云市场稳居TOP 2!
人体传感器好不好用?怎么用?Aqara绿米、小米之间到底买哪个
Use Zhiyun reader to translate statistical genetics books
y58.第三章 Kubernetes从入门到精通 -- 持续集成与部署(三一)
QSlider of QT control style series (I)
导航栏根据路由变换颜色
DFS, BFS and traversal search of Graphs
MySQL数据库学习(8) -- mysql 内容补充
K6EL-100漏电继电器
Writing process of the first paper
Operand of null-aware operation ‘!‘ has type ‘SchedulerBinding‘ which excludes null.
2039: [蓝桥杯2022初赛] 李白打酒加强版 (动态规划)
局部变量的数组初始化问题
pmp真的有用吗?