当前位置:网站首页>论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
2022-07-06 23:35:00 【hei_hei_hei_】
Semantic Tag Augmented XlanV Model for Video Captioning
- 发表:ACMM 2021
- 代码:ST-XlanV
- idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment
详细设计

感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
1. Semantic Tag Augmented XlanV Model
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
2. Cross-modal Attention
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
C ~ \widetilde C C表示平均池化后的特征, E y t − 1 E_{y_{t-1}} Eyt−1表示上一时刻输出词的embedding
3. Pre-training Tasks
- Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换

- Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词

- Video Captioning(VCAP):caption generation

实验结果
Ablative Studies

总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现Performance Comparison

P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略
边栏推荐
- JVM (19) -- bytecode and class loading (4) -- talk about class loader again
- y58.第三章 Kubernetes从入门到精通 -- 持续集成与部署(三一)
- 1.AVL树:左右旋-bite
- Let f (x) = Σ x^n/n^2, prove that f (x) + F (1-x) + lnxln (1-x) = Σ 1/n^2
- 《2》 Label
- [PHP SPL notes]
- 基于 hugging face 预训练模型的实体识别智能标注方案:生成doccano要求json格式
- [question] Compilation Principle
- MySQL数据库学习(8) -- mysql 内容补充
- 最长回文子串(动态规划)
猜你喜欢

10 distributed databases that take you to the galaxy

Photo selector collectionview

利用OPNET进行网络单播(一服务器多客户端)仿真的设计、配置及注意点

window定时计划任务

SQL injection HTTP header injection

Complete code of C language neural network and its meaning

Annotation初体验

Zhang Ping'an: accelerate cloud digital innovation and jointly build an industrial smart ecosystem

JHOK-ZBL1漏电继电器

Pytest testing framework -- data driven
随机推荐
U++4 interface learning notes
Vector and class copy constructors
app clear data源码追踪
LabVIEW is opening a new reference, indicating that the memory is full
[QT] custom control loading
MySQL数据库学习(8) -- mysql 内容补充
[opencv] image morphological operation opencv marks the positions of different connected domains
Complete code of C language neural network and its meaning
【问道】编译原理
10 distributed databases that take you to the galaxy
《2》 Label
Auto.js 获取手机所有app名字
Zhang Ping'an: accelerate cloud digital innovation and jointly build an industrial smart ecosystem
qt 简单布局 盒子模型 加弹簧
Two methods of thread synchronization
QT simple layout box model with spring
高级程序员必知必会,一文详解MySQL主从同步原理,推荐收藏
1.AVL树:左右旋-bite
SQL injection cookie injection
漏电继电器JOLX-GS62零序孔径Φ100