当前位置:网站首页>论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
论文阅读【Semantic Tag Augmented XlanV Model for Video Captioning】
2022-07-06 23:35:00 【hei_hei_hei_】
Semantic Tag Augmented XlanV Model for Video Captioning
- 发表:ACMM 2021
- 代码:ST-XlanV
- idea:通过预训练的模型生成semantic tag减小模态之间的差异,增强XlanV模型的能力。使用cross-modal attention捕捉动态&静态特征以及视觉&语义特征之间的交互。设计了三个预训练任务用于tag alignment
详细设计

感觉ACMM这几篇的思路都很类似,都和原始的X-Linear那篇很像,只是将其扩展到多模态。
1. Semantic Tag Augmented XlanV Model
大致框架与上一篇类似,都是对multi-modal feature分别通过XLAN encoder提取高阶特征,然后concate之后输入cross encoder中提取包含cross-modal interactions的feature,最后输入LSTM中解码并生成captions
2. Cross-modal Attention
各个特征通过各自的encoder编码后加上位置信息,然后concate在一起并输入一个XLAN encoder中,输出特征则为cross-modal feature。平均池化后输入LSTM中。具体计算如下:
C ~ \widetilde C C表示平均池化后的特征, E y t − 1 E_{y_{t-1}} Eyt−1表示上一时刻输出词的embedding
3. Pre-training Tasks
- Tag Alignment Prediction (TAP):用其他标记随机替换当前视频的语义标记,概率为50%,并预测标记是否已被替换

- Mask Language Modeling (MLM):与bert类似,随机mask掉15%的输入的句子的词

- Video Captioning(VCAP):caption generation

实验结果
Ablative Studies

总结:semantic tag是架起vision和language的桥梁;预训练任务有利于模型能够充分利用multi-modal interactions;强化学习策略能够改善模型的表现Performance Comparison

P P P表示模型使用了预训练任务; R L RL RL表示使用了强化学习策略
边栏推荐
- 利用OPNET进行网络单播(一服务器多客户端)仿真的设计、配置及注意点
- 全链路压测:影子库与影子表之争
- Vector and class copy constructors
- [Oracle] simple date and time formatting and sorting problem
- 人体传感器好不好用?怎么用?Aqara绿米、小米之间到底买哪个
- Pytest testing framework -- data driven
- PMP证书有没有必要续期?
- Summary of the mean value theorem of higher numbers
- 【QT】自定义控件-Loading
- QT控件样式系列(一)之QSlider
猜你喜欢

Error: No named parameter with the name ‘foregroundColor‘

漏电继电器JELR-250FG

利用OPNET进行网络指定源组播(SSM)仿真的设计、配置及注意点

Design, configuration and points for attention of network unicast (one server, multiple clients) simulation using OPNET

【问道】编译原理

在米家、欧瑞博、苹果HomeKit趋势下,智汀如何从中脱颖而出?

Annotation初体验

Torch optimizer small parsing

Senior programmers must know and master. This article explains in detail the principle of MySQL master-slave synchronization, and recommends collecting

Is it necessary to renew the PMP certificate?
随机推荐
Array initialization of local variables
DFS,BFS以及图的遍历搜索
ScheduledExecutorService定时器
Pytest testing framework -- data driven
Redis如何实现多可用区?
MySQL数据库学习(7) -- pymysql简单介绍
腾讯云数据库公有云市场稳居TOP 2!
If you‘re running pod install manually, make sure flutter pub get is executed first.
LinkedBlockingQueue源码分析-初始化
【PHP SPL笔记】
模拟线程通信
Error: No named parameter with the name ‘foregroundColor‘
Photo selector collectionview
Creation and use of thread pool
《4》 Form
带你遨游银河系的 10 种分布式数据库
Knapsack problem unrelated to profit (depth first search)
TabLayout修改自定义的Tab标题不生效问题
Sorry, I've learned a lesson
JVM(十九) -- 字节码与类的加载(四) -- 再谈类的加载器