当前位置:网站首页>论文阅读【Learning to Discretely Compose Reasoning Module Networks for Video Captioning】
论文阅读【Learning to Discretely Compose Reasoning Module Networks for Video Captioning】
2022-07-01 18:43:00 【hei_hei_hei_】
Learning to Discretely Compose Reasoning Module Networks for Video Captioning
1. 概要
- 发表:IJCAI 2020
- 代码:https://github.com/tgc1997/RMN
- idea:作者认为视频描述的生成是step-by-step的。对于一个句子的生成,首先需要定位和描述主语subject,接着推理动作,然后定位和描述宾语object。而这样一个过程,作者认为是需要复杂的时空推理。对于推理模块,作者设计了三个模块locate,relate,func,分别用于定位目标(2D),推理关系(3D)以及一些连词的生成(如a、the、and);对于选择模块,作者设计了Module Selector用于在生成下一个单词的时候选择上述模块中的一种。
2. 详细设计
2.1 Encoder
- 特征提取:分别使用2D-CNN, 3D-CNN, R-CNN提取了视频的appearance feature V a V_a Va, motion feature V m V_m Vm,object feature V o V_o Vo。注意这里的 V o V_o Vo是具有位置信息的(代码中有体现)
- 特征处理:对于 V a V_a Va和 V m V_m Vm,作者分别使用了Bi-LATMs处理以在特征中融入时间信息。
- 整个网络的指导信息 h t e n h_t^{en} hten:LSTM的隐层输出。输入是全局视觉信息 v ˉ \bar v vˉ,上一step生成的最后一个单词的embedding以及隐层状态
2.2 Reasoning Modules
所有的推理模块都是基于下面这个attention计算(Neural machine translation by jointly learning to align and translate.ICLR 2015)
这种方式定义的attention可以沿着指定纬度,为了更好的对空间和时间方向建模,作者分别定义了时间纬度和空间纬度上的attention: A o S ( ⋅ ) AoS(\cdot) AoS(⋅)和 A o T ( ⋅ ) AoT(\cdot) AoT(⋅)
- Locate Module
主要是为了生成object words,如“man”、“basketball”等。需要模块在时间和空间上关注region信息,因此作者先将 V o V_o Vo送进 A o S ( ⋅ ) AoS(\cdot) AoS(⋅),然后再和 V a V_a Va一起送进 A o T ( ⋅ ) AoT(\cdot) AoT(⋅)
这里的 ⨁ \bigoplus ⨁表示concate操作 - Relate Module
主要是为了生成动词,例如“shoting”、“riding”等。在如下图所示的图片中,为了生成动词“shoting”,模型需要注意到不同场景中object状态的变化,因此在Relate Module中对任意的每一对空间attention处理后的 V o V_o Vo进行了配对,然后再执行时间attention - Func Module
主要是为了生成一些连词使整个句子连贯,如“of”,“and”等。这里不需要视觉信息,只需要语言信息,因此对decoder LSTM的历史cell states执行AoT
可以发现这三个模块都是紧紧围绕着这一小节最开始提到的attention操作进行的,将 h t e n h_t^{en} hten作为attention的Q。
Module Selector
在生成模块中,每一个step生成的word只能是上述三个模块中的一种,因此需要设计一个选择模块进行选择。具体实现是对每一个模块进行打分,然后选择最高分。打分函数设计如下:
但是由于max函数不可微,所以作者使用了一种近似方法将one-hot vector z t z_t zt转换为连续的值 z t ~ \tilde {z_t} zt~
最终的视觉推理结果为:
这里的 ⨂ \bigotimes ⨂表示inner product
Decoder
用了个LSTM进行解码,输入为视觉信息结果 v t v_t vt,encoder的隐层
然后将视觉信息、隐层信息接一个MLP输出对应词典的概率分布得到生成的word
Training
- Caption Loss:cross-entropy loss
用于衡量生成句子的准确度
T T T表示句子长度 - POS Loss:KLD loss
用于衡量选择模块的准确性,具体是将句子的POS转换为one-hot编码,然后使用KLD(Kullback-Leibler Divergence) loss来衡量两个分布的相似度。实际在代码中实现也是用的cross-entropy loss - 最终的loss
边栏推荐
- Lumiprobe phosphide hexaethylene phosphide specification
- MySQL常用图形管理工具 | 黑马程序员
- M91 fast hall measuring instrument - better measurement in a shorter time
- Database foundation: select basic query statement
- Lumiprobe 亚磷酰胺丨六甘醇亚磷酰胺说明书
- Bao, que se passe - t - il si le serveur 100 + O & M a mal à la tête? Utilisez le majordome xingyun!
- Today, with the popularity of micro services, how does service mesh exist?
- 数据库基础:select基本查询语句
- AppGallery Connect场景化开发实战—图片存储分享
- How to realize the bottom layer of read-write lock in go question bank 16
猜你喜欢
The former 4A executives engaged in agent operation and won an IPO
Lake Shore - crx-em-hf low temperature probe station
数商云:从规划到落地,五矿集团如何快速构建数字化发展新格局?
中英说明书丨人可溶性晚期糖基化终末产物受体(sRAGE)Elisa试剂盒
洞态在某互联⽹⾦融科技企业的最佳落地实践
如何使用物联网低代码平台进行个人设置?
Chaos engineering platform chaosblade box new heavy release
Getting started with kubernetes command (namespaces, pods)
2. Create your own NFT collections and publish a Web3 application to show them start and run your local environment
CDGA|从事通信行业,那你应该考个数据管理证书
随机推荐
Lumiprobe 自由基分析丨H2DCFDA说明书
[quick application] there are many words in the text component. How to solve the problem that the div style next to it will be stretched
More information about M91 fast hall measuring instrument
微服务大行其道的今天,Service Mesh是怎样一种存在?
Stanford, salesforce|maskvit: masked vision pre training for video prediction
SuperVariMag 超导磁体系统 — SVM 系列
linux下清理系统缓存并释放内存
2020, the regular expression for mobile phone verification of the latest mobile phone number is continuously updated
241. Different Ways to Add Parentheses
精益思想:来源,支柱,落地。看了这篇文章就懂了
Lake Shore 连续流动低温恒温器传输线
lefse分析
Gameframework eating guide
bean的生命周期核心步骤总结
Lumiprobe 亚磷酰胺丨六甘醇亚磷酰胺说明书
XML语法、约束
Supervarimag superconducting magnet system SVM series
PostgreSQL varchar[] 数组类型操作
网易游戏,激进出海
【直播预约】数据库OBCP认证全面升级公开课