当前位置:网站首页>论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】
论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】
2022-07-06 23:35:00 【hei_hei_hei_】
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention
概要
- 发表:ACMM 2021
- 代码:MMAC
- idea:本文提出了一种新的视频描述任务,以自我为中心的视觉描述(例如第一人称视角、第三人称视角),可以用于更近距离的视觉描述。同时,为了缓解设备等原因可能导致的运动模糊、遮挡等问题,使用传感器进行视觉描述的辅助工具。
在网络设计上,主要是两大模块:AMMT模块用于合并视觉特征 h v h_v hv和传感器特征 h s h_s hs得到合并的特征 h V + S h_{V+S} hV+S,然后将这三种特征( h v , h s , h V + S h_v, h_s, h_{V+S} hv,hs,hV+S)输入到DMA模块中对其进行选择性的注意力学习。然后输入GRU中进行word生成
详细设计
1. 特征提取
- 视觉特征 h V h_V hV:Vgg16
- 传感器特征 h S h_S hS:LSTM(时序)
2. Asymmetric Multi-modal Transformation(AMMT)
实质上是特征合并
出处:FiLM: Visual Reasoning with a General Conditioning Layer,知识点参考feature-wise linear modulation
ps:初始化 W c = I , b c = 0 W_c=I, b_c=0 Wc=I,bc=0,即初始化为concate,随着训练的深入,学习二者的合并特征
注意这里输出的特征是三种特征:
(1) 视觉特征 h V h_V hV
(2)传感器特征 h S h_S hS
(3)合并的特征 h V + S h_{V+S} hV+S
- 一些使用不对称的解释
一方面缓解数据冗余可能带来的过拟合;另一方面,传感器数据中有时包含不需要的噪声,因此需要对它进行调节。
3. Dynamic Modal Attention (DMA)
对三种特征进行动态选择注意力
这里使用了Gumbel Softmax
ps:使用三种特征的原因:因为在许多情况下,只使用单一模态是可取的(例如,包含不需要的噪声的传感器数据)。
边栏推荐
- Zhang Ping'an: accelerate cloud digital innovation and jointly build an industrial smart ecosystem
- Y58. Chapter III kubernetes from entry to proficiency - continuous integration and deployment (Sany)
- LinkedBlockingQueue源码分析-初始化
- 全链路压测:影子库与影子表之争
- [QT] custom control loading
- qt 简单布局 盒子模型 加弹簧
- 《2》 Label
- DOM-节点对象+时间节点 综合案例
- DFS, BFS and traversal search of Graphs
- Where is NPDP product manager certification sacred?
猜你喜欢
随机推荐
DFS,BFS以及图的遍历搜索
在米家、欧瑞博、苹果HomeKit趋势下,智汀如何从中脱颖而出?
Timer create timer
When deleting a file, the prompt "the length of the source file name is greater than the length supported by the system" cannot be deleted. Solution
TabLayout修改自定义的Tab标题不生效问题
app clear data源码追踪
PMP证书有没有必要续期?
Phenomenon analysis when Autowired annotation is used for list
实现网页内容可编辑
JVM(十九) -- 字节码与类的加载(四) -- 再谈类的加载器
window定时计划任务
【js组件】date日期显示。
np. random. Shuffle and np Use swapaxis or transfer with caution
《2》 Label
Talk about mvcc multi version concurrency controller?
Timer创建定时器
Window scheduled tasks
1.AVL树:左右旋-bite
JHOK-ZBG2漏电继电器
Use, configuration and points for attention of network layer protocol (taking QoS as an example) when using OPNET for network simulation