当前位置:网站首页>论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】
论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】
2022-07-06 23:35:00 【hei_hei_hei_】
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention
概要
- 发表:ACMM 2021
- 代码:MMAC
- idea:本文提出了一种新的视频描述任务,以自我为中心的视觉描述(例如第一人称视角、第三人称视角),可以用于更近距离的视觉描述。同时,为了缓解设备等原因可能导致的运动模糊、遮挡等问题,使用传感器进行视觉描述的辅助工具。
在网络设计上,主要是两大模块:AMMT模块用于合并视觉特征 h v h_v hv和传感器特征 h s h_s hs得到合并的特征 h V + S h_{V+S} hV+S,然后将这三种特征( h v , h s , h V + S h_v, h_s, h_{V+S} hv,hs,hV+S)输入到DMA模块中对其进行选择性的注意力学习。然后输入GRU中进行word生成
详细设计
1. 特征提取
- 视觉特征 h V h_V hV:Vgg16
- 传感器特征 h S h_S hS:LSTM(时序)
2. Asymmetric Multi-modal Transformation(AMMT)
实质上是特征合并
出处:FiLM: Visual Reasoning with a General Conditioning Layer,知识点参考feature-wise linear modulation
ps:初始化 W c = I , b c = 0 W_c=I, b_c=0 Wc=I,bc=0,即初始化为concate,随着训练的深入,学习二者的合并特征
注意这里输出的特征是三种特征:
(1) 视觉特征 h V h_V hV
(2)传感器特征 h S h_S hS
(3)合并的特征 h V + S h_{V+S} hV+S
- 一些使用不对称的解释
一方面缓解数据冗余可能带来的过拟合;另一方面,传感器数据中有时包含不需要的噪声,因此需要对它进行调节。
3. Dynamic Modal Attention (DMA)
对三种特征进行动态选择注意力
这里使用了Gumbel Softmax
ps:使用三种特征的原因:因为在许多情况下,只使用单一模态是可取的(例如,包含不需要的噪声的传感器数据)。
边栏推荐
- 做自媒体,有哪些免费下载视频剪辑素材的网站?
- QT控件样式系列(一)之QSlider
- 创始人负债10亿,开课吧即将“下课”?
- JHOK-ZBL1漏电继电器
- Operand of null-aware operation ‘!‘ has type ‘SchedulerBinding‘ which excludes null.
- Mysql database learning (7) -- a brief introduction to pymysql
- Safe landing practice of software supply chain under salesforce containerized ISV scenario
- 【问道】编译原理
- Aidl and service
- How can professional people find background music materials when doing we media video clips?
猜你喜欢
Torch optimizer small parsing
【问道】编译原理
全链路压测:影子库与影子表之争
Auto.js 获取手机所有app名字
Photo selector collectionview
DOM-节点对象+时间节点 综合案例
1.AVL树:左右旋-bite
U++4 interface learning notes
Design, configuration and points for attention of network unicast (one server, multiple clients) simulation using OPNET
照片选择器CollectionView
随机推荐
What changes will PMP certification bring?
JHOK-ZBG2漏电继电器
EGR-20USCM接地故障继电器
batch size设置技巧
一条 update 语句的生命经历
A cool "ghost" console tool
利用OPNET进行网络仿真时网络层协议(以QoS为例)的使用、配置及注意点
DJ-ZBS2漏电继电器
Dbsync adds support for mongodb and ES
Record a pressure measurement experience summary
Writing process of the first paper
When deleting a file, the prompt "the length of the source file name is greater than the length supported by the system" cannot be deleted. Solution
Annotation初体验
Two person game based on bevy game engine and FPGA
漏电继电器JELR-250FG
DOM node object + time node comprehensive case
漏电继电器JD1-100
SQL injection cookie injection
Let f (x) = Σ x^n/n^2, prove that f (x) + F (1-x) + lnxln (1-x) = Σ 1/n^2
Wonderful express | Tencent cloud database June issue