当前位置：网站首页>论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】

论文阅读【Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention】

2022-07-06 23:35:00 【hei_hei_hei_】

Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention

概要

发表：ACMM 2021
代码：MMAC
idea：本文提出了一种新的视频描述任务，以自我为中心的视觉描述（例如第一人称视角、第三人称视角），可以用于更近距离的视觉描述。同时，为了缓解设备等原因可能导致的运动模糊、遮挡等问题，使用传感器进行视觉描述的辅助工具。
在网络设计上，主要是两大模块：AMMT模块用于合并视觉特征 $h_v$ 和传感器特征 $h_s$ 得到合并的特征 $h_{V+S}$ ，然后将这三种特征（ $h_v, h_s, h_{V+S}$ ）输入到DMA模块中对其进行选择性的注意力学习。然后输入GRU中进行word生成

详细设计

1. 特征提取

视觉特征 $h_V$ ：Vgg16
传感器特征 $h_S$ ：LSTM（时序）

2. Asymmetric Multi-modal Transformation（AMMT）

实质上是特征合并
出处：FiLM: Visual Reasoning with a General Conditioning Layer，知识点参考feature-wise linear modulation
在这里插入图片描述
ps：初始化 $W_c=I, b_c=0$ ，即初始化为concate，随着训练的深入，学习二者的合并特征