当前位置：网站首页>论文阅读【Discriminative Latent Semantic Graph for Video Captioning】

论文阅读【Discriminative Latent Semantic Graph for Video Captioning】

2022-07-01 18:44:00 【hei_hei_hei_】

Discriminative Latent Semantic Graph for Video Captioning

文章目录

- Discriminative Latent Semantic Graph for Video Captioning

概要

发表：ACM MultiMedia 2021
代码：D-LSG
idea：为了加强object-level interactions和frame-level information（其实是为了常用的处理后的特征：2D-CNN、3D-CNN、R-CNN），作者主要分为三部分主要工作：Enhanced Object Proposal：使用Graph将时空上的特征融合到 latent object中；Visual Knowledge：聚合上述特征于 latent nodes 中并用来预测 semantic words；Sentence Validation：使用GAN模型对重构的视觉特征进行判别。

详细设计

核心设计：特征融合/聚合方式（在图中）

ps：感觉有点attention的味道

1. Multiple Feature Extraction

常规处理，一般都会用2D-CNN提取appearance（frame-level）特征 $V^a$ ，3D-CNN提取motion特征 $V^m$ ，R-CNN提取region（object）特征 $R$

2. Enhanced Object Proposal

将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。

根据公式强行解释： $v^a$ 与所有region feature都有边相连，所以聚合了所有region feature的特征

这里 $Ψ$ 和 $Φ$ 都是Linear function之后跟了一个Tanh激活。 $\hat v_t^m$ 的计算类似

3. Visual Knowledge

主要是在Graph引入了一些新的节点（latent nodes），聚合上述信息分别生成K个候选object visual words和K个motion visual words（计算类似）

4. Discriminative Language Validation

为了让生成的caption具有更好的语义方面的信息（semantic concepts）。作者通过从生成的captions重构 $P^o$ 和 $P^m$ ，然后通过一个判别器进行判别重构的视觉特征 $\hat P^o，\hat P^m$ 和真实的征 $P^o， P^m$ 。
具体实现是将生成的caption通过一些1D CNN+残差的层得到sentence feature $S$ ，然后让 $P^o$ “聚合” $S$ 的特征
给生成的视觉特征 $\hat P^o$ 和真实的视觉特征 $P^o$ 打分，将其视为一个pair，类似于计算他们的相似性
判别式模型的输出分数（学习给生成特征低分，真实特征高分）
判别式模型Loss（后者是正则化项）
生成式模型的损失

代码

版权声明
本文为[hei_hei_hei_]所创，转载请带上原文链接，感谢
https://blog.csdn.net/hei_hei_hei_/article/details/125546830

边栏推荐

猜你喜欢

随机推荐