当前位置:网站首页>论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
2022-07-01 18:44:00 【hei_hei_hei_】
Discriminative Latent Semantic Graph for Video Captioning
文章目录
概要
- 发表:ACM MultiMedia 2021
- 代码:D-LSG
- idea:为了加强object-level interactions和frame-level information(其实是为了常用的处理后的特征:2D-CNN、3D-CNN、R-CNN),作者主要分为三部分主要工作:Enhanced Object Proposal:使用Graph将时空上的特征融合到 latent object中;Visual Knowledge:聚合上述特征于 latent nodes 中并用来预测 semantic words;Sentence Validation:使用GAN模型对重构的视觉特征进行判别。
详细设计
- 核心设计:特征融合/聚合方式(在图中)
ps:感觉有点attention的味道
1. Multiple Feature Extraction
- 常规处理,一般都会用2D-CNN提取appearance(frame-level)特征 V a V^a Va,3D-CNN提取motion特征 V m V^m Vm,R-CNN提取region(object)特征 R R R
2. Enhanced Object Proposal
- 将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。
根据公式强行解释: v a v^a va与所有region feature都有边相连,所以聚合了所有region feature的特征
这里 Ψ Ψ Ψ和 Φ Φ Φ都是Linear function之后跟了一个Tanh激活。 v ^ t m \hat v_t^m v^tm的计算类似
3. Visual Knowledge
- 主要是在Graph引入了一些新的节点(latent nodes),聚合上述信息分别生成K个候选object visual words和K个motion visual words(计算类似)
4. Discriminative Language Validation
- 为了让生成的caption具有更好的语义方面的信息(semantic concepts)。作者通过从生成的captions重构 P o P^o Po和 P m P^m Pm,然后通过一个判别器进行判别重构的视觉特征 P ^ o , P ^ m \hat P^o,\hat P^m P^o,P^m和真实的征 P o , P m P^o, P^m Po,Pm。
- 具体实现是将生成的caption通过一些1D CNN+残差 的层得到sentence feature S S S,然后让 P o P^o Po“聚合” S S S的特征
- 给生成的视觉特征 P ^ o \hat P^o P^o和真实的视觉特征 P o P^o Po打分,将其视为一个pair,类似于计算他们的相似性
- 判别式模型的输出分数(学习给生成特征低分,真实特征高分)
- 判别式模型Loss(后者是正则化项)
- 生成式模型的损失
代码
边栏推荐
- 市值蒸发740亿,这位大佬转身杀入预制菜
- 6月刊 | AntDB数据库参与编写《数据库发展研究报告》 亮相信创产业榜单
- 如何使用物联网低代码平台进行个人设置?
- indexof和includes的区别
- MFC中如何重绘CListCtrl的表头
- Transform + ASM data
- Three simple methods of ES6 array de duplication
- 【Go ~ 0到1 】 第四天 6月30 defer,结构体,方法
- 2020, the regular expression for mobile phone verification of the latest mobile phone number is continuously updated
- Supervarimag superconducting magnet system SVM series
猜你喜欢
Dlib+Opencv库实现疲劳检测
苹果产品在日本全面涨价,iPhone13涨19%
Learn MySQL from scratch - database and data table operations
Huawei cloud experts explain the new features of gaussdb (for MySQL)
Lake Shore低温恒温器的氦气传输线
XML语法、约束
Getting started with kubernetes command (namespaces, pods)
微服务大行其道的今天,Service Mesh是怎样一种存在?
透过华为军团看科技之变(六):智慧公路
Lake Shore—CRX-EM-HF 型低温探针台
随机推荐
MFC中如何重绘CListCtrl的表头
【Go ~ 0到1 】 第五天 7月1 类型别名,自定义类型,接口,包与初始化函数
Lake Shore—CRX-EM-HF 型低温探针台
Lefse analysis
Go language self-study series | go language data type
Is PMP cancelled??
Superoptimag superconducting magnet system - SOM, Som2 series
Lake shore optimag superconducting magnet system om series
2020, the regular expression for mobile phone verification of the latest mobile phone number is continuously updated
kubernetes命令入门(namespaces,pods)
Learning notes - steps of JDBC connection database operation
Implement a Prometheus exporter
More information about M91 fast hall measuring instrument
小红书上的爱情买卖
Lake shore M91 fast hall measuring instrument
Summary of the core steps in the life cycle of beans
Helium transmission line of lake shore cryostat
Solution: you can ping others, but others can't ping me
生鲜行业B2B电商平台解决方案,提高企业交易流程标准化和透明度
indexof和includes的区别