当前位置:网站首页>论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
2022-07-01 18:44:00 【hei_hei_hei_】
Discriminative Latent Semantic Graph for Video Captioning
文章目录
概要
- 发表:ACM MultiMedia 2021
- 代码:D-LSG
- idea:为了加强object-level interactions和frame-level information(其实是为了常用的处理后的特征:2D-CNN、3D-CNN、R-CNN),作者主要分为三部分主要工作:Enhanced Object Proposal:使用Graph将时空上的特征融合到 latent object中;Visual Knowledge:聚合上述特征于 latent nodes 中并用来预测 semantic words;Sentence Validation:使用GAN模型对重构的视觉特征进行判别。
详细设计
- 核心设计:特征融合/聚合方式(在图中)

ps:感觉有点attention的味道
1. Multiple Feature Extraction
- 常规处理,一般都会用2D-CNN提取appearance(frame-level)特征 V a V^a Va,3D-CNN提取motion特征 V m V^m Vm,R-CNN提取region(object)特征 R R R
2. Enhanced Object Proposal
- 将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。

根据公式强行解释: v a v^a va与所有region feature都有边相连,所以聚合了所有region feature的特征
这里 Ψ Ψ Ψ和 Φ Φ Φ都是Linear function之后跟了一个Tanh激活。 v ^ t m \hat v_t^m v^tm的计算类似
3. Visual Knowledge
- 主要是在Graph引入了一些新的节点(latent nodes),聚合上述信息分别生成K个候选object visual words和K个motion visual words(计算类似)

4. Discriminative Language Validation
- 为了让生成的caption具有更好的语义方面的信息(semantic concepts)。作者通过从生成的captions重构 P o P^o Po和 P m P^m Pm,然后通过一个判别器进行判别重构的视觉特征 P ^ o , P ^ m \hat P^o,\hat P^m P^o,P^m和真实的征 P o , P m P^o, P^m Po,Pm。
- 具体实现是将生成的caption通过一些1D CNN+残差 的层得到sentence feature S S S,然后让 P o P^o Po“聚合” S S S的特征

- 给生成的视觉特征 P ^ o \hat P^o P^o和真实的视觉特征 P o P^o Po打分,将其视为一个pair,类似于计算他们的相似性


- 判别式模型的输出分数(学习给生成特征低分,真实特征高分)

- 判别式模型Loss(后者是正则化项)

- 生成式模型的损失

代码
边栏推荐
- 有关 M91 快速霍尔测量仪的更多信息
- 生鲜行业B2B电商平台解决方案,提高企业交易流程标准化和透明度
- PMP是被取消了吗??
- linux下清理系统缓存并释放内存
- Prices of Apple products rose across the board in Japan, with iphone13 up 19%
- Digital business cloud: from planning to implementation, how does Minmetals Group quickly build a new pattern of digital development?
- 学习笔记-JDBC连接数据库操作的步骤
- 论文泛读【FiLM: Visual Reasoning with a General Conditioning Layer】
- C端梦难做,科大讯飞靠什么撑起10亿用户目标?
- Team up to learn! 14 days of Hongmeng equipment development "learning, practicing and testing" practical camp, free of charge!
猜你喜欢

案例分享:QinQ基本组网配置

Superoptimag superconducting magnet system - SOM, Som2 series

The market value evaporated by 74billion yuan, and the big man turned and entered the prefabricated vegetables

机械设备行业数字化供应链集采平台解决方案:优化资源配置,实现降本增效

【直播预约】数据库OBCP认证全面升级公开课

Graduation season | Huawei experts teach the interview secret: how to get a high paying offer from a large factory?

寶,運維100+服務器很頭疼怎麼辦?用行雲管家!

一次SQL优化,数据库查询速度提升 60 倍

Lumiprobe 自由基分析丨H2DCFDA说明书

Games202 operation 0 - environment building process & solving problems encountered
随机推荐
制造业SRM管理系统供应商全方位闭环管理,实现采购寻源与流程高效协同
【Go ~ 0到1 】 第四天 6月30 defer,结构体,方法
见证时代!“人玑协同 未来已来”2022弘玑生态伙伴大会开启直播预约
Lumiprobe 自由基分析丨H2DCFDA说明书
MFC中如何重绘CListCtrl的表头
有关 M91 快速霍尔测量仪的更多信息
混沌工程平台 ChaosBlade-Box 新版重磅发布
The market value evaporated by 74billion yuan, and the big man turned and entered the prefabricated vegetables
【直播预约】数据库OBCP认证全面升级公开课
Lake Shore低温恒温器的氦气传输线
Is PMP cancelled??
Solidity - 算术运算的截断模式(unchecked)与检查模式(checked)- 0.8.0新特性
ACM mm 2022 video understanding challenge video classification track champion autox team technology sharing
2020, the regular expression for mobile phone verification of the latest mobile phone number is continuously updated
论文泛读【FiLM: Visual Reasoning with a General Conditioning Layer】
Huawei cloud experts explain the new features of gaussdb (for MySQL)
Improve yolov5 with gsconv+slim neck to maximize performance!
太爱速M源码搭建,巅峰小店APP溢价寄卖源码分享
Lumiprobe cell imaging study PKH26 cell membrane labeling kit
Boost the development of digital economy and consolidate the base of digital talents - the digital talent competition was successfully held in Kunming