当前位置:网站首页>论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
论文阅读【Discriminative Latent Semantic Graph for Video Captioning】
2022-07-01 18:44:00 【hei_hei_hei_】
Discriminative Latent Semantic Graph for Video Captioning
文章目录
概要
- 发表:ACM MultiMedia 2021
- 代码:D-LSG
- idea:为了加强object-level interactions和frame-level information(其实是为了常用的处理后的特征:2D-CNN、3D-CNN、R-CNN),作者主要分为三部分主要工作:Enhanced Object Proposal:使用Graph将时空上的特征融合到 latent object中;Visual Knowledge:聚合上述特征于 latent nodes 中并用来预测 semantic words;Sentence Validation:使用GAN模型对重构的视觉特征进行判别。
详细设计
- 核心设计:特征融合/聚合方式(在图中)

ps:感觉有点attention的味道
1. Multiple Feature Extraction
- 常规处理,一般都会用2D-CNN提取appearance(frame-level)特征 V a V^a Va,3D-CNN提取motion特征 V m V^m Vm,R-CNN提取region(object)特征 R R R
2. Enhanced Object Proposal
- 将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。

根据公式强行解释: v a v^a va与所有region feature都有边相连,所以聚合了所有region feature的特征
这里 Ψ Ψ Ψ和 Φ Φ Φ都是Linear function之后跟了一个Tanh激活。 v ^ t m \hat v_t^m v^tm的计算类似
3. Visual Knowledge
- 主要是在Graph引入了一些新的节点(latent nodes),聚合上述信息分别生成K个候选object visual words和K个motion visual words(计算类似)

4. Discriminative Language Validation
- 为了让生成的caption具有更好的语义方面的信息(semantic concepts)。作者通过从生成的captions重构 P o P^o Po和 P m P^m Pm,然后通过一个判别器进行判别重构的视觉特征 P ^ o , P ^ m \hat P^o,\hat P^m P^o,P^m和真实的征 P o , P m P^o, P^m Po,Pm。
- 具体实现是将生成的caption通过一些1D CNN+残差 的层得到sentence feature S S S,然后让 P o P^o Po“聚合” S S S的特征

- 给生成的视觉特征 P ^ o \hat P^o P^o和真实的视觉特征 P o P^o Po打分,将其视为一个pair,类似于计算他们的相似性


- 判别式模型的输出分数(学习给生成特征低分,真实特征高分)

- 判别式模型Loss(后者是正则化项)

- 生成式模型的损失

代码
边栏推荐
- Dlib+Opencv库实现疲劳检测
- The market value evaporated by 74billion yuan, and the big man turned and entered the prefabricated vegetables
- 11. Users, groups, and permissions (1)
- 2020, the regular expression for mobile phone verification of the latest mobile phone number is continuously updated
- Netease games, radical going to sea
- 记一次 .NET 差旅管理后台 CPU 爆高分析
- How to realize the bottom layer of read-write lock in go question bank 16
- Three ways for redis to realize current limiting
- MySQL常用图形管理工具 | 黑马程序员
- ACM mm 2022 video understanding challenge video classification track champion autox team technology sharing
猜你喜欢

Bao, que se passe - t - il si le serveur 100 + O & M a mal à la tête? Utilisez le majordome xingyun!

Once the SQL is optimized, the database query speed is increased by 60 times

Clean up system cache and free memory under Linux
![[live broadcast appointment] database obcp certification comprehensive upgrade open class](/img/38/1ec382d0edda83d4052868255af9ea.jpg)
[live broadcast appointment] database obcp certification comprehensive upgrade open class

6月刊 | AntDB数据库参与编写《数据库发展研究报告》 亮相信创产业榜单

生鲜行业B2B电商平台解决方案,提高企业交易流程标准化和透明度

如何使用物联网低代码平台进行个人设置?

SuperVariMag 超导磁体系统 — SVM 系列

Lake shore M91 fast hall measuring instrument

ACM mm 2022 video understanding challenge video classification track champion autox team technology sharing
随机推荐
The former 4A executives engaged in agent operation and won an IPO
Huawei cloud experts explain the new features of gaussdb (for MySQL)
XML语法、约束
[quick application] there are many words in the text component. How to solve the problem that the div style next to it will be stretched
【快应用】Win7系统使用华为IDE无法运行和调试项目
How to use the low code platform of the Internet of things for personal settings?
Lumiprobe 亚磷酰胺丨六甘醇亚磷酰胺说明书
Lumiprobe 细胞成像研究丨PKH26细胞膜标记试剂盒
Chinese and English instructions human soluble advanced glycation end products receptor (sRAGE) ELISA Kit
混沌工程平台 ChaosBlade-Box 新版重磅发布
前4A高管搞代运营,拿下一个IPO
The difference between indexof and includes
Supervarimag superconducting magnet system SVM series
Cache problems after app release
有关 M91 快速霍尔测量仪的更多信息
11. Users, groups, and permissions (1)
CDGA|从事通信行业,那你应该考个数据管理证书
Getting started with kubernetes command (namespaces, pods)
Lake Shore 连续流动低温恒温器传输线
水产行业智能供应链管理平台解决方案:支撑企业供应链数字化,提升企业管理效益