当前位置:网站首页>电子科大(申恒涛团队)&京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!
电子科大(申恒涛团队)&京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!
2022-06-27 20:36:00 【智源社区】
本文分享论文『Structured Two-stream Attention Network for Video Question Answering』,由电子科大(申恒涛团队)&京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!
详细信息如下:

- 论文链接:https://arxiv.org/abs/2206.01017
摘要
到目前为止,视觉问答(即图像问答和视频问答)仍然是视觉和语言理解的重要工作,尤其是视频问答。与图像QA主要关注于理解图像区域级细节与相应问题之间的关联相比,视频QA需要一个模型来共同推理视频的空间和长期时间结构以及文本,以提供准确的答案。
在本文中,作者专门解决了视频QA问题,提出了一个结构化双流注意力网络,即STA,以回答关于给定视频内容的自由形式或开放式的自然语言问题。首先,作者利用结构化片段组件推断出视频中丰富的长时间结构,并对文本特征进行编码。然后,本文的结构化双流注意分量同时定位重要的视觉实例,减少背景视频的影响,聚焦于相关的文本。最后,结构化双流融合组件融合了不同的查询片段和视频感知上下文表示,并推断出答案。
在大规模视频QA数据集TGIF-QA上的实验表明,本文提出的方法显著优于最佳对应方法(即视频输入有一个表示),对于 Action, Trans., TrameQA ,Count任务分别有13.0%、13.5%、11.0%和0.3的提升。TrameQA和Count任务。它在 Action, Trans., TrameQA 任务方面也优于最佳模型(即有两种表示)4.1%、4.7%和5.1%。
Motivation
最近,涉及视觉和语言的任务引起了人们极大的兴趣,包括Captioning和VQA任务。Captioning的任务是生成图像或视频的自然语言描述。另一方面,视觉问答(VQA)(即图像问答和视频问答)旨在为给定图像/视频的问题提供正确答案。它被认为是评估机器智能的重要图灵测试。VQA问题在各种应用中起着重要作用,包括人机交互,游客指导。然而,这是一项具有挑战性的任务,因为需要理解语言和视觉内容,以考虑必要的常识和语义知识,并最终进行推理以获得正确答案。
图像问答(Image QA)旨在正确回答有关图像的问题,最近取得了很大的进展。大多数现有的图像QA方法都使用注意力机制,可分为两种主要类型:视觉注意力和问题注意力。前者的注意力集中在最相关的区域,通过探索它们的关系来正确回答问题,这涉及到“where to look”。后者关注视觉信息问题中的特定词语,即“what words to listen to”。一些作品共同进行了视觉注意力和问题注意力。
相比之下,视频QA比图像QA更具挑战性,因为视频同时包含外观和运动信息。视频QA面临的主要挑战有三个方面:首先,需要考虑长时间的时间结构,而不丢失重要信息;其次,需要最小化视频背景的影响来定位相应的视频实例;第三,分段信息和文本信息需要很好地融合。因此,需要更复杂的视频理解技术来理解帧级视觉信息和视频过程中的时间连贯性。视频QA模型还需要对视频和文本的空间和长期时间结构进行推理,以推断出准确的答案。
视频QA也采用了注意力机制,包括时空注意力和共同记忆注意力。时间注意力学习视频中要关注的帧,这些帧被捕获为整个视频特征。在共同记忆注意力机制中,外观注意力模型从空间特征中提取有用信息,运动注意力模型从光流特征中提取有用线索。它将关注的空间和时间特征连接起来,以预测最终结果。
作者观察到,回答视频QA中的一些问题需要关注许多帧,这些帧同等重要(例如,人走了多少次?)。仅使用当前的注意机制,整个视频级特征可能会忽略重要的帧级信息。基于这一观察,作者引入了一种新的结构,即结构化片段,该结构将视频特征划分为N个片段,然后将每个片段作为共享注意模型的输入。因此,可以从多个片段中获得许多重要帧。为了更好地连接和融合来自视频片段和问题的信息,作者提出了一种结构化双流注意网络(STA)来学习高级表示。具体来说本文的模型有两个层次的解码器,其中第一阶段解码器利用结构化片段推断丰富的长距离时间结构,第二阶段编码器通过结构化双流注意同时定位动作实例并避免背景视频的影响。
本文的STA模型在大规模数据集TGIF-QA数据集上实现了最先进的性能。综上所述,本文的主要贡献包括:1)提出了一种新的架构,即结构化双流注意网络(STA),通过共同关注视频和文本的空间和长距离时间信息,为视频QA任务提供准确的答案。2) 结构化片段组件捕获了视频中丰富的长距离时间结构,而结构化双流注意组件可以同时定位动作实例并避免背景视频的影响。3) 实验结果表明,本文提出的方法在动作、Trans.和FrameQA方面明显优于现有的方法。值得注意的是,作者仅使用一种类型的视觉特征来表示视频。

边栏推荐
- 使用同花顺手机炒股安全吗?
- PE买下一家内衣公司
- OData - SAP S4 OP 中使用SAP API Hub 的API
- 跟着存档教程动手学RNAseq分析(二)
- Bibliothèque d'exploitation / de développement locale open source pour l'outil de dessin en ligne hiplot
- [js]var, let,const 的区别
- 跟着存档教程动手学RNAseq分析(一)
- 跟着存档教程动手学RNAseq分析(四):使用DESeq2进行DE分析的QC方法
- 跟着存档教程动手学RNAseq分析(三):使用DESeq2进行计数标准化
- EasyCVR平台路由日志功能的技术实现过程【附代码】
猜你喜欢

网易云“情怀”底牌失守

广告太「野」,吉野家「渡劫」

Ice cream or snow "high"?

Design of STM32 and rc522 simple bus card system

netERR_ CONNECTION_ Refused solution

How to participate in openharmony code contribution

Crawler notes (1) - urllib

Crawler notes (3) -selenium and requests

Is the dog virtue training with a monthly salary of 30000 a good business?

跨系统数据一致性问题解决方案汇总
随机推荐
树莓派(以及各种派)使用指南
Web Worker介绍及使用案例
跟着存档教程动手学RNAseq分析(四):使用DESeq2进行DE分析的QC方法
官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目!
Aggregation and index optimization of mongodb basic operations
2022年第一季度“广州好人”刘磊峰:具有强烈的诚信意识和食品安全意识
陈云pytorch学习笔记_用50行代码搭建ResNet
Spark BUG實踐(包含的BUG:ClassCastException;ConnectException;NoClassDefFoundError;RuntimeExceptio等。。。。)
微服務之服務網關
How to participate in openharmony code contribution
第一性原理(最优解理论)
因美纳陷数据泄露“丑闻”:我国基因数据安全能交给美企吗?
Crawler notes (3) -selenium and requests
医美大刀,砍向00后
【微服务】(十六)—— 分布式事务Seata
这类人开始被VC疯抢,月薪8万
MySQL数据库 实验报告(一)
Stunned! The original drawing function of markdown is so powerful!
STM32与RC522简单公交卡系统的设计
Common APIs (Methods) for scope -number and string