当前位置:网站首页>浙大联合微软亚研院发布视频识别新方法,可对视频逐帧识别且无需,数据标记,或可用于手语翻译等
浙大联合微软亚研院发布视频识别新方法,可对视频逐帧识别且无需,数据标记,或可用于手语翻译等
2022-06-11 11:28:00 【智源社区】
目前,人工智能在视频理解上已经有广泛应用,例如用深度学习帮助视频分类等任务已取得显著成果。不过当下,有关动作表征学习的各种架构主要为识别视频的全局特征而设计。
然而在实际应用中,对于视频的逐帧识别也有着强烈的需求,例如有时希望借助人工智能完成视频对齐、手语翻译、机器人模仿学习等操作。这就对算法提出了更高的要求,能对长达数百帧的长视频建模,与此同时,对该长视频进行逐帧表征识别而不仅是全局特征。
最近,浙江大学计算机辅助设计与图形学(CAD&CG)国家重点实验室联合微软亚洲研究院共同研发了一种新的名为“对比动作表征学习”( contrastive action representation learning,CARL)的框架,通过自我监督的形式对长视频等内容的逐帧动作表征进行学习以及识别。而且,该方法并不需要事先对视频进行标记。
为对该方法进行评估,研究人员通过该方法对目前主流的三种视频数据集 FineGym、PennAction 和 Pouring 进行了实验。实验结果证明,通过该方法在各方面的表现皆优于之前的方法技术,特别是下游细粒度动作分类表现尤为明显。相关论文以《基于序列对比学习的长视频逐帧动作表征》(Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning)为题在 arXiv 上发表[1]。

图|用 CARL 框架对不同数据集中的视频进行逐帧表征学习的实验结果。(a)FineGym 数据集中的细粒度帧检索;(b) Pouring 数据中的相界检测;(c)PennAction 数据集中的时间视频对齐(来源:arXiv)
虽然在此之前,也有其他方法通过监督学习对视频进行逐帧地表征学习与识别。但是,这些方法大多需要对视频中的动作边界或阶段边界进行手动标记,在大规模的数据集中进行这一步骤十分耗时,甚至有些不切实际。因此,这些方法很难在现实场景中得到广泛应用。
该团队此次发布的 CARL 框架,并不需要对视频进行标记。该框架受对比表征学习最新进展的启发,通过自我监督的方式对长视频中具有时空上下文相关的信息进行逐帧表征学习。
CARL 框架的工作原理分为数据预处理和表征学习这两个步骤。在数据预处理中,系统首先会通过一系列时空数据增强的方式,构建该视频的两个增强视图。接下来,再输入该增强视图至帧级视频编码器(frame-level video encoder,FVE)进行处理,这一步可以提取出其密集表征。另外,FVE 还附加了一个小型映射网,通过该映射网可以生成潜在嵌入的多层感知器。
通常,一段视频中在时间上相邻的两帧可能十分相似。因此,该团队做出合理假设,即两个增强视图的相似性分布应按照高斯分布。而基于该假设,他们通过序列对比损失法来解决该问题,也就是说研究人员对逐帧表征进行了优化。

图|对比动作表征学习(CARL)框架的概述(来源:arXiv)
在数据预处理这一步骤的具体过程是:对具有帧长为 S 的训练视频 V,系统以一系列时空数据增强的方式来创建两个帧长为 T 的增强视图。时空数据增强的方式既有时间数据增强,也有空间数据增强。在时间数据增强方式中,系统首先将训练视频进行随机性的剪裁,从而生成两段帧长为[T,αT]的片段,在这里可以通过 α 来控制剪裁的最大长度。
接下来,系统对剪裁后的视频进行随机性的采样,采样帧数为 T,该采样得出的结果就是两个视频序列,分别为 V1 和 V2,系统对 T 的默认值为 240。如果视频的帧数小于 T,那么,在剪裁之前还会有空帧填补这一步骤。之后,还会针对 V1 和 V2 应用不同种类的空间数据增强方式进行处理。这些方式包括大小调整、水平翻转、高斯模糊等。
而在表征学习这一步骤中,系统引入 FVE 对时间上下文进行建模。FVE 的工作过程具体为:首先通过一个 2D 网格(如 ResNet-50 等)提取出 RGB 视频序列的一个大小为 T×224×224×3 的空间特征。然后,使用一个转换器将提取出的空间特征投影到一个大小为 T×256 的中层嵌入上。之后,该嵌入会被编码,并被进一步输入到编码器中进行建模。最后一步采用了线性层,并得出视频的逐帧表征。

图|帧级视频编码器(FVE)的概述(来源:arXiv)
该团队还通过将该框架应用于 PennAction、FineGym 和 Pouring 这三个数据集上,来对框架的性能进行评估。结果显示,CARL 框架在这几种数据集上的测试结果都优于此前的最先进方法。
边栏推荐
- 让WordPress支持注册用户上传自定义头像功能
- 17.4创建多个线程、数据共享问题分析与案例代码
- Intermediate web development engineer, interview questions + Notes + project practice
- WordPress landing page customization plug-in recommendation
- 2022 | framework for Android interview -- Analysis of the core principles of binder, handler, WMS and AMS!
- 在毕设中学习02——numpy多维数组的切片,形态变化,维度交换
- Gerber文件在PCB制造中的作用
- AcWing 1353. Ski resort design (greedy)
- MyCat-分库分表
- Learn 02 - slice, morphological change and dimension exchange of numpy multidimensional array
猜你喜欢
随机推荐
Set the default receiving address [project mall]
WordPress landing page beautification plug-in: recommended by login Designer
【Go】Gin源码解读
Command mode - attack, secret weapon
Mongodb usage
Xiao P weekly Vol.08
在畢設中學習03
快速搭建ELK7.3
Is it safe for Xiaobai to open an account directly on the flush?
WordPress user name modification plug-in: username changer
How to understand CPU load
[C language] anonymous/unnamed struct & Union
Where is it safer to open an account for soda ash futures? How much does it cost to buy soda ash futures?
Problems encountered when using nailing intranet to penetrate and upload PHP projects
How to solve the problem that high-precision positioning technologies such as ultra wideband UWB, Bluetooth AOA and RTK cannot be widely used due to their high cost? Adopt the idea of integrated deplo
WordPress用户名修改插件:Username Changer
李飞飞:我更像物理学界的科学家,而不是工程师|深度学习崛起十年
[file upload vulnerability 06] server file content detection and bypass experiment + image horse production method (based on upload-labs-14 shooting range)
Only when you find your own advantages can you work tirelessly and get twice the result with half the effort!
2019年书单







![my.cnf中 [mysql]与[mysqld] 的区别 引起的binlog启动失败的问题](/img/bd/a28e74654c7821b3a9cd9260d2e399.png)

