当前位置：网站首页>浙大联合微软亚研院发布视频识别新方法，可对视频逐帧识别且无需，数据标记，或可用于手语翻译等

浙大联合微软亚研院发布视频识别新方法，可对视频逐帧识别且无需，数据标记，或可用于手语翻译等

2022-06-11 11:28:00 【智源社区】

目前，人工智能在视频理解上已经有广泛应用，例如用深度学习帮助视频分类等任务已取得显著成果。不过当下，有关动作表征学习的各种架构主要为识别视频的全局特征而设计。

然而在实际应用中，对于视频的逐帧识别也有着强烈的需求，例如有时希望借助人工智能完成视频对齐、手语翻译、机器人模仿学习等操作。这就对算法提出了更高的要求，能对长达数百帧的长视频建模，与此同时，对该长视频进行逐帧表征识别而不仅是全局特征。

最近，浙江大学计算机辅助设计与图形学（CAD&CG）国家重点实验室联合微软亚洲研究院共同研发了一种新的名为“对比动作表征学习”（ contrastive action representation learning，CARL）的框架，通过自我监督的形式对长视频等内容的逐帧动作表征进行学习以及识别。而且，该方法并不需要事先对视频进行标记。

为对该方法进行评估，研究人员通过该方法对目前主流的三种视频数据集 FineGym、PennAction 和 Pouring 进行了实验。实验结果证明，通过该方法在各方面的表现皆优于之前的方法技术，特别是下游细粒度动作分类表现尤为明显。相关论文以《基于序列对比学习的长视频逐帧动作表征》（Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning）为题在 arXiv 上发表[1]。

图｜用 CARL 框架对不同数据集中的视频进行逐帧表征学习的实验结果。（a）FineGym 数据集中的细粒度帧检索；（b） Pouring 数据中的相界检测；（c）PennAction 数据集中的时间视频对齐（来源：arXiv）

虽然在此之前，也有其他方法通过监督学习对视频进行逐帧地表征学习与识别。但是，这些方法大多需要对视频中的动作边界或阶段边界进行手动标记，在大规模的数据集中进行这一步骤十分耗时，甚至有些不切实际。因此，这些方法很难在现实场景中得到广泛应用。

该团队此次发布的 CARL 框架，并不需要对视频进行标记。该框架受对比表征学习最新进展的启发，通过自我监督的方式对长视频中具有时空上下文相关的信息进行逐帧表征学习。

CARL 框架的工作原理分为数据预处理和表征学习这两个步骤。在数据预处理中，系统首先会通过一系列时空数据增强的方式，构建该视频的两个增强视图。接下来，再输入该增强视图至帧级视频编码器（frame-level video encoder，FVE）进行处理，这一步可以提取出其密集表征。另外，FVE 还附加了一个小型映射网，通过该映射网可以生成潜在嵌入的多层感知器。

通常，一段视频中在时间上相邻的两帧可能十分相似。因此，该团队做出合理假设，即两个增强视图的相似性分布应按照高斯分布。而基于该假设，他们通过序列对比损失法来解决该问题，也就是说研究人员对逐帧表征进行了优化。

图｜对比动作表征学习（CARL）框架的概述（来源：arXiv）

在数据预处理这一步骤的具体过程是：对具有帧长为 S 的训练视频 V，系统以一系列时空数据增强的方式来创建两个帧长为 T 的增强视图。时空数据增强的方式既有时间数据增强，也有空间数据增强。在时间数据增强方式中，系统首先将训练视频进行随机性的剪裁，从而生成两段帧长为[T，αT]的片段，在这里可以通过 α 来控制剪裁的最大长度。

接下来，系统对剪裁后的视频进行随机性的采样，采样帧数为 T，该采样得出的结果就是两个视频序列，分别为 V1 和 V2，系统对 T 的默认值为 240。如果视频的帧数小于 T，那么，在剪裁之前还会有空帧填补这一步骤。之后，还会针对 V1 和 V2 应用不同种类的空间数据增强方式进行处理。这些方式包括大小调整、水平翻转、高斯模糊等。

而在表征学习这一步骤中，系统引入 FVE 对时间上下文进行建模。FVE 的工作过程具体为：首先通过一个 2D 网格（如 ResNet-50 等）提取出 RGB 视频序列的一个大小为 T×224×224×3 的空间特征。然后，使用一个转换器将提取出的空间特征投影到一个大小为 T×256 的中层嵌入上。之后，该嵌入会被编码，并被进一步输入到编码器中进行建模。最后一步采用了线性层，并得出视频的逐帧表征。