当前位置:网站首页>ACM MM 2022视频理解挑战赛视频分类赛道冠军AutoX团队技术分享
ACM MM 2022视频理解挑战赛视频分类赛道冠军AutoX团队技术分享
2022-07-01 18:33:00 【智源社区】
ACM Multimedia(简称 ACM MM)始于 1993 年,是国际多媒体领域学术和产业界交流的最顶级盛会,也是中国计算机学会推荐的多媒体领域唯一的 A 类国际学术会议。视频理解预训练挑战赛(Pre-training For Video Understanding Challenge)是其举办的重要赛事之一。
在本次比赛中,第四范式 AutoX 团队使用了一种新的时域多尺度预训练视频分类方案,以明显优势拿到了视频分类赛道的第一名。

赛题介绍
近年来,随着短视频领域的兴起,互联网中的多媒体视频数量数以亿计,这些视频往往具有如视频题目、分类等弱标记,具有标记噪声大,类别跨度大等特点。虽然计算机视觉的最新进展已经在如视频分类、视频配文字、视频目标检测等领域取得了不小成功,如何有效利用广泛存在于互联网中的大量无标记或弱标记的视频仍是值得研究的课题。本次 Pre-training For Video Understanding Challenge 大赛旨在促进人们对视频预训练技术的研究,鼓励研究团队设计新的预训练技术以提升一系列下游任务。
在本篇文章关注的视频分类赛道,大赛提供了从 Youtube 上抓去的包含 300 万条视频的预训练数据集 YOVO-3M,每条视频包含在 Youtube 上的视频标题和一条 query 作为视频类别(如bowling、archery、tigher cat 等),同时提供了包含了十万条视频的下游任务数据集 YOVO-downstream,数据集由 70173 条视频的训练集、16439 条视频的验证集和 16554 条视频的测试集组成,这些视频被分为 240 种预先定义的类别中,包括物体(如 Aircraft、Pizza、Football)和人类动作(如Waggle、High jump、Riding)。
在这条赛道中,在 YouTube 视频和 YOVO-3M 中相应的 query 和 title 的基础是,参赛者的目标是通过预训练得到视频的通用表示,可以进一步利用它来促进视频分类的下游任务。比赛要求参赛者根据挑战赛提供的 YOVO-3M 数据集(作为训数据)和发布的 YOVO 下游数据集(作为下游任务的训练数据)开发视频分类系统。最终以分类系统在下游任务数据集中的 top-1 精度作为衡量标准。同时,比赛不限制使用外部数据集。

query: brushing
title: Disney Jr Puppy Dog Pals Morning Routine Brushing Teeth, Taking a Bath, and Eating Breakfast!
解决方案
我们开发了一种“多重时域分辨率集成”技术,通过集成学习来提升模型预训练及下游任务中的效果,并且综合了七种不同的网络结构来学习不同的视频表示。随后的篇幅中,我们将介绍团队提出的多重时域分辨率集成技术以及简单介绍我们在比赛中用到的数个网络结构。
2.1 Ensemble on Multiple Temporal Resolutions
集成学习可以显著提高模型在各类任务中的表现,其中基于降低方差方法的核心之一在于需要不同的基学习器从数据中学习到不同的知识,从而通过不同基学习器的共识提高最终的泛化性能。Bagging [13] 就是其中的代表算法之一。我们从 Bagging 的思想出发,区别于原算法中通过随机采样训练子集的方式,我们使用不同的时域采样率采样视频,得到不同时域分辨率的训练集合,从而训练不同的基学习器。实验证明我们的方法可以显著提高集成的效果,同时,由于每个基学习器都能使用全部的训练视频,进而取得更高的单模型性能,我们的方法也优于传统的 Bagging 集成策略。

▲ Fusion With Multiple Temporal Resolusion

▲ 集成实验
2.2 Backbones
我们测试了 Temporal Segment Network [10,11]、TimeSformer [2]、BEiT [1]、Swin Transformer [7]、Video Swin Transformer [8] 五种 Frame-based 网络和 Spatiotemporal 网络。在实验中,Video Swin Transformer 取得了最优的模型效果。我们同时还比较了不同网络结构的计算复杂度。

在最终的提交方案中,我们将七种各自具有不同的网络结构、不同的预训练数据集以及不同的采样率的模型集成,得到了最优的测试集 top-1 精度 62.39,最终得到了本次比赛视频分类赛道的第一名。

总结
在本次 ACM Multimedia 2022 视频理解大赛中,我们通过多重时域采样的集成策略,同时集成多种不同的网络结构和预训练数据集,最终取得了本次比赛视频分类赛道的第一名,为视频理解和预训练提出了一种新的方式。
边栏推荐
- Reading notes series "modern methods of C language programming" -- Chapter 2
- Computer network interview assault
- R语言使用epiDisplay包的dotplot函数通过点图的形式可视化不同区间数据点的频率、使用pch参数自定义指定点图数据点的形状
- When the fixed frequency artifact falls in love with multithreading | ros2 fixed frequency topic release demo
- Record 3 - the state machine realizes key control and measures the number of external pulses
- [image denoising] matlab code for removing salt and pepper noise based on fast and effective multistage selective convolution filter
- Terms related to K line
- Draw drawing process of UI drawing process
- Convert the robot's URDF file to mujoco model
- R语言ggplot2可视化:gganimate包transition_time函数创建动态散点图动画(gif)、shadow_wake函数配置动画的渐变效果(gradual falloff)拖尾效应
猜你喜欢

NSI packaging script add file details

Unity learning fourth week

Solution: you can ping others, but others can't ping me

每周推薦短視頻:警惕“現象”與“問題”相互混淆

LeetCode 148. Sort linked list

MySQL connection tools

Sum of three numbers
![[source code analysis] NVIDIA hugectr, GPU version parameter server - (1)](/img/92/f3a70e7086aeedf41eea3eef98b5aa.jpg)
[source code analysis] NVIDIA hugectr, GPU version parameter server - (1)

PTA year of birth

创建您自己的NFT集合并发布一个Web3应用程序来展示它们(介绍)
随机推荐
[source code analysis] model parallel distributed training Megatron (5) -- pipestream flush
Navicat premium 15 permanent cracking and 2021 latest idea cracking (valid for personal testing)
Write an open source, convenient and fast database document query and generation tool with WPF
How to change guns for 2D characters
Leetcode-160相交链表
Mysql database of easyclick
12 data dimensioning processing methods
On the language internationalization of Yongzhong Office
Write it down once Net travel management background CPU Explosion Analysis
Blue Bridge Cup real question: score statistics
A wonderful time to buy and sell stocks
R语言使用epiDisplay包的aggregate函数将数值变量基于因子变量拆分为不同的子集,计算每个子集的汇总统计信息
Memo - about C # generating barcode
540. Single element in ordered array
1、《创建您自己的NFT集合并发布一个Web3应用程序来展示它们》什么是NFT
Single element of an ordered array
R语言使用epiDisplay包的followup.plot函数可视化多个ID(病例)监测指标的纵向随访图、使用n.of.lines参数指定显示的病例数
How to find customers for investment attraction in industrial parks
Definition of rotation axis in mujoco
Highly reliable program storage and startup control system based on anti fuse FPGA and QSPI flash