当前位置:网站首页>视频自监督学习综述
视频自监督学习综述
2022-07-05 18:32:00 【智源社区】

https://arxiv.org/abs/2207.00419
深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性。然而,使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差。获取注释也很昂贵,需要付出很大的努力,这对视频来说尤其具有挑战性。作为另一种选择,自监督学习提供了一种不需要注释的表示学习方法,在图像和视频领域都显示出了前景。与图像域不同,学习视频表示更具有挑战性,因为时间维度,引入了运动和其他环境动力学。这也为在视频和多模态领域推进自监督学习的独家想法提供了机会。在这项综述中,我们提供了一个现有的方法在视频领域的自监督学习重点。我们根据它们的学习目标将这些方法总结为三种不同的类别: 1) 文本预置任务,2) 生成式建模,和 3)对比学习。这些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我们进一步介绍了常用的数据集、下游评估任务、现有工作的局限性以及该领域未来的潜在方向。
对大规模标记样本的要求限制了深度网络在数据有限且标注困难的问题上的使用,例如医学成像Dargan et al. [2020]。虽然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大规模标记数据集上进行预训练确实能提高性能,但这种方法存在一些缺陷,如注释成本Yang et al. [2017], Cai et al. [2021],注释偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏鲁棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自监督学习(SSL)已经成为预训练深度模型的一种成功方法,以克服其中一些问题。它是一种很有前途的替代方案,可以在大规模数据集上训练模型,而不需要标记Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些来自训练样本本身的学习目标来训练模型。然后,这个预训练的模型被用作目标数据集的初始化,然后使用可用的标记样本对其进行微调。图1显示了这种方法的概览。
边栏推荐
- Generate classes from XML schema
- 《2022中国信创生态市场研究及选型评估报告》发布 华云数据入选信创IT基础设施主流厂商!
- Personal understanding of convolutional neural network
- 7-2 keep the linked list in order
- 分享:中兴 远航 30 pro root 解锁BL magisk ZTE 7532N 8040N 9041N 刷机 刷面具原厂刷机包 root方法下载
- New words new words new words new words [2]
- Cronab log: how to record the output of my cron script
- Wu Enda team 2022 machine learning course, coming
- Take a look at semaphore, the current limiting tool provided by JUC
- 如何获取飞机穿过雷达两端的坐标
猜你喜欢

LeetCode 6111. Spiral matrix IV

The 11th China cloud computing standards and Applications Conference | cloud computing national standards and white paper series release, and Huayun data fully participated in the preparation

Take a look at semaphore, the current limiting tool provided by JUC

ConvMAE(2022-05)

瞅一瞅JUC提供的限流工具Semaphore

Record a case of using WinDbg to analyze memory "leakage"

【Autosar 十四 启动流程详解】

vs2017 qt的各种坑

彻底理解为什么网络 I/O 会被阻塞?

怎么自动安装pythn三方库
随机推荐
How to choose the most formal and safe external futures platform?
Linear table - abstract data type
Vulnhub's darkhole_ two
Clickhouse (03) how to install and deploy Clickhouse
About Statistical Power(统计功效)
The 2022 China Xinchuang Ecological Market Research and model selection evaluation report released that Huayun data was selected as the mainstream manufacturer of Xinchuang IT infrastructure!
About statistical power
快速生成ipa包
Thoroughly understand why network i/o is blocked?
Cronab log: how to record the output of my cron script
RPC协议详解
吳恩達團隊2022機器學習課程,來啦
如何获取飞机穿过雷达两端的坐标
How to write good code defensive programming
Is it safe for Apple mobile phone to speculate in stocks? Is it a fraud to get new debts?
U-Net: Convolutional Networks for Biomedical Images Segmentation
[QNX Hypervisor 2.2用户手册]6.3.2 配置VM
线性表——抽象数据类型
Penetrate the whole intranet through socks agent
vulnhub之darkhole_2