当前位置:网站首页>视频自监督学习综述
视频自监督学习综述
2022-07-05 18:32:00 【智源社区】
https://arxiv.org/abs/2207.00419
深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性。然而,使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差。获取注释也很昂贵,需要付出很大的努力,这对视频来说尤其具有挑战性。作为另一种选择,自监督学习提供了一种不需要注释的表示学习方法,在图像和视频领域都显示出了前景。与图像域不同,学习视频表示更具有挑战性,因为时间维度,引入了运动和其他环境动力学。这也为在视频和多模态领域推进自监督学习的独家想法提供了机会。在这项综述中,我们提供了一个现有的方法在视频领域的自监督学习重点。我们根据它们的学习目标将这些方法总结为三种不同的类别: 1) 文本预置任务,2) 生成式建模,和 3)对比学习。这些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我们进一步介绍了常用的数据集、下游评估任务、现有工作的局限性以及该领域未来的潜在方向。
对大规模标记样本的要求限制了深度网络在数据有限且标注困难的问题上的使用,例如医学成像Dargan et al. [2020]。虽然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大规模标记数据集上进行预训练确实能提高性能,但这种方法存在一些缺陷,如注释成本Yang et al. [2017], Cai et al. [2021],注释偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏鲁棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自监督学习(SSL)已经成为预训练深度模型的一种成功方法,以克服其中一些问题。它是一种很有前途的替代方案,可以在大规模数据集上训练模型,而不需要标记Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些来自训练样本本身的学习目标来训练模型。然后,这个预训练的模型被用作目标数据集的初始化,然后使用可用的标记样本对其进行微调。图1显示了这种方法的概览。
边栏推荐
- Insufficient picture data? I made a free image enhancement software
- Reptile 01 basic principles of reptile
- 个人对卷积神经网络的理解
- Lombok @builder annotation
- [paddlepaddle] paddedetection face recognition custom data set
- Quickly generate IPA package
- [PM2 details]
- A2L file parsing based on CAN bus (3)
- JDBC reads a large amount of data, resulting in memory overflow
- The main thread anr exception is caused by too many binder development threads
猜你喜欢
Various pits of vs2017 QT
吳恩達團隊2022機器學習課程,來啦
The 2022 China Xinchuang Ecological Market Research and model selection evaluation report released that Huayun data was selected as the mainstream manufacturer of Xinchuang IT infrastructure!
SAP feature description
About Statistical Power(统计功效)
《ClickHouse原理解析与应用实践》读书笔记(5)
如何获取飞机穿过雷达两端的坐标
The 11th China cloud computing standards and Applications Conference | China cloud data has become the deputy leader unit of the cloud migration special group of the cloud computing standards working
A2L file parsing based on CAN bus (3)
Take a look at semaphore, the current limiting tool provided by JUC
随机推荐
使用JMeter录制脚本并调试
[use electron to develop desktop on youqilin]
Clickhouse (03) how to install and deploy Clickhouse
Login and connect CDB and PDB
小程序 修改样式 ( placeholder、checkbox的样式)
常见时间复杂度
Use QT to traverse JSON documents and search sub objects
ConvMAE(2022-05)
7-2 保持链表有序
Memory leak of viewpager + recyclerview
爬虫01-爬虫基本原理讲解
About statistical power
线性表——抽象数据类型
Use of websocket tool
如何获取飞机穿过雷达两端的坐标
IDEA配置npm启动
The 11th China cloud computing standards and Applications Conference | cloud computing national standards and white paper series release, and Huayun data fully participated in the preparation
Thoroughly understand why network i/o is blocked?
Tupu software digital twin | visual management system based on BIM Technology
sample_ What is the relationship between rate, sample and duration