当前位置:网站首页>视频自监督学习综述
视频自监督学习综述
2022-07-05 18:32:00 【智源社区】
https://arxiv.org/abs/2207.00419
深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性。然而,使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差。获取注释也很昂贵,需要付出很大的努力,这对视频来说尤其具有挑战性。作为另一种选择,自监督学习提供了一种不需要注释的表示学习方法,在图像和视频领域都显示出了前景。与图像域不同,学习视频表示更具有挑战性,因为时间维度,引入了运动和其他环境动力学。这也为在视频和多模态领域推进自监督学习的独家想法提供了机会。在这项综述中,我们提供了一个现有的方法在视频领域的自监督学习重点。我们根据它们的学习目标将这些方法总结为三种不同的类别: 1) 文本预置任务,2) 生成式建模,和 3)对比学习。这些方法在使用的方式上也有所不同; 1) video, 2) video-audio, 3) video-text, 4) video-audio-text。我们进一步介绍了常用的数据集、下游评估任务、现有工作的局限性以及该领域未来的潜在方向。
对大规模标记样本的要求限制了深度网络在数据有限且标注困难的问题上的使用,例如医学成像Dargan et al. [2020]。虽然在ImageNet Krizhevsky等人[2012a]和Kinetics Kay等人[2017]的大规模标记数据集上进行预训练确实能提高性能,但这种方法存在一些缺陷,如注释成本Yang et al. [2017], Cai et al. [2021],注释偏差Chen和Joo [2021], Rodrigues和Pereira[2018],缺乏域泛化Wang等人[2021a], Hu等人[2020],Kim等人[2021],以及缺乏鲁棒性Hendrycks和Dietterich[2019]。Hendrycks等[2021]。自监督学习(SSL)已经成为预训练深度模型的一种成功方法,以克服其中一些问题。它是一种很有前途的替代方案,可以在大规模数据集上训练模型,而不需要标记Jing和Tian[2020],并且具有更好的泛化性。SSL使用一些来自训练样本本身的学习目标来训练模型。然后,这个预训练的模型被用作目标数据集的初始化,然后使用可用的标记样本对其进行微调。图1显示了这种方法的概览。
边栏推荐
- 如何获取飞机穿过雷达两端的坐标
- 关于服装ERP,你想知道的都在这里了
- Reading notes of Clickhouse principle analysis and Application Practice (5)
- The main thread anr exception is caused by too many binder development threads
- Penetrate the whole intranet through socks agent
- Use of websocket tool
- jdbc读大量数据导致内存溢出
- 瞅一瞅JUC提供的限流工具Semaphore
- 小程序 修改样式 ( placeholder、checkbox的样式)
- @Extension、@SPI注解原理
猜你喜欢
The 11th China cloud computing standards and Applications Conference | cloud computing national standards and white paper series release, and Huayun data fully participated in the preparation
Trust counts the number of occurrences of words in the file
Fix vulnerability - mysql, ES
分享:中兴 远航 30 pro root 解锁BL magisk ZTE 7532N 8040N 9041N 刷机 刷面具原厂刷机包 root方法下载
记录Pytorch中的eval()和no_grad()
About Estimation with Cross-Validation
FCN: Fully Convolutional Networks for Semantic Segmentation
How to write good code defensive programming
Use of websocket tool
Pytorch yolov5 training custom data
随机推荐
Linear table - abstract data type
The 10th global Cloud Computing Conference | Huayun data won the "special contribution award for the 10th anniversary of 2013-2022"
A2L file parsing based on CAN bus (3)
记录Pytorch中的eval()和no_grad()
Penetrate the whole intranet through socks agent
开户注册股票炒股安全吗?有没有风险的?靠谱吗?
Introduction to the development function of Hanlin Youshang system of Hansheng Youpin app
Can communication of nano
Pytorch yolov5 training custom data
Login and connect CDB and PDB
解决 contents have differences only in line separators
兄弟组件进行传值(显示有先后顺序)
Use QT to traverse JSON documents and search sub objects
爱因斯坦求和einsum
Le cours d'apprentissage de la machine 2022 de l'équipe Wunda arrive.
sample_rate(采样率),sample(采样),duration(时长)是什么关系
About Statistical Power(统计功效)
Introduction to VC programming on "suggestions collection"
Quickly generate IPA package
Logical words in Articles