当前位置:网站首页>CoVOS:无需解码!利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速(CVPR 2022)...
CoVOS:无需解码!利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速(CVPR 2022)...
2022-07-26 17:50:00 【我爱计算机视觉】
关注公众号,发现CV技术之美
本篇分享 CVPR 2022 论文『Accelerating Video Object Segmentation with Compressed Video』,探讨了如何利用视频压缩来加速视频实例分割(Video Object Segmentation,VOS),以适用于网络中压缩格式视频的高速分割。
详细信息如下:

论文链接:https://arxiv.org/pdf/2107.12192.pdf
项目链接:https://github.com/kai422/CoVOS
01
前言
目前普通的方法基本上都是对普通视频中逐帧对每个实例进行解码,计算复杂度较高。
为了解决这个问题,作者提出了一种嵌入式加速框架,可以直接应用于现有的VOS模型上,具体的,本文先将视频按现有压缩方法(比如HEVC)压缩为P帧、I帧、B帧,再提出一种基于运动向量( motion vector )的方法,基于双向传播以及多帧连接实现mask的传播。最后,通过残差校正网络对预测结果进行校正。
主要贡献:
提出一种新颖的 VOS 加速模块,利用来自压缩视频比特流的信息进行分段传播和校正。
提出一种soft propagation模块,其以运动向量作为输入进行传播,并获得输出mask。
提出一种 mask 校正模块,可根据运动残差校正传播误差。
可以直接应用于现有模型,以提升3倍以上的速度,并且精度下降不大。
02
方法
本文基于压缩后的视频进行视频实例分割,故需要先对普通视频进行压缩。常见的压缩编码形式有:HEVC codec、MPEG-4、H.264。基于上述压缩方式可以将原视频压缩为I帧、P帧、B帧,这三种帧的特点如下:
I-frame:I帧表示关键帧,可以理解为这一帧画面的完整保留,解码时只需要本帧数据就可以完成(因为包含完整画面)。
P-frame:P帧是单向差别帧,表示的是这一帧跟之前的一个关键帧或P帧的差别,没有完整的画面数据,只包含与前一帧画面差别的数据。
B-frame:B帧是双向差别帧,也就是说,B帧记录的是本帧与前后帧的差别。

由上图所示,压缩后帧的大小显著下降,故利用I、P、B帧进行传播将比利用原始帧进行传播计算量小。

本文先基于普通的VOS模型完成对P帧的传播,再通过双向预测完成对B帧的传播。

基于RGB图像,通过预测单元获取每一帧的运动补偿特征(predicted),再基于运动补偿特征与运动矢量可以获得图像残差(Residual)。


其中w为前向传播或者反向传播的权重,ei为残差,Ii为RGB图像
2.1. Soft motion vector propagation module :基于运动向量的传播模块
本节将介绍基于运动矢量实现非关键帧的传播。

如上图所示,首先基于Base model获取关键帧的mask,再通过一个轻量级编码器获取关键帧的图像特征Vk。对于非关键帧,也通过轻量级编码器获取其图像特征Vn。

其次,通过warping操作对前后两个关键帧帧的信息进行整合,获取图像特征和mask特征,最终计算非关键帧图像特征与前后关键帧图像特征的相似度,来对mask特征进行选择。
2.2. Residual-based correction module :残差校正模块
运动矢量会捕获每帧的残差,故此可以将这些作为校正信息。

首先,通过对预测的mask进行膨胀获取前景区域,再通过前景区域对残差信息进行过滤(仅保留残差中的前景部分),最终将残差信息一起输入Decoder以起到校正作用。
03
实验
模型训练完后,在公开数据集YouTube-VOS与DAVIS上进行了测试
实验效果

本文以MIVOS、STM、STCN等方法作为base model进行了实验,可以看出,加了本文的加速模块(CoVOS)后,原先模型的推理性能(FPS)都得到了显著的提升。
消融

04
结论
提出了一种利用压缩视频比特流的运动矢量和残差进行半监督的VOS加速框架。可以提升准确高但推理缓慢的VOS模型的推理速度,同时精度略有下降。同时由于非关键字的推理依赖于关键帧的结果,非关键帧的分割结果将在关键帧分割完成以后完成。

END
加入「视频目标分割」交流群备注:VOS

边栏推荐
- Safer, healthier and without endurance anxiety, Wei brand latte dht-phev is here
- Vector CANape - How to Send Receive CAN Message in CANape
- 5款WPS Office最佳海外替代品
- Operation: skillfully use MySQL master-slave replication delay to save erroneously deleted data
- NFT digital collection system development: sold out when online, and netizens "spike" Digital Collections
- ECS MySQL prompt error
- Development of NFT digital collection system: Shanxi first released digital collections of ancient buildings on "China Tourism Day"
- Paged query design of scenarios
- 第一个ABAP ALV报表程序构建流程
- 2022年云商店联合营销市场发展基金(MDF)介绍
猜你喜欢

MySQL练习题初级45题(统一表)

项目中@RequestMapping的作用以及如何使用

还在用Xshell?推荐这个更现代的终端连接工具

云服务器mySQL提示报错

Linked list - the penultimate K nodes

Meta Cambria手柄曝光,主动追踪+多触觉回馈方案

Excellent JSON processing tool

Flex layout

CTO will teach you: how to take over his project when a technician suddenly leaves

The pit of mpc5744p reports an error, RTOS cannot be started, and there is a clock source problem
随机推荐
Neural network learning (2) introduction 2
The second day of SSM practice_ Project split moudle_ Basic addition, deletion, modification and query_ Batch delete_ One to one cascading query
骚操作:巧用MySQL主从复制延迟拯救误删数据
NFT digital collection development: digital collections help enterprise development
Redis master-slave replication, read-write separation, sentinel mode
The step jumping expansion problem of sword finger offer
Vector canoe menu plugin getting started
SMMU carding
Ministry of Finance: IC design enterprises and software enterprises will be exempted from corporate income tax this year and next!
Ren Zhengfei revealed for the first time: the story behind Huawei's nearly $10billion "sale" to Motorola!
Write a thesis and read this one
Duplicate gallerycms character length limit short domain name bypass
SSM integration configuration
PyQt5快速开发与实战 3.5 菜单栏与工具栏
SSM整-整合配置
神经网络学习(2)前言介绍二
What should we do after the PMP Exam is postponed on July 30?
Offer set (1)
数据安全知识体系
Baidu PaddlePaddle easydl x wesken: see how to install the "eye of AI" in bearing quality inspection