当前位置:网站首页>用于增强压缩视频质量的可变形卷积密集网络
用于增强压缩视频质量的可变形卷积密集网络
2022-07-07 12:45:00 【mytzs123】
DEFORMABLE CONVOLUTION DENSE NETWORK FOR COMPRESSED VIDEO QUALITY
ENHANCEMENT
ABSTRACT
与传统的视频质量增强不同,压缩视频质量增强的目标是减少视频压缩带来的伪影。现有的多帧压缩视频质量增强方法严重依赖于光流,效率低,性能有限。本文提出了一种具有可变形卷积的多帧剩余密集网络(MRDN),通过利用高质量帧来补偿低质量帧来提高压缩视频的质量。具体来说,该网络由开发的运动补偿(MC)模块和质量增强(QE)模块组成,分别用于补偿和增强输入帧的质量。此外,在增强帧上进行了一种新的边缘增强损失,以增强训练期间的边缘结构。最后,在公共基准测试上的实验结果表明,我们的方法优于最先进的压缩视频质量增强方法。
1. INTRODUCTION
为了减少所需的带宽和存储空间,视频压缩算法被广泛应用于许多实际应用场景[1],但这些算法也带来了视频质量下降的问题。因此,如何提高压缩视频的质量是研究界和业界共同关注的问题。作为减少压缩伪影的一种重要方法,压缩视频质量增强包括消除块效应、减少边缘/纹理浮动以及从蚊子噪声(由于帧采样而感知到不均匀或摇摆的运动)和抖动中重建视频的技术[2]。然而,由于细节在压缩过程中丢失,因此从失真帧重建高质量帧是一个挑战。
最近,人们提出了许多增强压缩图像/视频质量的方法,特别是借助深度学习[3、4、5]。早期方法[5、6、7、8]独立增强每个帧,这些方法简单,但无法利用相邻帧的细节。为了利用时间信息,杨等人[9]首先提出了一种用于压缩视频质量增强的多帧策略。从那时起,关等人[10]通过细化关键模块进一步发展了该方法。然而,由于视频内容被压缩伪影严重失真,现有的大多数基于多帧的方法中使用的光流方法不够可靠。因此,增强视频远不能令人满意。
与在像素级预测光流相比,在接收场中提取特征可以更稳健地增强压缩视频质量。基于这一思想,我们提出了一种具有可变形卷积的多帧网络[11,12],以实现多个运动对象的运动补偿。具体来说,与视频任务中使用的传统可变形卷积网络[13、14、15]不同,我们开发了一种新的金字塔形可变形结构来提取多尺度对齐信息,并添加了一个新的约束来减少参考帧中的噪声。
此外,基于残差密集网络在图像超分辨率任务中的应用[16],我们开发了一种新的具有残差块的密集连接网络,称为MRDN,以进一步提高提取更多层次特征的能力,进而实现更好的压缩视频质量增强。此外,通过对压缩视频的分析,我们发现压缩视频的质量下降通常发生在视频中的对象边缘。因此,设计了一种边缘增强损耗,使网络更加关注边缘重建
本文的主要贡献如下:(1)提出了一种新的压缩视频质量增强方法。该方法开发了一种具有有效运动补偿约束的新型棱锥变形结构,并采用剩余密集网络来提高质量;(2) 通过分析压缩视频质量下降的原因,我们开发了一种新的loss算法来提高边缘重建的性能;(3) 我们在压缩视频质量增强基准数据库上评估了该方法,并实现了最先进的性能.
2. THE PROPOSED SYSTEM
2.1. Overview
与传统的视频质量增强不同,压缩视频增强的目标是减少或消除视频压缩带来的伪影和模糊。为此,受[9]的启发,我们提出了一种能够利用峰值质量帧(PQF)的多帧网络∗ 因此,为了补偿低质量帧,提高了压缩视频的质量。如图1所示,网络由开发的MC模块和QE模块组成。设Fnp表示当前帧,Fp1和Fp2分别是最近的先前和后续PQF。以PQF(Fp1或Fp2)为参考帧,开发了基于可变形卷积的MC模块来预测时间运动,并对输入帧Fnp进行更详细的补偿。随后,将补偿后的帧串联为QE模块的输入,该模块的开发旨在进一步提高帧的质量。最后,在增强帧上进行了一种新的边缘增强损失,以增强训练期间的边缘结构。我们的新MC、QE和边缘增强损耗的详细信息将在以下章节中介绍.
2.2. MC module
对于视频相关任务中的传统可变形卷积网络,大多数都学习参考帧上的偏移δ,然后使用可变形卷积来提取当前帧上的对齐特征。获得的具有N个像素的对齐特征Fa定义为:
其中F是当前帧的特征,在本文中定义为Fnp。pi是F中的第i个位置,K是卷积核的大小,wk是第K个位置的权重,pk是第k个位置的预先指定偏移量。例如,pk∈ (−1.−1), (−1, 0), . . . , (1,1)对于K=3。
考虑到帧上通常同时存在多个运动对象,我们将多个可变形卷积构造成金字塔结构,以提取多尺度对齐特征,并通过级联增强信息交互。具体来说,金字塔可变形结构有3层,每层以不同的分辨率从输入中提取对齐的特征。层越深,输入分辨率越小。同时,通过级联,第l层的偏移和对齐特征
与下一层的
和
合并。对齐特征可以定义为:
f、 g和h都是使用ReLU激活的非线性变换层,和(·)↑s是按因子s进行的上采样。本文中s为2。最后,使用另一卷积层预测对齐特征上的补偿帧。
2.3. QE module
在获得补偿后的PQFs(和
)后,需要QE模块融合补偿帧和当前帧之间的信息,进一步提高当前帧的质量。为了提高QE模块的长期记忆能力,我们采用参数
的剩余密集网络来提取更多层次特征。该QE模块将补偿帧和当前帧串联作为输入,然后输出残余
。通过将该残差添加到当前帧,可以生成更高质量的帧
:
2.4. Loss functions
Edge enhancement loss:在压缩视频质量增强中,均方误差(MSE)被广泛使用。然而,MSE损耗不能很好地指导网络改善对象边缘的质量。为了使网络更加关注边缘重建,我们提出了一种边缘增强损耗。给定包含N个像素的增强帧及其对应的原始帧
,它们之间的边缘增强损失定义为:
Total Loss:
与其他视频任务不同,压缩视频质量增强任务对噪声非常敏感。因此,我们不仅优化了qe模块的参数θqe,还对mc模块的参数θmc添加了约束。具体来说,对于MC模块,补偿帧不仅需要提供对齐结果,还应该保留与原始帧Fraw类似的质量。对于QE模块,增强帧Fenh的质量要求与原始帧一样高。因此,总损失定义为:
3. EXPERIMENT
3.1. Datasets
为了训练提出的模型,利用了Guan等人的数据库[10]。该数据库由从Xiph.org数据集中选择的160个未压缩视频组成。VGEG和视频编码联合协作团队(JCT-VC)[17],其中106个视频用于训练。为了进行测试,提出的模型在18个标准测试视频[18]上进行了评估,这些视频收集自JCT-VC,广泛用于视频质量评估。以上视频均采用HM 16.5在LDP模式下压缩,采用4种不同的QP,即22、27、32、37。
3.2. Implementation Details
在训练过程中,我们使用压缩帧及其先前和后续的PQF作为输入帧,然后将这些帧随机裁剪为64x64块。然后,使用Adam优化器[19]优化模型,初始学习率为1e-4,批量大小设置为16。此外,在训练期间,运动补偿模块和质量增强模块的损失权重分别设置为1和0.001。在100000次迭代后,这两个模块的损失重量将更改为0.001和1。注意,我们为QP 22、27、32和37训练了四个模型。此外,为了更清楚地比较实验结果,我们根据增量峰值信噪比(PSNR)和结构相似性(
SSIM)评估了我们和比较的方法,这些方法测量了增强帧和原始帧之间的PSNR和SSIM差。
3.3. Comparison with state of the art
定量比较。我们将提出的方法与五种最先进的方法进行了比较,4PSSNR和4SSIM结果如表1所示。在比较的方法中,ARCNN[5]、DnCNN[6]和RNAN[7]是用于压缩图像质量增强的方法,它们独立增强每个帧,并且性能有限。MFQE 1.0[9]提出了一种新策略,即在当前帧附近寻找PQF,并从多个帧中提取更多信息。在MFQE 1.0的基础上,MFQE 2.0[10]通过使用更好的PQF检测器和QE模块,进一步提高了性能。在我们的工作中,为多帧策略开发了一种有效的金字塔形可变形结构和剩余密集网络。可以看出,与其他五种方法相比,该方法实现了更好的PSNR和
SSIM。更重要的是,对于QP 37,我们相对于MFQE 2.0的改进是MFQE 2.0相对于to MFQE 1.0的两倍。
Qualitative comparison:
图2显示了5种方法的定性比较,很明显,提出的方法可以提供更高质量的增强帧。以图2中的球、伞骨和嘴巴为例,我们的方法恢复了更清晰的对象边缘和更多细节。结果表明,对于视频中快速移动的对象(如球),我们的棱锥变形结构可以更准确地补偿运动,并且在有效的QE模块和边缘增强损失的指导下,该模型在对象边缘重建和细节补充方面具有更好的性能。
3.4. Effects of the proposed module
Effects of MC module
MC模块是多帧策略的关键部分,为了更好地理解基于光流估计的MC模块和拟议的基于可变形卷积的MC模块之间的差异,我们比较了这两个模块的效果。我们分别使用光流方法和拟议的金字塔变形卷积来训练两个模型,结果如表2所示。在相同的训练策略和QE模块下,使用我们的MC模块的模型的结果具有更高的质量,表明金字塔变形卷积更可靠。
Effects of QE module:
QE模块从其输入中提取信息,进一步丰富压缩帧的细节,其输出决定了整个模型的性能。我们使用通用CNN(用于MFQE 1.0)和拟议的MRDN分别训练两个模型,这些模型使用相同的设置和相同的MC模块。表2提供了评估结果。可以看出,MRDN在PSNR和
SSIM上获得的结果比一般CNN更高。这意味着MRDN中使用的剩余密集连接有效地利用了特征信息,并且比一般CNN中使用的超大接收场具有更好的性能。
4. CONCLUSION
在本文中,我们提出了一种新的用于压缩视频质量增强的多帧网络,该网络使用金字塔形可变形结构来补偿运动,并通过多帧剩余密集网络来提高压缩帧的质量。此外,还设计了一种边缘增强损耗,用于强大的边缘重建。该模型在基准数据库上实现了最先进的性能,模型大小为1.32M,比大多数比较方法都小。未来的工作重点是进一步降低计算复杂度。
边栏推荐
- 激光雷达lidar知识点滴
- 半小时『直播连麦搭建』动手实战,大学生技术岗位简历加分项get!
- leetcode:648. Word replacement [dictionary tree board + find the shortest matching prefix among several prefixes]
- 【历史上的今天】7 月 7 日:C# 发布;Chrome OS 问世;《仙剑奇侠传》发行
- 安恒堡垒机如何启用Radius双因素/双因子(2FA)身份认证
- Leetcode——剑指 Offer 05. 替换空格
- Docker deploy Oracle
- Mrs offline data analysis: process OBS data through Flink job
- [server data recovery] a case of RAID data recovery of a brand StorageWorks server
- The longest ascending subsequence model acwing 1012 Sister cities
猜你喜欢
Leetcode one question per day (636. exclusive time of functions)
Ian Goodfellow, the inventor of Gan, officially joined deepmind as research scientist
EfficientNet模型的完整细节
Multi merchant mall system function disassembly lecture 01 - Product Architecture
leetcode:648. 单词替换【字典树板子 + 寻找若干前缀中的最短符合前缀】
Substance painter notes: settings for multi display and multi-resolution displays
KITTI数据集简介与使用
Pinduoduo lost the lawsuit, and the case of bargain price difference of 0.9% was sentenced; Wechat internal test, the same mobile phone number can register two account functions; 2022 fields Awards an
数据湖(九):Iceberg特点详述和数据类型
OAuth 2.0 + JWT 保护API安全
随机推荐
Leetcode——236. 二叉树的最近公共祖先
"July 2022" Wukong editor update record
The longest ascending subsequence model acwing 1014 Mountaineering
Full details of efficientnet model
Similarities and differences between switches and routers
LeetCode 648. Word replacement
解析PHP跳出循环的方法以及continue、break、exit的区别介绍
⼀个对象从加载到JVM,再到被GC清除,都经历了什么过程?
C # use TCP protocol to establish connection
[server data recovery] a case of RAID data recovery of a brand StorageWorks server
Substance painter notes: settings for multi display and multi-resolution displays
Instructions d'utilisation de la trousse de développement du module d'acquisition d'accord du testeur mictr01
6、Electron无边框窗口和透明窗口 锁定模式 设置窗口图标
Summary on adding content of background dynamic template builder usage
6. Electron borderless window and transparent window lock mode setting window icon
一文读懂数仓中的pg_stat
Small game design framework
KITTI数据集简介与使用
Bill Gates posted his resume 48 years ago: "it's not as good-looking as yours."
Selenium Library