当前位置:网站首页>AnimeSR:可学习的降质算子与新的真实世界动漫VSR数据集
AnimeSR:可学习的降质算子与新的真实世界动漫VSR数据集
2022-07-01 13:25:00 【我爱计算机视觉】
关注公众号,发现CV技术之美
Xintao大佬团队的又一力作,本篇论文『AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos』针对真实动漫VSR提出了一个新的动画数据集,此外将真实世界降质算子扩展成可学习的算子,在NIQE等评价指标上实现了SOTA。
作者单位:腾讯PCG ARC实验室
论文链接:https://arxiv.org/pdf/2206.07038
01
看点
本文汇总了三个实现动漫VSR的三个关键改进措施:
最近的真实世界VSR方法的退化大多使用没有学习能力的基本算子,如模糊、噪声和压缩。本文建议从真实的LQ动画中学习这些基本算子,并将学习到的算子加入到退化过程中。这种基于神经网络的基本操作可以帮助更好地捕捉真实退化的分布。
建立了一个大尺度的HQ动画数据集AVC,以便对动画VSR进行训练和评估。
研究了一种高效的多尺度网络结构AnimeSR,它利用了单向循环网络的高效性和滑窗方法的有效性,达到比以前先进的方法更好的性能。
02
方法
AVC数据集
训练集AVC-Train包含553个高质量的剪辑,共55300帧。测试集AVC-Test包含30个片段,共3000帧。为了评估实际场景中的方法,本文还构建了一个真实世界的测试集AVC-RealLQ,它由44个低质量片段组成,下图显示了数据集的一些示例。
降质合成中的可学习基本算子
由于缺乏LR-HR训练对,最近的工作设计尽可能接近真实世界的退化模型,然后利用降质模型从HR中合成LR。上述降质可描述为n步:
◦◦
经典的降质模型中基本算子包括模糊、噪声、缩放、JPEG/FFMPEG压缩等。这些算子不具有任何学习能力,这在本质上限制了它们对真实世界降质的合成能力,如下图a。另一类采用大型神经网络和对抗学习方法合成LR样本。
然而,利用一个大的神经网络来学习整个退化过程和分布是一个挑战。这些方法只对有限范围的图像有效,而且通常会产生令人不快的伪影,如下图b。
本文建议学习用于降质合成的基本算子。与使用一个大型网络的方法不同,本文使用两三个卷积层训练微小的神经网络,以捕捉真实退化的主要特征,神经网络后续纳入降质合成过程。神经算子是可学习的,并且能够合成那些经典算子无法模拟的真实退化。可学习的基本算子极大地扩展了退化空间,可以覆盖更多真实的退化。
输入缩放策略
本文使用LR-HR对以监督的方式训练可学习的基本算子。然而,获得真实世界LQ视频的LR-HR对用于训练是具有挑战性的。对于真实的LQ动画,本文使用基本算子训练退化模型获得初步结果,如下图。正如预期的那样,输出并不令人满意。通过使用不同的缩放因子(×1—×0.3)来调整输入的大小。
可以观察到,随着输入分辨率的降低,伪影逐渐减少。但是过大的降尺度因子会导致细节/信息的丢失。其中,通过在这些视频样本上缩放×0.5的输入,可以在伪影消除和细节损失之间取得良好的平衡。因此,可以手动选择一个满意的输出作为伪HR,称为“输入缩放策略”。
可学习的基本算子
本文挑选了几个具有代表性的真实世界的LQ动画来训练可学习的基本算子。首先筛选VSR模型在原比例上表现较差,但在合适的比例因子下可以产生较好结果的LQ视频,并确定每个视频的最佳缩放因子。每段LQ视频采集大约2000帧,将它们输入到VSR网络中,获得伪HR样本。然后使用LR—伪HR对训练可学习的基本算子。
神经算子由3个3 × 3卷积层组成,隐通道维数为64。在卷积层之间使用LeakyReLU激活。本文从不同的LQ视频中训练出三个可学习的基本算子,并将它们放入一个池中。在每次训练迭代时从池中随机选择一个,并将其纳入退化过程中。
网络架构
实际动画VSR中的网络结构要求在性能和效率之间取得良好的平衡。目前的实用模型如Real-ESRGAN和RealBasicVSR通常采用非常大的网络,处理非常耗时,占用大量资源。当现有视频超分辨率达到4K/8K分辨率时,这一缺点会变得更加严重。在实际VSR中通常采用单向循环结构。然而,后续帧的缺失阻碍了时间信息的利用。因此在高效的单向结构的基础上,本文进一步采用了滑动窗口结构。循环块接收一个帧序列。
如上图b,循环块中采用10个残差块的多层级设计。采用三个量表,×1,×0.5和×0.25并为这三个量表分配了5、3和2个块。本文在AnimeSR中不使用光流,因为作者根据经验发现光流不会带来明显的视觉改善。此外,光流的计算也降低了训练和推理的速度。
03
实验
消融实验
数据集、退化模型、多尺度结构和可学习的基本算子(LBO)的消融实验
定量评估
作者认为NR-IQA指标并不总是与视觉质量一致,特别是在更精细的尺度上,所用的MANIQA比NIQE更符合感知视觉质量。
定性评估
04
总结
本文出自xintao大佬团队,AnimeSR的主要贡献如下:从真实的LQ动画中学习降质算子以更好地捕捉真实退化的分布;构建了一个大规模的HQ动画视频数据集AVC以便于动画VSR的训练和评估;有效的“输入缩放策略”使学习这些神经操作成为可能;进一步研究了一种高效的多尺度网络结构使AnimeSR实现SOTA。针对整篇文章,笔者认为:
输入缩放策略略显主观,更加客观的筛选方案时候是否是后续可以继续研究的内容呢,其次,过往单项VSR的输入为和,本文将加入输出作为滑窗的创新点略显强求,也作为输入是否就非严格意义上的‘unidirectional’了呢?
文中在训练集的选取上是使用光流过滤静态场景,但是在VSR中提及使用光流的效果不佳,这部分没有实验或者理论的论证。所以是否是光流本身的问题导致的效果不好,使用其他的对齐方法呢?还是数据集中的运动范围单一所导致的呢?笔者认为还需更加详细的论证。
本文更多的采用MANIQA作为定量的评估指标,是否可以添加稍多的评估指标例如NRQM、PI、BRISQUE等,此外,人工合成数据是否也算是真实世界中的一种呢?
END
欢迎加入「超分辨率」交流群备注:SR
边栏推荐
- 刘对(火线安全)-多云环境的风险发现
- Analysis report on the development prospect and investment strategic planning of China's wafer manufacturing Ⓔ 2022 ~ 2028
- [Niu Ke's questions -sql big factory interview real questions] no2 User growth scenario (a certain degree of information flow)
- minimum spanning tree
- spark源码阅读总纲
- What is the future development direction of people with ordinary education, appearance and family background? The career planning after 00 has been made clear
- Grafana reports an error: error= "failed to send notification to email addresses: [email protected] : 535 Error:
- 流量管理技术
- Terminal identification technology and management technology
- Word2vec training Chinese word vector
猜你喜欢
Summary of interview questions (1) HTTPS man in the middle attack, the principle of concurrenthashmap, serialVersionUID constant, redis single thread,
启动solr报错The stack size specified is too small,Specify at least 328k
SAP intelligent robot process automation (IRPA) solution sharing
孔松(信通院)-数字化时代云安全能力建设及趋势
Build a vc2010 development environment and create a tutorial of "realizing Tetris game in C language"
1553B环境搭建
流量管理技术
啟動solr報錯The stack size specified is too small,Specify at least 328k
简单的两个圆球loading加载
Google Earth Engine(GEE)——全球人类居住区网格数据 1975-1990-2000-2014 (P2016)
随机推荐
Professor Li Zexiang, Hong Kong University of science and technology: I'm wrong. Why is engineering consciousness more important than the best university?
Summary of interview questions (1) HTTPS man in the middle attack, the principle of concurrenthashmap, serialVersionUID constant, redis single thread,
MySQL报错1040Too many connections的原因以及解决方案
ArrayList capacity expansion mechanism and thread safety
ZABBIX 6.0 source code installation and ha configuration
Introduction to topological sorting
学历、长相、家境普通的人,未来的发展方向是什么?00后的职业规划都已经整得明明白白......
Global and Chinese polypropylene industry prospect analysis and market demand forecast report Ⓝ 2022 ~ 2027
Global and Chinese silicone defoamer production and marketing demand and investment forecast analysis report Ⓨ 2022 ~ 2027
IO的几种模型 阻塞,非阻塞,io多路复用,信号驱动和异步io
简单的两个圆球loading加载
Shangtang technology crash: a script written at the time of IPO
JS变色的乐高积木
启动solr报错The stack size specified is too small,Specify at least 328k
9. Use of better scroll and ref
Global and Chinese n-butanol acetic acid market development trend and prospect forecast report Ⓧ 2022 ~ 2028
波浪动画彩色五角星loader加载js特效
MySQL Replication中的并行复制示例详解
终端识别技术和管理技术
Qtdeisgner, pyuic detailed use tutorial interface and function logic separation (nanny teaching)