当前位置:网站首页>AnimeSR:可学习的降质算子与新的真实世界动漫VSR数据集
AnimeSR:可学习的降质算子与新的真实世界动漫VSR数据集
2022-07-01 13:25:00 【我爱计算机视觉】
关注公众号,发现CV技术之美
Xintao大佬团队的又一力作,本篇论文『AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos』针对真实动漫VSR提出了一个新的动画数据集,此外将真实世界降质算子扩展成可学习的算子,在NIQE等评价指标上实现了SOTA。

作者单位:腾讯PCG ARC实验室
论文链接:https://arxiv.org/pdf/2206.07038
01
看点
本文汇总了三个实现动漫VSR的三个关键改进措施:
最近的真实世界VSR方法的退化大多使用没有学习能力的基本算子,如模糊、噪声和压缩。本文建议从真实的LQ动画中学习这些基本算子,并将学习到的算子加入到退化过程中。这种基于神经网络的基本操作可以帮助更好地捕捉真实退化的分布。
建立了一个大尺度的HQ动画数据集AVC,以便对动画VSR进行训练和评估。
研究了一种高效的多尺度网络结构AnimeSR,它利用了单向循环网络的高效性和滑窗方法的有效性,达到比以前先进的方法更好的性能。

02
方法
AVC数据集
训练集AVC-Train包含553个高质量的剪辑,共55300帧。测试集AVC-Test包含30个片段,共3000帧。为了评估实际场景中的方法,本文还构建了一个真实世界的测试集AVC-RealLQ,它由44个低质量片段组成,下图显示了数据集的一些示例。

降质合成中的可学习基本算子
由于缺乏LR-HR训练对,最近的工作设计尽可能接近真实世界的退化模型,然后利用降质模型从HR中合成LR。上述降质可描述为n步:
◦◦
经典的降质模型中基本算子包括模糊、噪声、缩放、JPEG/FFMPEG压缩等。这些算子不具有任何学习能力,这在本质上限制了它们对真实世界降质的合成能力,如下图a。另一类采用大型神经网络和对抗学习方法合成LR样本。
然而,利用一个大的神经网络来学习整个退化过程和分布是一个挑战。这些方法只对有限范围的图像有效,而且通常会产生令人不快的伪影,如下图b。
本文建议学习用于降质合成的基本算子。与使用一个大型网络的方法不同,本文使用两三个卷积层训练微小的神经网络,以捕捉真实退化的主要特征,神经网络后续纳入降质合成过程。神经算子是可学习的,并且能够合成那些经典算子无法模拟的真实退化。可学习的基本算子极大地扩展了退化空间,可以覆盖更多真实的退化。

输入缩放策略
本文使用LR-HR对以监督的方式训练可学习的基本算子。然而,获得真实世界LQ视频的LR-HR对用于训练是具有挑战性的。对于真实的LQ动画,本文使用基本算子训练退化模型获得初步结果,如下图。正如预期的那样,输出并不令人满意。通过使用不同的缩放因子(×1—×0.3)来调整输入的大小。
可以观察到,随着输入分辨率的降低,伪影逐渐减少。但是过大的降尺度因子会导致细节/信息的丢失。其中,通过在这些视频样本上缩放×0.5的输入,可以在伪影消除和细节损失之间取得良好的平衡。因此,可以手动选择一个满意的输出作为伪HR,称为“输入缩放策略”。

可学习的基本算子
本文挑选了几个具有代表性的真实世界的LQ动画来训练可学习的基本算子。首先筛选VSR模型在原比例上表现较差,但在合适的比例因子下可以产生较好结果的LQ视频,并确定每个视频的最佳缩放因子。每段LQ视频采集大约2000帧,将它们输入到VSR网络中,获得伪HR样本。然后使用LR—伪HR对训练可学习的基本算子。
神经算子由3个3 × 3卷积层组成,隐通道维数为64。在卷积层之间使用LeakyReLU激活。本文从不同的LQ视频中训练出三个可学习的基本算子,并将它们放入一个池中。在每次训练迭代时从池中随机选择一个,并将其纳入退化过程中。
网络架构
实际动画VSR中的网络结构要求在性能和效率之间取得良好的平衡。目前的实用模型如Real-ESRGAN和RealBasicVSR通常采用非常大的网络,处理非常耗时,占用大量资源。当现有视频超分辨率达到4K/8K分辨率时,这一缺点会变得更加严重。在实际VSR中通常采用单向循环结构。然而,后续帧的缺失阻碍了时间信息的利用。因此在高效的单向结构的基础上,本文进一步采用了滑动窗口结构。循环块接收一个帧序列。

如上图b,循环块中采用10个残差块的多层级设计。采用三个量表,×1,×0.5和×0.25并为这三个量表分配了5、3和2个块。本文在AnimeSR中不使用光流,因为作者根据经验发现光流不会带来明显的视觉改善。此外,光流的计算也降低了训练和推理的速度。
03
实验
消融实验
数据集、退化模型、多尺度结构和可学习的基本算子(LBO)的消融实验

定量评估
作者认为NR-IQA指标并不总是与视觉质量一致,特别是在更精细的尺度上,所用的MANIQA比NIQE更符合感知视觉质量。

定性评估

04
总结
本文出自xintao大佬团队,AnimeSR的主要贡献如下:从真实的LQ动画中学习降质算子以更好地捕捉真实退化的分布;构建了一个大规模的HQ动画视频数据集AVC以便于动画VSR的训练和评估;有效的“输入缩放策略”使学习这些神经操作成为可能;进一步研究了一种高效的多尺度网络结构使AnimeSR实现SOTA。针对整篇文章,笔者认为:
输入缩放策略略显主观,更加客观的筛选方案时候是否是后续可以继续研究的内容呢,其次,过往单项VSR的输入为和,本文将加入输出作为滑窗的创新点略显强求,也作为输入是否就非严格意义上的‘unidirectional’了呢?
文中在训练集的选取上是使用光流过滤静态场景,但是在VSR中提及使用光流的效果不佳,这部分没有实验或者理论的论证。所以是否是光流本身的问题导致的效果不好,使用其他的对齐方法呢?还是数据集中的运动范围单一所导致的呢?笔者认为还需更加详细的论证。
本文更多的采用MANIQA作为定量的评估指标,是否可以添加稍多的评估指标例如NRQM、PI、BRISQUE等,此外,人工合成数据是否也算是真实世界中的一种呢?

END
欢迎加入「超分辨率」交流群备注:SR

边栏推荐
- Hardware development notes (9): basic process of hardware development, making a USB to RS232 module (8): create asm1117-3.3v package library and associate principle graphic devices
- Cs5268 advantages replace ag9321mcq typec multi in one docking station scheme
- JS discolored Lego building blocks
- MySQL Replication中的并行复制示例详解
- MySQL 66 questions, 20000 words + 50 pictures in detail! Necessary for review
- Blind box NFT digital collection platform system development (build source code)
- Reasons for MySQL reporting 1040too many connections and Solutions
- Arthas use
- Report on the 14th five year plan and future development trend of China's integrated circuit packaging industry Ⓓ 2022 ~ 2028
- Asp. NETCORE uses dynamic to simplify database access
猜你喜欢
![[Niu Ke's questions -sql big factory interview real questions] no2 User growth scenario (a certain degree of information flow)](/img/a0/e9e7506c9c34986dc73562539c8410.png)
[Niu Ke's questions -sql big factory interview real questions] no2 User growth scenario (a certain degree of information flow)

详细讲解面试的 IO多路复用,select,poll,epoll

当你真的学会DataBinding后,你会发现“这玩意真香”!

MySQL六十六问,两万字+五十图详解!复习必备

SVG钻石样式代码

Svg diamond style code

MySQL 66 questions, 20000 words + 50 pictures in detail! Necessary for review

学会使用LiveData和ViewModel,我相信会让你在写业务时变得轻松

Meta enlarge again! VR new model posted on CVPR oral: read and understand voice like a human

French Data Protection Agency: using Google Analytics or violating gdpr
随机推荐
[machine learning] VAE variational self encoder learning notes
Huawei HMS core joins hands with hypergraph to inject new momentum into 3D GIS
leetcode 322. Coin change (medium)
Declare an abstract class vehicle, which contains the private variable numofwheel and the public functions vehicle (int), horn (), setnumofwheel (int) and getnumofwheel (). Subclass mot
Colorful five pointed star SVG dynamic web page background JS special effect
Flutter SQLite使用
MySQL statistical bill information (Part 2): data import and query
Google Earth engine (GEE) - Global Human Settlements grid data 1975-1990-2000-2014 (p2016)
IO的几种模型 阻塞,非阻塞,io多路复用,信号驱动和异步io
基于mysql乐观锁实现秒杀的示例代码
机器学习—性能度量
2. Sensor size "recommended collection"
Hardware development notes (9): basic process of hardware development, making a USB to RS232 module (8): create asm1117-3.3v package library and associate principle graphic devices
Judea pearl, Turing prize winner: 19 causal inference papers worth reading recently
About fossage 2.0 "meta force meta universe system development logic scheme (details)
MySQL gap lock
SVG钻石样式代码
开源者的自我修养|为 ShardingSphere 贡献了千万行代码的程序员,后来当了 CEO
研发效能度量框架解读
How much money do novices prepare to play futures? Is agricultural products OK?