当前位置:网站首页>基于神经网络的帧内预测和变换核选择
基于神经网络的帧内预测和变换核选择
2022-07-28 12:16:00 【Dillon2015】
本文来自JVET-T0073提案《neural network-based intra prediction with transform selection in VVC》
简介
文中提出利用神经网络使用左侧和上方参考像素直接生成预测块,以及预测使用LFNST时的变换核索引和是否需要转置。在VTM-8.0上,all intra配置下YUV的BD-Rate分别为-3.36%,-2.95%,-2.97%,编解码时间分别是395%和3575%,random access配置下YUV的BD-Rate分别为-1.52%,-1.00%,-1.26%,编解码时间分别是159%和723%。
整体框架
针对不同尺寸块一共训练了8个模型,{4x4,8x4,16x4,32x4, 8x8,16x8,16x16,32x32}。

使用模型对块wxh的处理过程用
表示,
表示模型参数。对于给定的wxh块Y,其相邻像素用X统一表示如Fig.1所示,X包括Y上方的
像素和左侧的
像素。整体流程如Fig.1,X经过预处理后被送入网络,网络输出为
和grpIdx1,gapIdx2, 经过后处理生成Y的预测块
。其中网络输出的grpIdx1,gapIdx2是预测的LFNST变换核索引和是否进行转置操作。
基于神经网络的帧内预测
预处理操作
Fig.1中对X进行的预处理操作包括以下4个步骤:

X中的参考像素除以2^(b-8),b表示位深。
对可获得的参考像素(已重建)减去均值u。
将不可获得的参考像素设为255。
如果min(h,w)<=8,上一步得到结果被展平(flattened),这是因为对于min(h,w)<=8的块网络采用全连接处理。如果min(h,w)>8,上一步的结果被分为两个矩形部分,Y上方的参考像素X0和左侧的X1,这是因为网络对于min(h,w)>8的块采用卷积处理。所以如果min(h,w)<=8则预处理后输出的
是
维向量,否则
网络结构
如果min(h,w)<=8,则网络结构是全连接网络,如表1,

对于16x16的块使用卷积网络,且该网络由3个子网络构成,如Fig.3,

3个子网络的具体结构如表2、3、4,

对于32x32的块也使用卷积网络,且该网络也由3个子网络构成,如Fig.3,各子网络的结构如表5、6、7,

后处理操作
Fig.1中的后处理操作包括将输入reshape为wxh尺寸,加上可获取的参考像素的均值u,然后乘以2^(b-8),

LFNST选择
如Fig.1,网络模型的输出还包含grpIdx1,gapIdx2。根据grpIdx1,gapIdx2可以选择LFNST的变换核和是否对变换系数进行转置,如表8。

模型传输
亮度块的模型标志位传输
VVC码流中通过nnFlag标志位表示帧内预测是否使用神经网络。如果亮度块wxh的尺寸满足T且参考像素未超出图像边界则码流中会传输nnFlag标志位,否则只使用传统帧内预测模式。

色度块的模型标志位传输
如果色度块对应的亮度块使用神经网络进行帧内预测,且色度块的尺寸满足T,则DM用于表示色度块是否使用神经网络,否则DM还是表示PLANAR模式。
上下文信息传输
在神经网络处理流程中,预处理阶段可能会垂直下采样、水平下采样、转置等,这些上下文信息规定如下,

LFNST的预测编码
grpIdx可以采用预测编码,编码端和解码端分别如Fig.5和Fig.6,


实验结果
模型训练细节如表10,

模型推导如表11,

实验结果如下,

加上LFNST参数的预测编码后结果为,

感兴趣的请关注微信公众号Video Coding

边栏推荐
- UV germicidal lamp chip dlt8p65sa Jericho
- Protective bearish strategy
- [matlab] IIR filter
- Array, string de duplication
- .net for subtraction, intersection and union of complex type sets
- 【嵌入式C基础】第2篇:进制转换与BCD编码
- 夜神模拟器抓包微信小程序
- Original juice multifunctional Juicer touch chip-dlt8t02s-jericho
- SSH port forwarding (Tunneling Technology)
- Parent and child of treeselect
猜你喜欢

Leetcdoe-342. Power of 4

Leetcode-136. numbers that appear only once

Le transaction

FFT wave simulation
![[embedded C foundation] Part 1: basic data types](/img/45/b0bc9e90b0582f0f2624ce27b5a76c.png)
[embedded C foundation] Part 1: basic data types

Fast classification of array.group() in ES6

GameStop熊市杀入NFT交易,老牌游戏零售商借Web3焕发第二春

One track education, PHP training, unity of knowledge and practice, popular
![[error prone points of C language] Part 4: detailed rules for storing structures in memory](/img/87/555e6db40f23b5bd4919bd7bdce776.png)
[error prone points of C language] Part 4: detailed rules for storing structures in memory

leetcdoe-342. 4的幂
随机推荐
Redis - Basics
jar包
Use and source code of livedata in jetpack family bucket
沾上趣店,都得道歉?
Leetcode 笔记 118. 杨辉三角
[error] after logging in to another machine using SSH, you find that the hostname is still yourself | unable to access yarn8088
With 433 remote control UV lamp touch chip-dlt8sa20a-jericho
MySQL 实践篇 —— 主从复制
Chapter 6 提升
Smart touch screen LCD bathroom mirror light touch chip-dlt8t02s-jericho
Auto.js enables Taobao to quickly submit orders
FFT海浪模拟
Using auto.js to realize fifaol3 brush teaching assistant
Parent and child of treeselect
Single option trading and cross trade
8、 Kubernetes network and load balancing
[FPGA]: AD sampling problem
Original juice multifunctional Juicer touch chip-dlt8t02s-jericho
Have you seen the management area decoupling architecture? Can help customers solve big problems
Gamestop bear market entered NFT trading, and established game retailers took advantage of Web3 to make a second spring
是
维向量,否则