当前位置:网站首页>1+1<2 ?! HESIC论文解读
1+1<2 ?! HESIC论文解读
2022-06-26 23:31:00 【昇思MindSpore】

01
研究背景

HESIC主要针对双目图像的联合压缩任务,利用双目图像的内容相关性,通过主视眼优先编解码指导另一目降低编码过程中冗余信息的重复编码,达到优化1+1<2的效果。
科研团队为北京航空航天大学徐迈老师组, 围绕计算机视觉和图像视频压缩编码等多个low level方向进行科研。
02
论文主要内容简介
双目图像联合压缩,一方面需要图像压缩网络的优化,另一方面是对双目互信息的提取与利用,将二者有机结合才能更好发挥1+1<2的效果。而HESIC网络是一种面向基于深度学习的双目端到端的图像压缩算法,能够更加充分有效地利用双目图像的互信息来降低每对图片的存储开支。针对双目图像的诸多特点,HESIC网络借鉴了传统图像处理的单应性图像变换提高双目图像的编码效率、节省存储比特数,并采取了一种基于自编码器的基本网络架构。对于熵编码部分,能够分别基于混合高斯分布的模型和基于自回归的熵编码模型适应两种不同优缺点的熵编码模型,并在InStereo2K和KITTI数据集上取得了更佳效果。
03
代码链接
代码链接:
https://github.com/ywz978020607/HESIC
https://gitee.com/ywzsunny/HESIC-Mindspore-Migration
论文链接:
https://openaccess.thecvf.com/content/CVPR2021/papers/Deng_Deep_Homography_for_Efficient_Stereo_Image_Compression_CVPR_2021_paper.pdf
04
算法框架技术要点

主体框架如上,通过双目各自的编解码网络实现基本的编码解码功能,并在入口和出口通过左目作为主视眼独立编解码,并将左目通过单应性变换到右目对其编解码去冗余信息。此外,在解码后再通过单应性变换矩阵,可以将左右目图像双向变换,与对方通道并后进行简单的卷积实现交叉质量增强,进一步提升模型效果。
在熵模型部分,HESIC使用的基于混合高斯分布的模型,兼顾并行优化速度的同时提升了预测的准确度。此外,针对熵模型的不同,我们还使用了一种基于Joint自回归的双目熵编码结构,进一步提升效果,记作HESIC+,相比于HESIC,缺点是不利于并行优化,优点是能够更好利用已编码/已解码信息,提高编码效率。

05
实验结果
论文模型在Instereo2k和KITTI数据集的实验结果或对比实验结果,包括PSNR和SSIM两个指标在不同压缩率下的对比情况。

图:HESIC在Instereo2k和KITTI上分别取得平均后的客观效果

图 BD-BR效果对比

主观效果图
06
MindSpore代码实现
https://gitee.com/ywzsunny/HESIC-Mindspore-Migration
代码主要分为双目图像单应性(此部分替换成传统特征匹配也可以,对结果影响不大)、特征变换、量化+熵模型预测bpp、特征重建部分. 编解码主体结构依然是特征提取与反变换, 通过熵模型预测可以在神经网络推导过程直接计算得到预计的码字比特, 而不需真正的序列化, 从而加快训练过程.训练过程的损失函数一方面包括估计的比特率, 另一方面包括图像损失,如PSNR, 将二者通过lambda加权,调整压缩率,从而实现不同压缩率下的模型训练和测试。
07
总结与展望
对于双目图像压缩,更好地利用互信息,并与压缩网络深度融合才能进一步提升压缩效率。展望未来,双目图像的单应性关系与视频前后帧的关系各有特点,可以根据单应性变换进行低成本的图像内容大致配准,并结合到其他任务中。
边栏推荐
- Can I open an account for stock trading on my mobile phone? Is it safe to open an account for stock trading on the Internet
- Electronic Society C language level 1 31. Calculate line segment length
- leetcode 1143. Longest common subsequence (medium)
- Why don't I recommend going to sap training institution for training?
- UnityEditor编辑器扩展-表格功能
- Unityeditor Editor Extension - table function
- Selenium电脑上怎么下载-Selenium下载和安装图文教程[超详细]
- 软件工程导论——第四章——形式化说明技术
- 在线上买养老年金险正规安全吗?有没有保单?
- Wechat applet automatically generates punch in Poster
猜你喜欢

UnityEditor編輯器擴展-錶格功能

您的连接不是私密连接
![[microservices] Understanding microservices](/img/62/e826e692e7fd6e6e8dab2baa4dd170.png)
[microservices] Understanding microservices

用户在hander()goroutine,添加定时器功能,超时则强踢出

Service discovery, storage engine and static website of go language

Typera set title auto numbering

My advanced learning notes of C language ----- keywords

The client implements client Go client type definition connection

12 color ring three primary colors

Unityeditor Editor Extension - table function
随机推荐
Why does EDR need defense in depth to combat ransomware?
CVE-2022-30190 Follina Office RCE分析【附自定义word模板POC】
Thesis study -- Analysis of the influence of rainfall field division method on rainfall control rate
Smartbi gives you a piece to play with Boston matrix
Is it safe to open an account on your mobile phone to buy stocks? Is it safe to open an account online to speculate in stocks
【强基计划】数学与物理竞赛中的微积分部分视频
【Try to Hack】正向shell和反向shell
手机能开户炒股吗 网上开户炒股安全吗
开放世界机甲游戏-Phantom Galaxies
The processing of private chat function in go language
不会写免杀也能轻松过defender上线CS
Electronic Society C language level 1 29, alignment output
Where is it safer to open an account to buy funds
Operator介绍
Alibaba cloud server purchase, basic configuration, (xshell) remote connection and environment building
Operator介紹
Electronic Society C language level 1 31. Calculate line segment length
Implement the queue through two stacks
股票开户有哪些优惠活动?手机开户安全么?
Can't write to avoid killing and can easily go online CS through defender