当前位置:网站首页>1+1<2 ?! HESIC论文解读
1+1<2 ?! HESIC论文解读
2022-06-26 23:31:00 【昇思MindSpore】

01
研究背景

HESIC主要针对双目图像的联合压缩任务,利用双目图像的内容相关性,通过主视眼优先编解码指导另一目降低编码过程中冗余信息的重复编码,达到优化1+1<2的效果。
科研团队为北京航空航天大学徐迈老师组, 围绕计算机视觉和图像视频压缩编码等多个low level方向进行科研。
02
论文主要内容简介
双目图像联合压缩,一方面需要图像压缩网络的优化,另一方面是对双目互信息的提取与利用,将二者有机结合才能更好发挥1+1<2的效果。而HESIC网络是一种面向基于深度学习的双目端到端的图像压缩算法,能够更加充分有效地利用双目图像的互信息来降低每对图片的存储开支。针对双目图像的诸多特点,HESIC网络借鉴了传统图像处理的单应性图像变换提高双目图像的编码效率、节省存储比特数,并采取了一种基于自编码器的基本网络架构。对于熵编码部分,能够分别基于混合高斯分布的模型和基于自回归的熵编码模型适应两种不同优缺点的熵编码模型,并在InStereo2K和KITTI数据集上取得了更佳效果。
03
代码链接
代码链接:
https://github.com/ywz978020607/HESIC
https://gitee.com/ywzsunny/HESIC-Mindspore-Migration
论文链接:
https://openaccess.thecvf.com/content/CVPR2021/papers/Deng_Deep_Homography_for_Efficient_Stereo_Image_Compression_CVPR_2021_paper.pdf
04
算法框架技术要点

主体框架如上,通过双目各自的编解码网络实现基本的编码解码功能,并在入口和出口通过左目作为主视眼独立编解码,并将左目通过单应性变换到右目对其编解码去冗余信息。此外,在解码后再通过单应性变换矩阵,可以将左右目图像双向变换,与对方通道并后进行简单的卷积实现交叉质量增强,进一步提升模型效果。
在熵模型部分,HESIC使用的基于混合高斯分布的模型,兼顾并行优化速度的同时提升了预测的准确度。此外,针对熵模型的不同,我们还使用了一种基于Joint自回归的双目熵编码结构,进一步提升效果,记作HESIC+,相比于HESIC,缺点是不利于并行优化,优点是能够更好利用已编码/已解码信息,提高编码效率。

05
实验结果
论文模型在Instereo2k和KITTI数据集的实验结果或对比实验结果,包括PSNR和SSIM两个指标在不同压缩率下的对比情况。

图:HESIC在Instereo2k和KITTI上分别取得平均后的客观效果

图 BD-BR效果对比

主观效果图
06
MindSpore代码实现
https://gitee.com/ywzsunny/HESIC-Mindspore-Migration
代码主要分为双目图像单应性(此部分替换成传统特征匹配也可以,对结果影响不大)、特征变换、量化+熵模型预测bpp、特征重建部分. 编解码主体结构依然是特征提取与反变换, 通过熵模型预测可以在神经网络推导过程直接计算得到预计的码字比特, 而不需真正的序列化, 从而加快训练过程.训练过程的损失函数一方面包括估计的比特率, 另一方面包括图像损失,如PSNR, 将二者通过lambda加权,调整压缩率,从而实现不同压缩率下的模型训练和测试。
07
总结与展望
对于双目图像压缩,更好地利用互信息,并与压缩网络深度融合才能进一步提升压缩效率。展望未来,双目图像的单应性关系与视频前后帧的关系各有特点,可以根据单应性变换进行低成本的图像内容大致配准,并结合到其他任务中。
边栏推荐
- ASP.Net Core创建MVC项目上传文件(缓冲方式)
- Open world mecha games phantom Galaxy
- Cve-2022-30190 follina office rce analysis [attached with customized word template POC]
- CVE-2022-30190 Follina Office RCE分析【附自定义word模板POC】
- PHP code audit series (I) basis: methods, ideas and processes
- 消息队列简介
- Thesis study -- Analysis of the influence of rainfall field division method on rainfall control rate
- 在线上买养老年金险正规安全吗?有没有保单?
- Implement the queue through two stacks
- DAST 黑盒漏洞扫描器 第五篇:漏洞扫描引擎与服务能力
猜你喜欢
随机推荐
简单测试轻量级表达式计算器Flee
Why does EDR need defense in depth to combat ransomware?
Wechat applet automatically generates punch in Poster
The user adds a timer function in the handler () goroutine. If it times out, it will be kicked out
12色彩环三原色
[interface] pyqt5 and swing transformer for face recognition
Installation of xshell and xftp
Extensions de l'éditeur d'unityeditor - fonctions de table
Solid and ambient colors
Learun low code OA system construction platform
不会写免杀也能轻松过defender上线CS
UnityEditor编辑器扩展-表格功能
Leetcode 718. Longest repeating subarray (violence enumeration, to be solved)
Electronic Society C language level 1 31. Calculate line segment length
有哪些劵商推荐?现在在线开户安全么?
论文学习——降雨场次划分方法对降雨控制率的影响分析
[try to hack] forward shell and reverse shell
Electronic Society C language level 1 30, calculation of last term of arithmetic sequence
Bs-gx-016 implementation of textbook management system based on SSM
在线上买养老年金险正规安全吗?有没有保单?









