当前位置:网站首页>论文速读:Homography Loss for Monocular 3D Object Detection
论文速读:Homography Loss for Monocular 3D Object Detection
2022-08-02 03:57:00 【是魏小白吗】
写在前面
是在Monopair的启发下完成的工作。论文提到是提出的结构可以作为一个独立的插件提升3D模型检测效果,因此有兴趣读一下
主要工作一览
如图1所示,核心思想是建立所有目标对象之间的联系,并全局优化它们的3D位置。此外,还通过逆投影映射将BEV与图像视图相关联,并将2D检测结果用于指导BEV中的3D定位。为了达到这一目标,提出了单应损失,将2D和3D信息结合起来,并全局平衡相互之间的关系,以获得更准确的3D方框。通过这样做,提出的损失函数能够有效地编码2D和3D空间中必要的几何信息,并且网络将被强制显式地捕捉对象之间的全局几何关系,这被证明是有助于3D检测的。由于可区分和可解释,损失函数可以插入任何成熟的单目3D探测器。实践中,以IMV oxelNet和MonoFlex为例,结合训练阶段的新的单应性损失,在Kitti 3D检测基准(2021年11月)上实验表明方法的性能远远超过最新技术。主要贡献可概括如下:
1.提出了一种新的损失函数,称为单应损失(homography loss,为方便写作下文皆称Hloss),利用图像视图和鸟眼视图之间的单应关系,利用场景中所有对象的几何关系,全局地约束它们的相互位置。同时,2D和3D空间的几何一致性将得到很好的保持。这是第一个在单目3D目标检测中充分利用全局几何约束的工作。
2.基于单应损失的单目3D探测器达到了Kitti 3D检测基准的最新性能,并超过了所有其他单目3D探测器的结果,表明了提出的损失函数的优越性。
3.将该损失函数应用于几种流行的单目3D探测器。在不增加任何额外推理代价的情况下,训练更加稳定,更容易收敛,实现了更高的精度和性能。证明其是一个即插即用的模块,可以适用于任何单目3D探测器。
方法论
Hloss提出的意义与依据论述
基于这样的两个事实:
1.任一2D/3D检测任务,两者都可通过应用L1损失来缩小预测的2D/3Dbox和对应的真值之间的差异。这意味着预测的2D/3Dboix将受到相应GT的自我约束。
2.一般地,3D数据可以通过投影损失(Projection loss)转换为2D空间的数据。
因此可以类推出结论:可以建立一个2D到3D空间的损失,以2D的目标检测知道3D定位的监督训练。
从数学模型角度推理引出Hloss的提出设计意义和依据(图2)。
论文也给出了从拓扑学角度的推论
论文提出,之前的工作只考虑了相邻的连接关系,这不足以编码多个目标对象之间的空间关系。本文考虑了提到的这种全局关系,并指出这类似于注意力机制中的远程依赖。例如,2号车的位置不仅会受到1号车的影响,还会受到5号车和9号车的约束,因为它们与蓝色虚线相连。
Hloss
首先是二维点到三维点的转换关系:
其中,q为像素点,Q为三维位置点,K是内参矩阵,Rt为外参矩阵 。
并通过H矩阵换算:
其中,H表示单应矩阵,H通过两个视图之间的映射来存储所有目标对象的相互关系。本文使用奇异值分解(SVD)来计算单应矩阵H。
最后转化为loss函数形式:
可以看到,主要是借助SmoothL1来实现计算的可微分的形式构建。
真正使用的时候自然是以多损失组合的形式出现。
整个过程倒不是很难理解,重点是这个点子的形成过程,也就是逻辑的推导过程,很值得学习。
试验
这里只粘贴了表1,其他试验数据可看论文
可以的看到全面实现了单目3D检测的SOTA
边栏推荐
- CaDDN代码调试
- 【每日一题】1374. 生成每种字符都是奇数个的字符串
- Sentinel熔断之非控制台方式总结
- Research Notes (8) Deep Learning and Its Application in WiFi Human Perception (Part 2)
- Arduino框架下ESP32重启原因串口信息输出示例
- 2022-08-01:以下go语言代码输出什么?A:panic;B:5;C:6;D:编译错误。 package main import ( “fmt“ ) func main() {
- 吴恩达机器学习系列课程笔记——第十五章:异常检测(Anomaly Detection)
- PHP5.6安装ssh2扩展用与执行远程命令
- Arduino框架下 ESP32看门狗使用示例
- SCI期刊最权威的信息查询步骤!
猜你喜欢
ADSP21489数据手册表摘要
可视水印的实现——1使用加法实现(add,+)
如何解决QByteArray添加quint16双字节时错误?
OpenPCDet environment configuration of 3 d object detection and demo test
v-bind动态绑定
Reinforcement Learning (Chapter 16 of the Watermelon Book) Mind Map
8月1日“海豹数藏”将全网首发民族英雄林则徐《四行行书》数字藏品!
使用 Fastai 构建食物图像分类器
The most authoritative information query steps for SCI journals!
无主复制系统(1)-节点故障时写DB
随机推荐
HyperLynx中层叠设计实例
无主复制系统(2)-读写quorum
Batch normalization (BN) based on deep learning
吴恩达机器学习系列课程笔记——第十五章:异常检测(Anomaly Detection)
MapFi论文架构整理
高等数学(第七版)同济大学 总习题三(后10题) 个人解答
复制延迟案例(2)-读己之写
Jetson Nano 2GB Developer Kit 安装说明
箭头函数及其this的指向
如何将PDF中的一部分页面另存为新的PDF文件
ADSP21489数据手册表摘要
SCI写作攻略——附带常见英语写作句式
使用Ansible编写playbook自动化安装php7.3.14
深度学习基础之批量归一化(BN)
热爱责任担当
安装部署 Kubernetes 仪表板(Dashboard)
批量--09---批量读文件入表
v-bind动态绑定
EasyCVR视频广场切换通道,视频播放协议异常的问题修复
Arduino框架下ESP32重启原因串口信息输出示例