当前位置：网站首页>Sparse-PointNet: See Further in Autonomous Vehicles 论文笔记

Sparse-PointNet: See Further in Autonomous Vehicles 论文笔记

2022-07-30 14:58:00 【byzy】

原文链接：Sparse-PointNet: See Further in Autonomous Vehicles | IEEE Journals & Magazine | IEEE Xplore

I.引言

目前的激光雷达3D检测方法，为保证输入尺寸一致性采用的采样技术（如点云表达时的最远点采样和网格表达时的随机采样），通常会选择较大的采样分辨率。这往往导致检测器倾向于从密集点云中学习丰富信息，故仅在近距离范围的检测效果好；而远处的点较为稀疏，提取空间特征本身就比较困难，采样方法进一步加剧此问题。

由于标注者可以在多传感器融合的帮助下准确标注远处车辆，故本文也考虑使用多模态融合的方法：先使用PointPainting方法将激光雷达点投影到语义分割后的图像上得到分类分数，然后采样和保留体素中有最高分类分数的点，强制每个体素中的点密度相同。由于雷达点对距离的敏感程度不如激光雷达，也过滤一些有效的雷达点输入网络。最后使用动态连续占用热图来恢复损失的几何信息，从而解决远处空间信息不足的问题。

III.Sparse-PointNet

整体框架如下，包含预处理、动态连续占用热图（最大程度地恢复空间信息）、采样（使用语义分割移除背景点、保留每个区域最有代表性的点作为关键点）、提案生成（使用有代表性的点生成粗糙提案）和提案细化（融合占用热图优化结果）模块。

A.预处理

激光雷达点的特征为 $(x,y,z,\Delta t)$ ，包含3D坐标和两帧时间差（如果点云是通过累积多帧生成的）。

雷达点的特征类似。但由于是2D雷达，仅能测量 x,y 坐标，故坐标是统计了数据集中所有物体平均中心高度（平均高度的一半）后得到的、所有雷达点均相同的值（该设置使得激光雷达点的特征维度和雷达特征维度相同，是为了后续雷达点云和激光雷达点云的拼接）。

雷达点的其他特征通常包含RCS、速度、有效状态和FP概率，其中前两者本文没有使用，后两者用于筛选需要的雷达点（即仅使用有效且FP概率小于一定值的点）。

B.动态连续占用热图

希尔伯特图（HM）和贝叶斯希尔伯特图（BHM）可以连续地评估环境中每个区域的占用概率，从而生成连续占用图；即使点很少，效果也很可靠。

对于激光雷达点云，预测BEV下 $w\times h$ 的占用图。监督学习中，激光雷达每个光束的末端被标记为“占用”（ y=1 ）；自车到端点的区域被标记为“未占用”（ y=-1 ）。

HM中，使用由内积定义的核 $\kappa(x,\tilde{x})\approx \Phi(x)^T\Phi(\tilde{x})$ 将点投影到高维空间得到特征 $\Phi(x)\in\mathbb{R}^T$ ，其中 $\tilde{x}$ 为空间固定点。

$\Phi(x)=(1,\kappa(x,\tilde{x}_1),\kappa(x,\tilde{x}_2),\cdots,\kappa(x,\tilde{x}_{N_L})),\; \kappa(x,\tilde{x})=\exp(-\gamma\left \| x-\tilde{x} \right \|^2)$

其中 $\gamma$ 是带宽参数，用于调节输出热图的平滑度。然后使用sigmoid函数 $\sigma$ 计算点的占用概率：

$P(y=1|x,w)=1-\sigma(-w^T\Phi(x))$

其中是SGD在线学习得到的权重参数。

HBM进一步考虑了的不确定性，将视为服从多变量正态分布：

$Q(w)\approx P(w|x,y)=\mathbb{N}(w|\mu,\Sigma)$

其中 $\Sigma\in \mathbb{R}^{T\times T\times T}$ 和 $\mu$ 使用EM算法迭代地学习。

考虑到点密度随距离的变化，将UnoccupiedPointsPerMeter参数乘以 $\gamma$ 以更好地表达占用状态，其中 $\gamma=(d_{baseline}/d)^2$ ， $d_{baseline}$ 为预设值（20m），为距离。本文为激光雷达和雷达同时建立占用图。

动态连续占用图能防止接下来近距离采样时造成的空间信息损失，也能在远距离帮助产生更好的检测结果。

C.采样

两个目标：（1）减小近距离点的密度，使下采样点的密度在整个场景有一致性；（2）下采样的点应有高代表性，使3D检测器能在稀疏点云中检测和分类物体。

三个步骤：（1）图像语义分割；（2）激光雷达点投影到图像上获取分类分数；（3）根据分数对点云进行采样，每个网格仅留下最有代表性的点。

采样算法如下。背景类分数大于阈值 $maxS_{DBG}$ 的点被丢弃，然后体素化点云，为每个体素选择分数最高的点。最后使用最远点采样（FPS）选择 $N_{output}$ 个点得到点集。

该采样算法也被扩展为同时针对激光雷达和雷达点云的算法。

D.提案生成模块

使用PointNet++（多尺度分组MSG）编码关键点集合，然后考虑到稀疏性，进行基于区间的3D边界框生成（PointR-CNN中的方法），粗略地生成边界框（提案框）。该方法比基于SmoothL1损失的回归能更稳定可靠地学习。

如边界框的坐标由其区间位置及残差计算：

$bin_x=\frac{x_g-x_k+S}{\delta},res_x=\frac{1}{C}(x_g-x_k+S-bin_x\cdot \delta-\frac{\delta}{2})$

其中 x_g 是真实的值， x_k 是输入关键点的坐标，是坐标的搜索范围， $\delta$ 是区间长度，是归一化参数。和 $\theta$ 按照类似方法计算。

坐标使用SmoothL1损失直接回归。

对于分类任务，直接使用图像分割结果，而无需额外的分类头。

提案框的大小表示为该类别平均大小和残差之和。

最后使用PointR-CNN中的点云区域池化模块编码提案框，即使用提案框中的激光雷达和雷达点，学习维输出特征向量 f^p 。

E.提案细化模块

使用动态连续占用图中的相应区域特征计算残差，细化提案。若提案中心为 (x,y,z) ，则在占用图中取出以 (x,y) 为中心的、比平均类别尺寸稍大的区域（使模型学到上下文信息），输入到全连接层中得到与 f^p 长度相同的特征向量 f^m 。然后 f^p 和 f^m 拼接，输入两个全连接层回归边界框残差（SmoothL1损失）。