当前位置：网站首页>Point Density-Aware Voxels for LiDAR 3D Object Detection 论文笔记

Point Density-Aware Voxels for LiDAR 3D Object Detection 论文笔记

2022-08-02 05:09:00 【byzy】

原文链接：https://arxiv.org/abs/2203.05662

1 引言

激光雷达的一个问题是产生的点云随距离变远而变得稀疏。

基于体素的方法忽略了点的密度，使用体素中心特征（左图）；但对于大范围的输入，内存限制了体素的分辨率，点与体素的不对齐问题导致丢失物体细节，从而导致性能下降。

基于点的方法使用最远点采样（中图），但计算复杂度随采样点的数量增大而增大，限制了细化阶段采样点的数量。

此外由于行人或自行车等目标的表面积小，对于激光雷达来说定位困难，目前的方法都主要关注汽车类别的检测。

本文提出点密度感知体素网络（PDV）利用点质心定位体素和考虑点密度的特征编码，解决上述问题。

主要贡献：

（1）点质心定位体素：对每个非空体素计算其中点的质心（右图）；通过在细化阶段使用点质心来定位体素特征，PDV使用点密度分布在特征编码中保留细粒度位置信息。

（2）密度感知RoI网格池化：在RoI网格池化时编码点密度作为额外特征。先使用核密度估计（KDE）在每个网格点球形邻域内编码局部体素特征密度，然后使用带有点密度位置编码的自注意力。该方法捕捉了区域提案中局部点密度信息，用于第二阶段细化。

（3）密度置信度预测：使用最终边界框质心位置和边界框内的点数作为额外特征来细化边界框置信度预测。这样可以利用激光雷达点密度和距离之间的固有关系进行更有根据的置信度预测。

3 方法

如下图所示，PDV使用两阶段检测网络，第一阶段使用3D稀疏卷积主干生成提案，第二阶段使用每个体素层中的体素特征和原始点云数据进行细化。

3.1 3D体素主干

类似SECOND，即体素化后使用3D稀疏卷积，再用RPN生成提案。每个体素层有依次增大的下采样分辨率，且均会被用于第二阶段的细化。

3.2 点质心定位体素

该模块在空间上定位空间体素特征，用于在密度感知的RoI网格池化中聚合。

对某个体素，其中的所有点坐标求取均值，即得到该体素的点质心。使用哈希表将每个体素点质心映射到对应的特征向量。体素点质心和稀疏体素特征均与同一个体素索引相关联。

利用卷积的核大小、步长、填充值，下一层体素的点质心可以通过上一层的结果来计算（即加权求和）。这样可以避免重复计算，从而使该方法可以有效地扩展到更大的点云。

3.3 密度感知RoI网格池化

使用KDE和自注意力的组合来为每个提案编码点密度特征。首先在每个提案内采样 $U\times U\times U$ 的网格点。

局部特征密度

使用KDE估计每个网格点球形邻域内的局部特征密度。密度感知RoI网格池化将估计的概率密度编码为额外特征。

首先，按下式得到每个网格点（ g_j ）球形邻域（ N(g_j) ）内体素点质心特征：

$\Psi_{g_j}^l=\left \{ \begin{bmatrix} f_{V_k^l}\\ c_{V_k^l}-g_j\\ p(c_{V_k^l}|g_j) \end{bmatrix}^T,\forall c_{V^l_k}\in N(g_j) \right \}$

其中 $f_{V_k^l}$ 是第层第个非空体素特征， $c_{V_k^l}$ 是其点质心坐标。 $p(c_{V_k^l}|p_j)$ 是KDE估计的概率密度（似然值）：

$p(c_{V_k^l}|g_j)\approx \frac{1}{|N(g_j)|\sigma^3}\sum_{c_{V^l_i}\in N(g_j)}W(c_{V_k^l},c_{V_i^l}),\; W(c_{V_k^l},c_{V_i^l})=\prod_{d\in\{x,y,z\}}w\left ( \frac{c_{V_k^l,d}-c_{V_i^l,d}}{\sigma} \right )$

其中 $\sigma$ 为带宽，为在 xyz 坐标上均独立的核（本文使用高斯核）。

得到特征 $\Psi_{g_j}^l$ 后，使用PointNet多尺度分组（MSG）模块从每个网格点 g_j 获取特征向量：

$f_{g_j}^l=\textup{maxpool}(\textup{FFN}(\Psi_{g_j}^l))$

MSG即使用多个半径（即球形邻域的半径）为每个网格点捕捉多尺度特征密度，将输出拼接起来。

最终的特征是所有层的特征拼接：

$f_{g_j}=[f_{g_j}^1,\cdots,f_{g_j}^L]$

网格点自注意力

不同网格点的特征无相互关系，可使用自注意力抓取网格点的长距离依赖性。如下图所示，自注意力作用于非空网格点特征 $f_{G^b}=\{f_{g_i}\mid |N(g_i)|>0,\forall g_i\in G^b\}$ ，使用标准transformer的编码器 $T_{g_i}$ 和残差连接，即： $\tilde{f}_{g_i}=T_{g_i}(f_{G^b})+f_{g_i}$ 。

对于 |N(g_i)|=0 的网格点，不输入到自注意力模块，特征不变。

点密度位置编码

仅添加注意力模块缺少激光雷达点云的几何信息，因此使用考虑点云密度的位置编码。该编码使用局部网格点位置和提案内的原始点数，将提案分割为 $U\times U\times U$ 的体素（每个体素对应一个网格点），则每个网格特征的位置编码为：

$\textup{PE}(f_{g_j})=\textup{FFN}([\delta_{g_j},\log(|N(V_{g_j})|+\epsilon)])$

其中 $\delta_{g_j}=x_{g_j}-c_b$ 是 g_j 位置和边界框质心 c_b 的相对位置， $|N(V_{g_j})|$ 是以 g_j 为中心的体素中点的数量， $\epsilon$ 为常数偏置。这样，RoI网格池化可以捕捉区域提案中点的密度。

3.4 密度置信度预测

使用距离和物体上的激光雷达点数来预测边界框的置信度。

先将密度感知RoI网格池化模块的输出特征拉平，使用共享的FFN编码得到 $f_{\tilde{b}}^s$ ；然后两个FFN分支分别用于编码特征进行边界框细化和置信度估计。

在置信度估计时，将最终边界框的质心 $c_{\tilde{b}}$ 和最终边界框内的点数 $|N(\tilde{b})|$ 附加到 $f_{\tilde{b}}^s$ ：

$p_{\tilde{b}}=\textup{FFN}([f_{\tilde{b}}^s,c_{\tilde{b}},\log(|N(\tilde{b})|)])$

3.5 训练损失

使用区域提案损失 $L_{\textup{RPN}}$ 和提案细化损失 $L_{\textup{RCNN}}$ 联合训练。

$L_{\textup{RPN}}=L_{\textup{cls}}(y_b,y_b^\star )+\beta L_{\textup{reg}}(r_b,r_b^\star)$

其中 $L_{\textup{cls}}$ 为focal损失， y_b 为预测类别概率向量， $y_b^\star$ 为真实类别； $L_{\textup{reg}}$ 为SmoothL1损失， r_b 为预测RoI锚框残差， $r_b^\star$ 为真实锚框残差。

$L_{\textup{RCNN}}=L_{\textup{IoU}}+L_{\textup{reg}}(r_{\tilde{b}},r_{\tilde{b}}^\star)$

$L_{\textup{IoU}}=-p_{\tilde{b}}^\star\log(p_{\tilde{b}})-(1-p_{\tilde{b}}^\star)\log(1-p_{\tilde{b}})$

其中 $p_{\tilde{b}}^\star$ 是由3D RoI及其相关的真实边界框缩放的置信度训练目标（见PV-RCNN）； $L_{\textup{reg}}$ 为SmoothL1损失， $r_{\tilde{b}}$ 和 $r_{\tilde{b}}^\star$ 分别是预测边界框和真实边界框的残差。