当前位置：网站首页>【点云处理之论文狂读前沿版8】—— Pointview-GCN: 3D Shape Classification With Multi-View Point Clouds

【点云处理之论文狂读前沿版8】—— Pointview-GCN: 3D Shape Classification With Multi-View Point Clouds

2022-07-03 08:53:00 【LingbinBu】

Pointview-GCN: 3D Shape Classification With Multi-View Point Clouds

摘要
1.引言
2.相关工作
3.方法
- 3.1. Graph convolution and Selective View Sampling
- 3.2. Multi-level feature aggregation and training loss
4.实验
- 4.1. Comparison against state-of-the-art methods
- 4.2. Ablation studies

摘要

绕着物体从多个视点捕获部分点云进行3D shape classification
Pointview-GCN具有multi-level的Graph Convolutional Networks (GCNs)，以fine-to-coarse的方式聚合单个视角点云的形状特征，从而达到对物体的几何信息和多视角关系进行编码的目的
代码详见：https://github.com/SMohammadi89/PointView-GCN PyTorch版本

1.引言

现实生活中捕获到的点云数据都是从不同视角下获得的部分点云
Graph Convolutional Networks (GCNs)证明了其在多视角下对语义关系编码进行特征聚合的强大能力
Pointview-GCN提出了一个具有multi-level GCNs的网络，从多个视图的部分点云中聚合形状特征，以fine-to-coarse的方式挖掘相邻视图中的语义关系
在不同层的GCNs间加入skip connection
提出了一个新的数据集，该数据集包含单个视角的点云数据

2.相关工作

MVCNN使用max-pooling从不同的视图中聚合特征，最终得到一个全局形状descriptor，缺点是没有考虑多视图数据之间的语义关系。

View-GCN提出了一个基于view的图卷积网络，在数据中捕获结构关系，但是以上方法都是在图像上聚合特征。

3.方法

首先从物体的不同视角下拍摄多个部分点数据
利用backbone提取每个部分点云的特征
创建一个带有 $N$ 个节点的图 $G=\left\{ {v_i} \right\}_{i \in N}$ ，通过第 $i$ 个单视角点云数据的形状特征 $F_i$ 表示节点 $v_i$ ，其中 $\mathbf{F}=\left\{ {F_i} \right\}_{i \in N}$ 是 $G$ 的所有节点特征， $v_p$ 是 $v_i$ 的相邻点(kNN)， $G$ 的邻接矩阵为 $\mathbf{A}$

提出网络的特征聚合包含了多个level的GCNs，如图2所示，level的最优数量 $M$ 通过实验确定。

在第 $j$ 个level 中，对输入的 $G^j$ 执行graph convolution操作，更新节点特征 $F_i$ ，随后跟一个可选择性的 view-sampling，得到更小的graph $G^{j+1}$ ， $G^{j+1}$ 中包含了 $G^{j}$ 最重要的视图信息。

$G^{j+1}$ 又被作为输入被放入第 $j + 1$ 个level中。

3.1. Graph convolution and Selective View Sampling

在第 $j$ 个level中，执行了以下三个操作：

local graph convolution
non-local message passing
selective view sampling (SVS)

Local graph convolution

考虑节点 $v_i^j$ 及其相邻节点，local graph convolution通过下式更新节点 $v_i^j$ 的特征：
$\tilde{\mathbf{F}}^{j}=\mathcal{L}\left(\mathbf{A}^{j} \mathbf{F}^{j} \mathbf{W}^{j} ; \alpha^{j}\right)$
其中 $\mathcal{L}(\cdot)$ 表示LeakyReLU操作， $\alpha^{j}$ 和 $\mathbf{W}^{j}$ 为权值矩阵。

non-local message passing

接下来还要再通过non-local message passing更新 $\tilde{\mathbf{F}}^{j}$ ，考虑 $G^{j}$ 中所有节点间的长距离关系。每个节点 $v_i$ 首先更新其到相邻顶点间边的状态：

$m_{i, p}^{j}=\mathcal{R}\left(\tilde{F}_{i}^{j}, \tilde{F}_{p}^{j} ; \beta^{j}\right)_{i, p \in N^{j}}$

其中 $\mathcal{R}(\cdot)$ 表示一对视图间的relation function， $\beta^{j}$ 是related parameters。

之后通过下式更新顶点的特征：
$\tilde{F}_{i}^{j}=\mathcal{C}\left(\tilde{F}_{i}^{j}, \sum_{p=1, p \neq i}^{N_{j}} m_{i, p}^{j} ; \gamma^{j}\right)$
其中 $\mathcal{C}(\cdot)$ 是combination function， $\gamma^{j}$ 是related parameters。

在通过non-local message passing后，特征是在考虑整个图的关系上更新的。

selective view sampling (SVS)

使用Farthest Point Sampling (FPS)对 $G^{j}$ 进行下采样
每个下采样后的节点 $v_i$ 的最近邻 $\mathbf{V}_{i}^{j}$ 中，使用view-selector选择softmax函数响应最大的节点
将coarsened $G^{j+1}$ 和更新好的 $\mathbf{F}^{j+1}$ 放入下一层继续处理

3.2. Multi-level feature aggregation and training loss

在每一层graph convolution后，都有一层max-pooling作用在 $\mathbf{F}^{j}$ 上，目的是得到每个level上的全局形状特征 $F_{\text {global }}$ 。

最终的全局形状特征 $F_{\text {global }}$ 是所有level中被pool后特征的拼接。

从第一层的convolution level 到最后一层的convolution level 之间加入了一个residual connection，避免当GCNs level的数量增加导致的梯度消失现象。

训练损失包含两个元素，全局形状损失 $L_{\text {global }}$ 和selective-view形状损失 $L_{\text {selective }}$ ：
$\begin{aligned} L=& L_{\text {global }}\left(\mathcal{S}\left(F_{\text {global }}\right), y\right)+\\ & \sum_{j=1}^{M} \sum_{i=1}^{N^{j+1}} \sum_{v_{s} \in \mathbf{V}_{i}^{j}} L_{\text {selective }}\left(\mathcal{V}\left(F_{s}^{j} ; \theta^{j}\right), y\right) \end{aligned}$
其中 $L_{\text {global }}$ 是交叉熵损失， $\mathcal{S}$ 是包含了全连接层和softmax函数的分类器， $y$ 是形状分类。 $L_{\text {selective }}$ 是用于view selector的交叉熵，保证所选的视图可以识别形状形状分类。 $\mathcal{V}(\cdot)$ 是用于view selector的函数，参数为 $\theta^{j}$ 。 $F_{s}^{j}$ 是下采样后的节点。

在训练时，只有 $L_{\text {global }}$ 参与。

4.实验

Dataset generation

ModelNet40包含了12311个model，40个类别
ScanObjectNN包含了2909个model，15个类别
基于此构建了4个数据集：Model-D, Model-H, Scan-D 和 Scan-H
D表示二十面体（20个viewpoints），H表示半球（12个viewpoints）

Implementation details

backbone：PointNet++ /DGCNN