当前位置：网站首页>Key Points Estimation and Point Instance

Key Points Estimation and Point Instance

2022-08-01 00:23:00 【Recursi】

Abstract

在交通线路检测的情况下，需要考虑一个基本的感知模块，但需要考虑许多条件，如交通线路的数量和目标系统的计算能力。为了解决这些问题，本文提出了一种交通线路检测方法，即点实例网络(PINet)；该方法是基于关键点估计和实例分割方法。PINet包括几个同时进行训练的堆叠的沙漏网络。因此，可以根据目标环境的计算能力来选择训练模型的大小。我们将预测关键点的聚类问题转换为实例分割问题；

此外，如果用户想在一个计算能力较弱的系统上运行训练过的模型，比如嵌入式板，那么网络可以在不需要额外训练的情况下进行剪切和传输。

I. INTRODUCTION

该论文提出的方法使用一个由堆叠式沙漏网络来预测交通线上的关键点。堆叠式沙漏网络通常应用于姿态估计、目标检测等关键点估计领域。堆叠沙漏网络采用下采样和上采样序列，可提取不同尺度的信息。由于堆叠的沙漏网络包含了多个由相同loss训练的沙漏模块，因此可以通过从整个结构中剔除一些单元来同时获得不同参数尺寸的各种模型（涉及知识蒸馏，knowledge distillation）。将每个关键点区分为单独的实例。

它有三个输出分支，并预测交通线上的点的确切位置和实例特征。

contribution: 1. 使用关键点估计，所提的方法比基于语义分割的车道线检测方法具备更加紧凑的预测输出。2. 整体的网络由多个沙漏网络模块组成，可通过简单的裁切获得不同尺寸的网络模型。3. 能够应用到大量场景，包括不同方向、任意数量的交通线。4. 所提方法具备更低假阴性及值得注意的准确性，保证了自动驾驶的稳定性。

B. Key Points Estimation

堆叠的沙漏网络[25]由几个同时进行训练的沙漏模块组成。沙漏模块可以将各种尺度的信息传输到更深的层次，

帮助整个网络获得全局和局部特征。

由于这一特性，经常使用沙漏网络来检测目标检测区域中物体的中心或角落。由于这一特性，经常使用沙漏网络

来检测目标检测区域中物体的中心或角落。

III. METHOD

为了实现这些任务，我们提出的神经网络包括三个输出分支、一个置信分支、偏移分支和嵌入分支。置信度和偏移分支预测交通线的精确点；应用了受YOLO[45]启发的损失函数。嵌入分支生成每个预测点的嵌入特征；将嵌入

特征输入到聚类过程中，以区分每个实例。利用实例分割方法启发了嵌入分支的损失函数。

A. Architecture

图2显示了所提出的网络框架。输入的RGB图像大小为512×256；它被提供给调整大小的网络。通过调整网络中的卷积层序列将该图像压缩到更小的尺寸（64×32）；调整网络的输出输入预测网络。预测网络中可以包含任意数量的沙漏模块；本研究使用了四个沙漏模块。所有的沙漏模块都由相同的损失函数同时进行训练。训练步骤结束后，用户可以根据计算能力选择使用多少个沙漏模块，而不需要进行任何额外的训练。

在每个沙漏块的两端应用三个输出分支；损失函数可以从每个沙漏块的输出中计算出来。通过裁剪几个沙漏模

块，可以调整所需的计算资源。

1) Resizing Network:

调整大小的网络减少了输入图像的大小，以节省内存和推理时间。首先，输入的RGB图像大小为512×256。该网络由三个卷积层组成。所有卷积层应用滤波器大小为3×3，步幅为2，填充大小为1。在每个卷积层后使用Prelu[46]和批处理归一化[47]。最后，该网络生成具有64×32大小的调整大小的输出。表I显示了组成层的详细信息。

2) Predicting Network:

这部分预测了交通线上的精确点和实例分割的嵌入特征。

B. Loss Function

对于训练，对沙漏网络的每个输出分支应用四个损失函数。以下部分提供了每个损失函数的详细信息。如表二所示，输出分支生成一个64个网格，输出网格中的每个单元格由7个通道的预测值组成，包括置信值（1通道）、偏移量（2通道）值和嵌入特征（4通道）。置信值决定交通线路关键点是否存在，偏移值将置信值预测的关键点的

精确定位，利用嵌入特征将关键点区分为各个实例。

1) Confifidence Loss:

2) Offset Loss:

3) Embedding Feature Loss:

这个分支的训练是用来使具有相同实例的网格特征更接近，不同实例的特征距离更远，是一个聚类的过程。

4) Distillation Loss:

总损耗Ltotalis等于上述四个损耗项的加权和

：表IV和图7显示了PINet在CULane数据集上的详细结果。我们在结果中观察到三个特征。首先是PINet在CULane数据集上显示出特别低的误报率。这意味着我们的PINet对车道的错误预测比其他方法要少。这保证了安全性能。第二，裁剪的网络2H和3H表现出与整个网络相似的性能；只有1H的性能较差。在我们建议的体系结构中，当深度为三个沙漏模块时，似乎蒸馏效果最佳。最后，在强光条件下，PINet比其他方法效果更好。 CULane数据集中的夜间和炫光类别包括强光条件； PINet在这些类别中显示出更高的性能。但是，由于PINet基于关键点估计方法，因此局部阻塞或车道线路不清晰可能会对性能产生负面影响。

1）TuSimple：对TuSimple数据集的评估需要某些固定y轴值的精确x轴值。评估结果详见表五。图6显示了TuSimple数据集的某些结果。表IV-VI中的值nH表示该网络由n个沙漏模块组成。尽管未使用预先训练的权重和额

外的数据集，但PINet在准确性和误报率方面也表现出了很高的性能。假阴性率也显示出合理的值。

表VI根据沙漏模块的数量显示了GTX 2080ti GPU的参数数量和fps。 PINet的大多数组件都是由瓶颈层构建的。这种架构可以节省大量内存。使用所有沙漏网络时，PINet可以25 fps的速度运行，如果仅应用一个沙漏网络，则该网络的工作速度约为40 fps。在评估短网络时，该网络只是从整个受过训练的网络中裁剪而来，而无需任何其他培

训

我们研究了知识蒸馏方法的效果，该知识蒸馏方法的目的是为了减少剪短的网络与充当教师网络的最深网络之间的差距。表VII显示了消融研究的结果。平均性能差距使用以下公式计算：

其中AGn表示4H和nH之间的平均性能差距，N表示此消融研究的训练时期总数，PnH i表示第i个时期的nH性能。性能在tuSimple测试集中进行评估；我们会收集前30个时期的数据。当使用蒸馏方法时，当不使用蒸馏方法时，整个网络和修剪的短网络之间的平均性能差距较小。这意味着蒸馏方法可帮助修剪的短网络很好地模仿教师网络。

原网站

版权声明
本文为[Recursi]所创，转载请带上原文链接，感谢
https://blog.csdn.net/Recursions/article/details/126073668