当前位置:网站首页>MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of
MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of
2022-07-29 05:54:00 【byzy】
MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of LiDAR Data 论文笔记
原文链接:https://arxiv.org/pdf/2104.10772.pdf
1 引言
传统的方法将目标检测和运动预测分为两个步骤,导致级联误差,且两个任务不能共享学到的特征。
关于端到端学习这两个任务的方法,一些先在RV上进行处理,仅将输出的结果转换到BEV进行后处理。该方法能高效处理大尺度区域,对小物体和遥远物体的检测结果能达到SotA;另一些仅在RV上进行很少的预处理或直接转化为BEV,然后在BEV上进行目标检测。物体形状和运动的距离不变性为运动预测提供了优势;但处理大区域上的可放缩性存在问题。
本文提出多视图(MV)融合网络来聚合激光雷达时间序列的时空特征。
3 MV检测和运动预测
3.1 预备知识
输入:
帧激光雷达扫描
,其中
为最新的扫描,称为参考扫描。
包含
个激光雷达点,记为
。由于不同帧下自车姿态可能不同,需要进行视角变换。设第
帧中的点转移到第
帧坐标系下后记为
。
投影:RV表达即离散化球坐标下的水平角和提升角;BEV表达即离散化笛卡尔坐标下的
和
。
点的特征:对于点
,拼接其在第
帧下的原始坐标、参考帧下的转换后坐标和原始强度作为特征。
3.2 多视图时间融合网络
最直接的时间融合方法就是累积一段时间的激光雷达点(称为one-shot方法),然后投影到某个视图上进行特征聚合。但是投影阶段会有信息损失。

如上图所示,本文先将前一时刻RV特征转换到当前时刻(绿框),然后使用子网络为每个RV网格学习时空特征(粉框;结构为单独卷积+残差块),然后投影到BEV(橙框),与前一时刻的BEV特征拼接。类似地,也使用子网络为BEV每个网格学习时空特征。每个子网络(粉框)均不共享权重。
RV到RV的特征转换:若点
在第
帧和第
帧的RV投影分别为
和
,
和
分别为第
帧转换到第
帧前后的特征图。则转换就是直接将对应位置的特征移动,即
。若多个点投影到同一个网格中,则仅使用最近的点。
RV到BEV的特征转换:投影到BEV特征图中某网格的所有点,其特征向量为点的
坐标与网格的中心坐标之差再与对应的RV特征拼接。最后网格内的所有点特征通过MLP(线性层+BN+ReLU)并求均值作为该BEV网格特征。
3.3 多视图主干网络
该网络的作用是处理时空特征并与地图特征融合。

通过非对称U-Net(结构如下)学习多尺度RV特征。然后用于上节相同的方法投影到BEV(橙框),与BEV时空特征、以及地图特征(高清地图离散化后通过CNN提取的)拼接。最后使用另一个相同结构的非对称U-Net提取多尺度BEV特征。

3.4 输出预测
目标是检测当前帧下的物体并预测轨迹。使用密集、单阶段的卷积头。类似CenterPoint,预测每个网格包含某个类别物体中心点的概率、边界框参数,并使用非最大抑制移除重复检测。对于大型物体的运动估计,提取以物体为中心的旋转的感兴趣区,学习物体特征预测轨迹。对于小型物体的运动估计,直接使用物体中心网格特征预测。
3.5 端到端学习
总损失函数为检测损失和轨迹损失之和。
检测损失包含分类损失(focal损失)和回归损失(SmoothL1损失,2D边界框参数包含中心点、尺寸和朝向角/
)。
轨迹损失为未来每时间步长损失的平均值:

轨迹
上时间
的路径点被视为2D拉普拉斯分布,参数化为位置和尺度。使用预测和真实分布之间的KL散度计算损失,学习路径点的分布。
4 实验
4.1 评估指标
检测指标使用常规的AP;运动预测指标使用多个时间点上的
位移误差,即预测边界框与其匹配真实边界框的中心距离。
4.2 实施细节
在nuScenes上使用了数据增广。即对非关键帧使用相邻帧标签插值生成标签,然后对整体点云进行小距离平移和
轴旋转。
4.4 消融研究
4.4.1 时间融合网络中视图的作用
仅使用BEV的版本比仅使用RV的版本在运动预测性能上好很多,可能是由于BEV表达为运动预测提供了强先验。但融合RV和BEV的网络进一步提高了性能(尤其是对于小物体),这表明每个视图都有检测和运动预测的相关信息(RV有更细粒度的信息)。
4.4.2 主干网络中视图的作用
多视图方法比基于单个视图的方法性能好。在激光雷达分辨率高的数据集上,多视图方法带来的性能提升更显著。
4.4.3 多视图时间融合策略的作用
本文的顺序融合与one-shot融合方法比较,后者直接将原始点特征变换到RV或BEV下,与其余时刻的特征拼接,生成独立的RV和BEV时空特征。在激光雷达分辨率低的数据集上,顺序融合带来的性能提升更显著,可能是低分辨率激光雷达信号 时间融合导致的信息损失 带来的影响更为严重,而高分辨率激光雷达有更多的冗余信息。
4.5 运行时间分析
本文方法结合了RV带来的快速性和BEV带来的性能优势,能在下一帧数据到来前给出结果;检测范围越大,运行时间越长。
边栏推荐
- Thread - thread safety - thread optimization
- 如何优雅的写 Controller 层代码?
- Is online legend software testing training really so black hearted? Are they all scams?
- Teacher Wu Enda machine learning course notes 01 introduction
- Simulation volume leetcode [normal] 081. Search rotation sort array II
- Unity free element special effect recommendation
- 基于C语言设计的学籍管理系统
- Federal learning backdoor attack summary (2019-2022)
- 量子机器学习中的安全性问题
- 'function VTable for error: undefined reference to... 'cause and solution of the problem
猜你喜欢

Leetcode-592: fraction addition and subtraction

二次元卡通渲染——进阶技巧

吴恩达老师机器学习课程笔记 02 单变量线性回归

JVM之垃圾回收机制(GC)

基于C语言设计的学籍管理系统

Unity免费元素特效推荐

Thread - thread safety - thread optimization

【冷冻电镜】Relion4.0——subtomogram教程

IO流 - File - properties

Teacher Wu Enda's machine learning course notes 02 univariate linear regression
随机推荐
Apisik health check test
Unity免费元素特效推荐
Analog volume leetcode [normal] 093. Restore IP address
【笔记】The art of research - (讲好故事和论点)
Shallow reading of reentrantlock source code of abstractqueuedsynchronizer (AQS)
SSH免密登录-两台虚拟机建立免密通道 双向信任
Simulation volume leetcode [normal] 222. number of nodes of complete binary tree
【冷冻电镜入门】加州理工公开课课程笔记 Part 3: Image Formation
模拟卷Leetcode【普通】150. 逆波兰表达式求值
Unity free element special effect recommendation
【技能积累】presentation实用技巧积累,常用句式
Federal learning backdoor attack summary (2019-2022)
vscode通过remotessh结合xdebug远程调试php解决方案
Thread synchronization - producers and consumers, tortoise and rabbit race, dual thread printing
模拟卷Leetcode【普通】093. 复原 IP 地址
吴恩达老师机器学习课程笔记 01 引言
SDN topology discovery principle
Implementation of DDP cluster distributed training under pytoch multi GPU conditions (brief introduction - from scratch)
王树尧老师运筹学课程笔记 10 线性规划与单纯形法(关于检测数与退化的讨论)
【论文阅读 | 冷冻电镜】RELION 4.0 中新的 subtomogram averaging 方法解读