当前位置:网站首页>Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 论文笔记
Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 论文笔记
2022-08-03 22:11:00 【byzy】
原文链接:https://arxiv.org/abs/2008.05711
本文的关键是将图像特征转化为BEV特征。
虽然本文仅进行了BEV物体分割、地图分割和运动规划任务的实验,但理论上应该也适用于其余可基于BEV表达的任务,如目标检测。
1 引言
将单目检测扩展到多视图图像检测的方法可以是分别检测各视图物体后使用相机内外参旋转平移到自车坐标系。特点:
(1)平移不变性:物体像素坐标移位导致输出结果相同移位。卷积网络大致具有这一属性。
(2)排列不变性:最终结果与各视图的排列顺序无关。
(3)自我坐标系的平移/旋转不变性:若图像内容不变,则无论相机相对于自车姿态是什么,图像内的物体均会被检测到。即自车坐标系平移/旋转,输出结果相应平移/旋转。
但缺点是无法利用跨图像信息。
本文提出Lift-Splat网络,保留了上述3个特点,且是端到端可微的方法。首先通过生成棱台形状的上下文特征点云,将图像“提升(lift)”到3D,然后将这些棱台“splat(可理解为投影)”到参考平面,以便于进行运动规划的下游任务。此外,还提出“shoot(也可理解为投影)”提案轨迹到参考平面的方法来进行可解释的端到端运动规划。实验表明本文方法能够学习到从可能的输入分布中融合信息的有效机制。
3 方法
3.1 Lift:潜在的深度分布
本文方法的第一阶段独立地处理每个相机图像。该阶段的目的是将2D图像提升到所有视图共享的3D空间。
由于深度信息是转换过程中必要的,而图像存在深度模糊性,故本文方法为每个像素在所有可能的深度处都生成表达。将深度空间离散化为
段,则可生成
的点云(对应一个棱台状空间)。
具体而言,网络对每个像素
预测一个上下文向量
(即常规的卷积特征)和深度分布
。则点云
处的上下文特征为
,如下图所示。

若网络估计
为独热向量,则该方法与伪激光雷达方法相同;若网络估计深度均匀分布,则该方法与OFT(见此文的4.3.1节第一个方法)相同。因此本文方法可以灵活地在两者范围内选择。
3.2 Splat:柱体池化
使用PointPillars方法处理点云,即将每个点分配到其最近的柱体,然后使用求和池化得到
的BEV特征图,再使用2D CNN处理即可。
Lift-Splat框架如下图所示。

此外,在处理每个柱体时,本文未使用填充操作,而是使用了一个累加和小技巧来加速求和池化,且该操作有解析的梯度,从而加速训练。
3.3 Shoot:运动规划
测试阶段若使用推断的代价图进行规划,可以通过将不同轨迹投影到BEV平面,评估代价后选择代价最小的轨迹。
本文将“规划”视为预测给定传感器观测
下自车
个模板轨迹
的分布,即
,定义为

其中
是给定观测
时预测的代价图在
处的值,因此可以通过优化专家轨迹的对数概率来进行端到端训练。该定义可以使得模型学习到可解释的空间代价函数。
对于给定真实轨迹,寻找
中最近邻模板轨迹,然后使用交叉熵损失训练。
实际应用中,模板轨迹集
是通过数据集中专家轨迹的
均值聚类得到的。
5 实验与结果
5.3 鲁棒性
由于BEV CNN能学习融合不同相机信息的方法,可以使其对简单噪声模型(如外参误差或摄像机损坏)具有鲁棒性。
例如训练时随机丢弃部分摄像机图像,在测试时面对这一问题的性能会更优。实验表明,若在训练时随机丢弃一张图像,则不丢弃图像测试时,相应的性能会达到最优。这可能是由于丢弃图像使得模型能学习到不同相机之间的相关性,类似于dropout的效果。
此外如果在训练时使用含噪声的外参,在测试时外参噪声较大的情况下会有更好的性能,且性能对测试时外参噪声不敏感;但在测试时外参噪声较少时,使用不含噪声的外参训练的模型性能最优。
此外,本文还比较了各个视图的“重要性”,该重要性与丢弃某视图带来的性能下降程度相关。实验表明视野范围更广的相机丢失时带来的性能下降最大。
5.4 泛化性
若训练时仅使用固定的一部分相机,则测试时使用额外相机能带来性能提升。
此外,如果在nuScenes上训练,在Lyft上测试(二者的相机完全不同),与其余模型相比,本文的模型能够达到最优性能。
5.6 运动规划
通过训练Lift-Splat模型的输出为代价函数,可以评估运动规划的性能。但相比基于激光雷达的PointPillars而言还是有较大的性能差距。
边栏推荐
- Internet user account information management regulations come into effect today: must crack down on account trading and gray products
- Optimize the query (work in progress)
- CAS: 1192802-98-4 _uv cracking of biotin - PEG2 - azide
- for循环练习题
- Codeup brushing notes - simple simulation
- On the Qixi Festival of 2022, I will offer 7 exquisite confession codes, and at the same time teach you to quickly change the source code for your own use
- Gains double award | know micro easily won the "2021 China digital twin solution suppliers in excellence" "made in China's smart excellent recommended products" double award!
- 2022年全国职业院校技能大赛网络安全 B模块 B-1任务一:主机发现与信息收集 国赛原题
- CAS:153162-70-0_N-BOC-6-生物素酰氨基己胺
- Security Fundamentals 8 --- XSS
猜你喜欢
![[N1CTF 2018] eating_cms](/img/09/3599d889d9007eb45c6eab3043f0c4.png)
[N1CTF 2018] eating_cms

CAS:1797415-74-7_TAMRA-Azide-PEG-Biotin

CAS:1620523-64-9_Azide-SS-biotin_biotin-disulfide-azide

超级实用网站+公众号合集

2022-08-02 mysql/stonedb慢SQL-Q18-内存使用暴涨分析

Pay from 0 to 1

FVCOM三维水动力、水交换、溢油物质扩散及输运数值模拟丨FVCOM模型流域、海洋水环境数值模拟方法

Adobe是什么?

PowerMockup 4.3.4::::Crack
Causes of Mysql Disk Holes and Several Ways to Rebuild Tables
随机推荐
1 秒完成授权,Authing 全新上线一键登录功能
382. Linked List Random Node
Unification of east-west and north-south communications
关于GPIO你真的懂了吗?这篇文章都给你整理好了
Data_web(九)mongodb增量同步到mongodb
2022年全国职业院校技能大赛网络安全 B模块 任务十windows操作系统渗透测试 国赛原题
Security Fundamentals 8 --- XSS
超级实用网站+公众号合集
CAS:122567-66-2_DSPE-生物素_DSPE-Biotin
全球观之地理部分
2022-08-03 Oracle executes slow SQL-Q17 comparison
How to deal with commas in the content of the CSV file of the system operation and maintenance series
测试2年6.5K,每天“911”,我的心酸经历只有我自己知道···
目标检测技术研究现状及发展趋势
东西向和南北向通信的统一
385. Mini Parser
2022-08-02 mysql/stonedb慢SQL-Q18-内存使用暴涨分析
E-commerce data warehouse ODS layer-----log data loading
电商数仓ODS层-----日志数据装载
488. Zuma Game