BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection
BEVDepth: Obtaining Accurate Depth Information in Multi-view 3D Object Detection
-
- 相关论文
- 摘要
- 简介
AAAI2023 - BEVDepth: Development of Accurate Depths in Multi-View 3D Object Detection
相关论文
DETR3D:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
摘要
在本研究中,研究者开发了一种新型可靠的3D物体检测器BEVDepth,该系统主要应用于基于相机鸟瞰图(BEV)的3D物体检测任务。该系统的研究基础是其对深度感知的重要性这一关键洞察,然而目前基于相机的3D检测方法仍存在显著缺陷。针对这一问题,BEVDepth通过引入显式的深度监督模块实现了问题的有效解决。进一步地,该系统还增加了相机感知深度估计模块以增强其预测能力。此外,研究者开发了一种创新性的深度细化模块以应对特征反投影不精确所带来的负面影响。该系统结合了自定义高效的体素池化方法和多帧融合机制,在具有挑战性的nuScenes测试集上取得了60.9%的新高NDS分数,同时保持了较高的效率和性能优势
简介
LiDAR 和摄像头是当前自主系统用于检测 3D 物体和感知环境的两个主要传感器。 虽然基于 LiDAR 的方法已经证明了它们能够提供值得信赖的 3D 检测结果,但基于多视图相机的方法最近因其成本较低而受到越来越多的关注。
LSS 中很好地解决了使用多视角相机进行 3D 感知的可行性。 他们首先使用估计的深度将多视图特征“提升”到 3D 截锥体,然后将截锥体“splat”到参考平面上,通常是鸟瞰图 (BEV) 中的平面。 BEV 表示非常重要,因为它不仅支持多输入摄像头系统的端到端训练方案,而且还为 BEV 分割、对象检测等各种下游任务提供了统一的空间和运动规划。 然而,尽管基于 LSS 的感知算法取得了成功,但几乎没有研究此管道中的学习深度。 我们问——这些检测器中学习深度的质量是否真的满足精确 3D 对象检测的要求? 我们首先尝试通过可视化基于 Lift-splat 的检测器中的估计深度来定性地回答这个问题。 尽管检测器在 nuScenes基准测试中达到了 30 mAP,但它的深度出奇地差。只有少数特征区域预测合理的深度并有助于后续任务,而大多数其他区域则没有。 基于这一观察,我们指出现有 Lift-splat 中的深度学习机制带来了三个不足:
• Inaccurate Depth。由于深度预测模块间接受到最终检测损失的监督,绝对深度质量远不能令人满意;
• Depth Module Over-fitting。大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。 这让我们怀疑深度模块的泛化能力。
• Imprecise BEV Semantics。Lift-splat 中学习的深度将图像特征取消投影到 3D 平截头体特征中,这些特征将进一步汇集到 BEV 特征中。 像 Lift-splat 那样深度较差的情况下,只有部分特征未投影到正确的 BEV 位置,导致 BEV 语义不精确。

此外,我们发现了通过将Lift-splat中学习的深度转换为基于地面实况的点云数据生成方法来显著提升检测效果的可能性。结果显示,在这一方法中提取的mAP和NDS指标均提升了约20%,而mATE值则从原来的0.768降至0.393。这一现象明确显示,在高性能相机的三维检测中加强深度感知至关重要。

在此研究中, 我们提出了新型多视图三维检测器 BEVDepth, 它通过基于点云深度监督的方式实现了对物体三维信息的有效捕捉. 我们的团队首次尝试系统性探讨了深度质量对整体系统性能的影响. 此外, 我们首次尝试将相机内参与外参编码到深度学习模块中, 并验证了该方法在不同相机配置下的鲁棒性. 最后, 我们进一步引入了深度细化模块, 以此提升了模型对细节特征的学习能力. 为了全面评估 BEVDepth 的性能, 我们采用了nuScenes数据集作为测试平台. 在经过我们开发的高效体素池与多帧融合技术优化后, BEVDepth 在该数据集上的评估结果达到了60.9% NDS, 较之前方法提升了12%, 并且依然保持了较高的计算效率.
