自动驾驶之BEV概述
1、为什么需要BEV?
自动驾驶系统依赖于物体在三维空间中的位置信息;传统的目标检测方法通常会在二维图像中定位物体后通过内参校正将点云转换至三维空间。因此,在实际应用中获取物体真实的三维坐标具有重要意义。
在自动驾驶领域中,通常需要采用多摄像头协同工作的方式以实现环境感知;然而数据融合仍面临挑战。
为了有效解决二维到三维坐标转换的问题,并使后续处理更加便捷,在贝叶斯估计视角下直接进行三维位置预测能够显著提升效率和简化流程。
2、什么是BEV的核心?
我们知道3D空间投影2D图象是一对一的,而2D图象投影3D空间则是一对多的射线上。所以如何把多个图象的2D特征表达到对应3D的BEV空间特征,进行视图转换 ,则是BEV的核心工作。
当前主要有代表性的两种方法:
1、基于深度分布估计的:代表方法为BEVDet
2、基于交叉注意力的:代表方法为BEVFormer
基于BEV的方法通常采用了时空融合机制、多任务学习框架以及多模态监督机制等技术手段,并因此衍生出一系列具有创新性的BEV变体。
3、BEV特点
输入:来自不同角度相机的多张图像,覆盖360°视野范围。
输出:BEV视图下的各种感知结果,比如物体,道路,车道线,语义栅格等。
算法:该算法通过将图像空间转换为鸟瞰图(BEV)空间来实现对物体分布的表示过程,并涵盖密集点云和稀疏点云两种处理模式。其中一些方法主要专注于特定的任务场景进行优化,在完成目标检测后直接输出对应场景下稀疏BEV视角下的感知信息,并提供相应的预测结果参数如DETR3D模型及其变体PETR等
对于BEV感知来说,在当前的技术背景下,nuScenes被视为一个常用的数据库。该平台提供了丰富的测试场景,并且支持多种功能模块的开发与验证。具体而言,在3D目标检测领域中,则主要通过两个关键指标来评估模型的表现能力。
mAP 常被用作评估目标检测性能的标准,在该指标下通过对Precision-Recall曲线进行采样来计算每个类别对应的平均精度值。在实际应用中需要将算法预测的对象 bounding boxes与标注的真实对象 bounding boxes进行匹配处理,在这一过程中需要特别注意的是,在nuScenes数据集上采用了基于BEV视图下的物体中心点距离作为匹配依据而非传统的基于交并比(IoU)的方法。这种方法特别适合提升小尺寸物体的匹配准确率
NDS(nuScenes Detection Score)作为一种评估指标,在基于mAP的基础上进一步扩展了对物体检测精度的度量维度。这些关键指标具体涵盖了物体框的位置信息、尺寸、方向、运动特性以及其他特征属性 ,相较于仅依赖mAP这一单一维度来进行评估的标准而言,在3D目标检测算法性能分析上提供了更为全面和细致的角度。通过引入这些多维度的关键评估标准对比,则能够更加精准地衡量不同算法的表现差异
关于BEV的历史发展及其不同类型的先进技术介绍,请您参阅这篇综述文章:BEV感知综述
