Advertisement

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation文献阅读

阅读量:

多传感器融合

最近的方法为将相机特征与激光雷达点云进行融合。

然而,相机向激光雷达的映射会导致相机特征语义密度的降低,从而影响这类方法的表现,尤其是在需要依赖语义导向的任务中(例如3D场景分割)。

该方法通过整合多模态特征至统一的鸟瞰视图(BEV)表示空间中,并成功维持了该空间中的空间结构和语义密度。该系统可适用于多种3D感知任务,并通过引入一种预计算优化机制及区间约简技术,在减少计算开销的同时显著提升了池化操作的效率。该方法实现显著加速(约40倍)。

图1: BEVFusion整合摄像头与LiDAR功能于共享BEV空间中而非将一种模式对应到另一种模式上成功保持了相机捕捉物体语义信息的能力以及激光雷达精确描绘物体形状的能力

相关研究

1. LiDAR-Based 3D Perception:

研究者开发了一种基于单阶段的三维物体检测技术;这种技术能够有效提取平面化的点云特征,并在BEV空间实现精准探测;此外,在这项工作中;他们进一步研究了无需锚定的单阶段三维物证探测方案以及双阶段物证探测架构;这些探索为其多任务融合框架的设计与优化 furnishes 重要参考。

2. Camera-Based 3D Perception:

FCOS3D增广了图像检测器的能力,并引入了三维回归分支以增强其感知能力。该方法为基于卷积体 fused 表示(BEVFusion)在相机特征的应用上提供了方向性指导。通过将相机捕捉到的特征数据从透视视角转换到鸟瞰视角并实现了多模态特征融合,在统一空间中构建更加完整的表征模型以提升感知效果。

3. Multi-Sensor Fusion:

现有的多传感器融合技术可分为两种类型:一种是基于提议级的方法(proposal-based),另一种则是基于点级的方法(point-based)。早期的MV3D技术通过生成三维物体建议(objects' proposals),并将其投射至图像中来提取区域特征(RoI features)。现代研究则在三维空间中定义物体查询(object queries),并将图像特征整合到这些建议之中。所有的基于建议的方法都围绕对象中心展开,并且也遵循了几何中心的原则。

BEVFusion所用方法

模态特定编码器:通过将不同的传感器输入(例如多视角摄像头和LiDAR)分别应用到模态特定的编码器中以提取各自特有的特征。从而使得不同传感器获取的信息能够被高效地表示和处理。

基于统一视角的整体视图展示:将多模态特征转换为统一BEV表示后,在处理目标检测与图像分割等任务时能够实现信息在同一空间域内的高效整合。

3. 提升BEV池化的效率:在图像处理阶段中作为效率瓶颈环节的过程是BEV池化操作。其中预处理阶段包括两个主要步骤:首先对每个采样点进行三维坐标与对应BEV网格索引的编码;其次按照预先确定的网格顺序重新排列采样点序列以减少数据读取时间。而进一步优化阶段则利用对称变换将各区域特征进行融合,在GPU并行计算的支持下显著提升了数据处理速度

如图2所示,在统一的BEV空间中完成传感器数据融合是Camera-to-BEV变换的核心环节。现有方案的效率较低,在处理单一场景时所需时间长达25秒。本研究提出了一种高效的方法(标记为b),通过结合间隔缩减技术和快速网格关联策略,并利用预计算技术优化了图像转换过程。该方法显著提升了图像转换速度(标记为c,d),具体提升比例达40倍。

4. 卷积基础的BEV编码器:通过卷积基础的BEV编码器作用于统一的BEV特征来缓解不同特征之间的局部错位问题。这一过程有助于更有效地整合来自多传感器的信息,并且这一操作仍具有进一步优化的可能性。

在统一的基础贝叶斯估计(BEV)特征上引入了一系列专门设计的任务分支以支持多样化的三维目标检测与理解。这些分支首先利用类别特异性的中心位置编码模块识别所有目标的核心位置接着通过用于预测尺寸信息的学习机制估计目标的空间尺度随后结合计算旋转角度的方法实现对物体姿态的有效刻画最后采用运动速度预测模块估算物体运动轨迹的关键参数

BEVFusion实验:

三维物体检测领域中,在nuScenes与Waymo等基准测试中取得突破性进展的是BEVFusion系统。该系统于nuScenes检测基准上实现了最佳的检测效果,并且能够在台式GPU上实现接近实时的速度表现。相较于PointPainting与MVP系统而言,在测试集上的运行效率显著提升的是BEVFusion系统:其运算效率减少了1.5倍,并且平均精度均值提升了3.8%。

BEV地图分割:BEVFusion在多模态融合方面的性能优越性显著体现在多个关键指标上。具体而言,在mIoU(Mean Intersection over Union)这一评估指标上展现出了卓越的优势,在与单一相机模型相比时实现了6%以上的绝对提升,在与单一LiDAR感知器相比时则获得了超过13.6%的进步。从计算资源利用效率来看,在保证性能的同时实现了显著的成本降低目标:相比于传统方法,在计算成本方面降低了约40%,而在实际运行速度方面则提升了约25%-40%的比例。

不仅如此,在引入了 ** BEVFusion** 后,在不同光照条件下的性能差异得到了大幅缩小。无论是针对小尺寸还是大型物体的LiDAR探测器,在应用这一方法后均实现了持续性的性能提升。研究结果表明,在所有稀疏性水平下 BEVFusion 性能均超越了传统方法 MVP,并将计算开销缩减至原来的1.6倍。值得注意的是,在统一的BEV感知框架内融合多源传感器数据时,并不单纯依赖于强大的激光雷达这一单一探测手段

表1显示了BEVFusion在多变的光照与天气条件下展现出良好的鲁棒性,在单模态模型中显著提升了其性能表现,在雨天时(提升幅度为10.7%)以及夜间时(提升幅度为12.8%)的表现尤为突出。

图3:针对不同密度的激光雷达阵列、不同尺寸的物体以及不同距离的场景,在复杂环境下(例如稀疏点云场景及小/远物体的情形),基于体素融合的方法(BEVFusion)显著超越当前最先进的一维和多维探测系统

全部评论 (0)

还没有任何评论哟~