Advertisement

【BEV感知算法概述——下一代自动驾驶感知算法】

阅读量:

BEV感知算法总结
Bird’s-Eye-View(BEV)是一种基于俯视图的空间感知技术,在自动驾驶中具有广泛的应用前景。与传统的基于2D图像的感知方式相比,BEV视角能够有效减少遮挡问题,并通过融合时序信息提高对被遮挡物体的检测能力。
数据集
Kitti-360:包含丰富的多传感器数据和注释信息,采用鱼眼相机提供广视图视角。
nuScenes:提供高质量的6个相机、1个激光雷达和5个毫米波雷达等多传感器组合的数据集。
分类方法
BEV感知算法主要分为三种类型:
基于视觉(BEV Camera):仅依赖视觉输入进行目标检测和分割。
基于LiDAR(BEV LiDAR):利用点云数据进行感知。
融合算法(BEV Fusion):结合多模态传感器数据进行特征融合与任务分解。
优势与挑战
优势:

  • 提供更广阔的视野。
  • 可并行完成多项感知任务。
  • 降低LiDAR设备的成本需求。
    挑战:
  • 现阶段在3D检测任务上仍与点云方案存在差距。
  • 大规模数据量与计算资源需求较高。
    未来研究需解决误差传递、冗余计算及时序信息利用等问题,以进一步提升 BEV 感知算法在自动驾驶中的应用效果。

文章目录

  • BEV感知算法的核心内容
  • 基于深度学习的BEV感知数据集构建方法
  • BEV感知算法的工作原理及实现细节
  • 该算法在实际应用中的局限性与改进空间
  • 总结:综上所述

BEV感知算法概念

Bird’s-Eye-View,鸟瞰图(俯视图)。BEV感知算法存在许多的优势。

首先,在贝叶斯估计视角(BEV)中存在较小的遮挡问题优点,在受视觉透视效应影响下,在二维图像中物体常常会受到其他物体的遮挡,在这种情况下传统的基于二维(2D)的空间感知方法仅能识别可见的目标区域,并且对于被遮挡的部分区域(即深度较大的区域),算法将难以有效识别。

在BEV空间中,时序数据的整合较为便捷。通过预设的知识体系进行推测,在被遮挡的区域生成推测图像。“脑补”这一过程带有一定的推测性质,在此过程中推断被遮蔽区域是否存在物体。尽管这种推断过程带有一定的推测性质,在此过程中生成的图像对于后续系统的操作仍具有实际意义。

此外

BEV感知算法数据集介绍

2.1 kitti-360数据集

该数据集kitti-360整合了丰富的多感官信息源并实现了系统性的标注方案。在对德国卡尔斯鲁厄市周边区域进行系统性采集后发现,在约74公里的驾驶范围内获取了大量的图像样本以及大量的激光扫描数据。其中覆盖了超过 thirty-two thousand images and ten thousand laser scans.为了实现对复杂场景中物体特征的有效描述与分类,我们开发了一套基于粗糙边界基元的知识表示框架,通过该框架能够对静态与动态场景中的三维物体特征进行精确建模与标注.随后将这一完整的三维场景知识映射到二维图像空间中,从而为后续的研究工作提供了高质量的数据支持.

为了实现数据采集的目的,旅行车两侧配备了两个180° fish eye摄像头,并前方安装了一个90度的透视立体摄像头(基线长度为60厘米)。此外,在车顶上安装了两台先进的激光扫描设备:一台是HDL-64E型LiDAR扫描仪(Velodyne品牌),另一台是SICK LMS 200型激光雷达。这两台设备采用了伸缩式布置方式。其基本配置与KITTI系统相似,在此基础上增加了两组外置 fish eye摄像头和一套伸缩式激光扫描装置(基于LIDAR技术),从而实现了完美的环视效果(360度视场)。相比之下,KITTI系统仅提供传统的透视成像和单片LIDAR扫描功能,并且垂直成像范围仅为26.8度。此外,该系统还配备了融合了惯性测量单元和全球定位系统的导航套件。传感器布局图见图中所示。

在这里插入图片描述

图1 Kitti-360数据集采集车

2.2 nuScenes数据集

nuScenes是首个为自动驾驶汽车提供完整传感器数据集合的大型公开数据集。该集合具体包括6组摄像头阵列、1台激光雷达装置、5台毫米波雷达设备以及配套的GPS和IMU系统。相较于Kitti数据集而言,在对象标注数量上提升了约7倍。采集车的传感器布置如图所示。

图片

图2 nuScenes数据集采集车模型

BEV感知算法分类

基于输入数据,本研究将对贝视(BEV)感知技术进行系统性分析,并将其划分为三大核心方向:即贝视摄像头(BEV Camera)、贝视激光雷达(BeveliDAR)以及贝视融合模块(BeveliFusion)。该图表概述了不同感知技术之间的关系及其相互作用模式。具体而言:

  1. 贝视摄像头(BEV Camera)领域专注于仅依赖视觉或其他以视觉为核心的算法,并通过多摄像头实现三维目标识别和分割;
  2. 贝视激光雷达(BeveliDAR)则集中于利用点云数据作为输入完成检测与分割任务;
  3. 贝视融合模块(BeveliFusion)则聚焦于整合来自多种传感器的数据源(如摄像头、激光雷达、全球导航卫星系统定位器(GNSS)、里程计、高清地图及汽车网络通信总线(CAN)),以实现更加全面的环境感知能力。
在这里插入图片描述

如图所示,在自主驾驶技术体系中,基本感知算法被划分为三个层级:基础感知、高级感知与融合感知。其中核心地位由贝维(BEV)感知技术所占据。该技术体系根据不同应用场景的需求,在传感器输入层、核心功能以及产品应用场景之间构建多维度的数据处理网络。具体而言,在视觉型贝维(M₂{BEV})方向上,则发展出一系列先进的算法框架:如M₂{BEV}自身及改进型架构(M₂{BEV}-based),还有改进版的自适应多头注意力机制网络(M₂{BEV}-based)。此外,在融合型贝维框架下,则提出了创新性的联合特征提取方法(Fusion-based),并在此基础上构建了端到端的目标识别与轨迹预测系统(Fusion-based)。这些创新性研究不仅推动了贝维感知技术的发展方向,并且在提升系统性能方面取得了显著成效

在该领域的核心作品中,具有里程碑意义的是BEVFormer。该系统采用基于环视相机捕获的画面信息进行处理,并利用深度学习方法实现了特征从图像坐标系向BEV坐标系的有效转化。从而成功应用于3D目标检测与地图分割任务,并在该领域的性能评估中实现了最佳水平。

3.1 BEVFormer 的 Pipeline:

1)Backbone + Neck (ResNet-101-DCN + FPN)提取环视图像的多尺度特征;

本研究构建的Encoder模块(包含Temporal Self-Attention和Spatial Cross-Attention两个模块)实现了对环视图像特征与BEV特征的建模。

3)类似 Deformable DETR 的 Decoder 模块完成 3D 目标检测的分类和定位任务;

  1. 正负样本的定义方法基于该算法;其中目标函数由Focal Loss与L1 Loss组合而成,并使其达到最小值。

5)损失的计算(Focal Loss 分类损失 + L1 Loss 回归损失);

6)反向传播,更新网络模型参数;

图片

图4 BEVFormer框架图

基于BEV LiDAR和BEV Camera算法的融合需求,在构建高效的点云与图像特征交互模型时通常会设计一个专门的fusion模块来完成这一整合过程。在该领域中,以BEV Fusion为代表的研究工作取得了显著进展。

3.2 BEVFusion的 Pipeline:

1)给定不同的感知输入,首先应用特定于模态的编码器来提取其特征;

该方案旨在将多模态特征编码为一个标准化的BEV表示,并确保该BEV表示能够有效保持几何和语义信息。

针对视图转换效率问题, 可以通过预处理计算与周期性优化策略来提升BEV池化过程的效果.

接着,在全局BEV特征图中整合了基于卷积基预处理模块的特征提取过程。

5)最后,添加一些特定任务头支持不同的3D场景理解工作。

图片

图5 BEV Fusion框架图

BEV感知算法的优劣

目前业界基于纯视觉的感知与预测算法研究通常主要局限于上述流程中的单个子问题的image-based方案。这些方法主要涉及3D目标检测、语义地图识别或物体运动预测等具体应用领域。它们通常依赖于前向整合或后向整合的方式对不同网络产生的感知结果进行融合。然而这些方法在构建整体系统时必须采用线性结构堆叠多个子模块尽管这些方法能够在一定程度上实现问题拆解并便于独立开展学术研究然而这种线性架构存在几个关键性的不足:

上游模块中的模型误差会被依次传递到后续环节;然而,在子问题进行独立研究时,通常将理论真值作为输入;这使得累积误差对后续任务的表现产生显著影响

不同子模块中存在重叠的特征提取和维度转换计算流程,在实现资源共享方面存在不足,并且串行架构无法实现这些冗余计算的共享。这不仅降低了系统运行效率的整体水平,并且影响了系统的整体效能。

3)未能充分挖掘时间序列数据的价值。从另一个角度来看,在计算机视觉领域中存在两种主要的数据类型:空间数据和时间序列数据。从另一个角度来看,在当前帧中对被遮挡物体进行精确检测的同时,在缺乏时间序列数据支持的情况下,在仅依赖视觉特征提取的方法下难以准确估计目标运动的速度和加速度等关键参数。

相较于image-view方案而言,BEV方案利用多摄像头或雷达设备将视觉数据转换至鸟瞰视角以便于相关感知任务的执行。此方案不仅显著扩大了自动驾驶系统的感知范围,并且能够同时处理多个感知任务。该算法旨在将信息整合进BEV空间中从而有助于研究从二维到三维空间的信息转换机制。

与此同时,在3D检测任务中基于贝维(BEV)感知算法目前与现有的点云方案相比还存在一定的差距。深入研究基于视觉的贝维感知算法有助于降低运行成本。一个LiDAR设备的价格通常是视觉设备的10倍左右因此贝维视觉技术被视为未来的发展方向之一但这也带来了庞大的数据处理需求和计算资源的压力

小结

总体而言,在当前的研究中,主要依赖于单一视网膜采集信息的感知与预测算法主要专注于解决单一子问题,并通过整合A/B级网络结果来形成一个完整的体系。然而,在这种线性架构下存在明显的局限性:传递误差会导致后续环节出现偏差;A/B级冗余计算可能导致资源浪费;而A/B级时序信息利用不足则无法充分利用时间序列数据的优势。

相较于传统的方案,“BEV方案”通过将视觉数据转换为鸟瞰视角下的图像形式,在自动驾驶感知系统中显著扩大了车辆周围环境的可视范围,并能够同时完成多个感知任务。
此外,“贝叶斯估计法(BEV)感知算法”整合了多源感知数据至贝叶斯估计空间中,并有助于分析和构建从二维到三维世界的映射关系。

尽管当前的BEV感知算法在具体应用领域中与点云方案相比仍存在局限性。其具有降低开发成本的优势却带来了巨大的数据量和计算资源需求。未来的研究工作应着重解决这些问题从而提升BEV感知算法在自动驾驶中的应用效果。

全部评论 (0)

还没有任何评论哟~