自动驾驶技术的进化:从SLAM+DL到BEV+Transformer
作者 | 匡吉 编辑 | 深蓝AI
点击下方卡片 ,关注“自动驾驶之心 ”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【BEV感知】技术交流群
本文只做学术分享,如有侵权,联系删文
自动驾驶技术在20世纪初的主要概念和技术实验围绕着车辆自动化与遥控展开。伴随计算机技术和人工智能的进步,在20世纪80年代至90年代期间…取得了显著的进展……期间一些大学与研究机构着手研发测试样车……这些测试样车能够在特定条件下实现无人驾驶
进入21世纪以来,在这一技术发展中
当前自动驾驶技术处于逐步发展成熟的阶段。尽管面临技术、法律、伦理以及安全等多个方面的挑战,但其发展潜力不容忽视,并将在交通安全、效率以及环境保护等方面产生深远的影响。
本文,我们将梳理自动驾驶技术的进化与发展。

如图1展示了自动驾驶的核心架构,在其中最重要的环节是场景理解任务。这一环节在学术文献中常将其归类为感知模块。随着人工智能技术的快速发展,感知技术的性能也不断提升。为了辅助车辆控制系统并准确识别环境信息,在自动驾驶系统中采用了多种先进的感知技术:其中最为显著的就是同步定位与建图(SLAM)技术和鸟瞰视图(BEV)技术。这些先进技术使车辆能够在静态和动态环境中准确识别自身位置、探测周围的障碍物,并估算它们的方向和距离。

▲图1|经典的自动驾驶框架

■2.1 简介
以SLAM算法与深度学习技术的融合为核心的第一代自动驾驶感知技术框架中包含各类关键任务。其中一项关键任务是目标检测和语义分割,在相同坐标系统中执行。如图2所示,在视觉感知模块中仅有的例外是相机感知任务,在二维图像透视空间中运行。然而为了实现三维环境建模的需求传统的二维检测方法依赖于大量依赖于传感器融合的预设规则例如借助雷达或者激光雷达等有源传感器进行三维测量因此传统系统通常依赖于与车载摄像头图像相同的处理空间以完成位置信息更新进而支持后续预测与规划工作

▲图2 SLAM+DL的自动驾驶技术框架
■2.2问题和挑战
但是,上述基于SLAM+DL的第一代自动驾驶技术暴露出越来越多的问题:
整个自动驾驶系统的最核心部分是感知模块,在传感器种类和数量逐渐增加的情况下(尤其是多样化视角数据引入后),如何整合来自不同源的数据流,并在实时处理中为 downstream tasks提供所需的结果,则成为了这一技术难点的关键所在
2)感知阶段一般会消耗车辆计算资源的大头。系统在感知阶段需要整合来自不同视角摄像头的视觉数据,并融合毫米波雷达、激光雷达等多种传感器的数据。这对模型设计和工程实现提出了诸多难题。传统的方法通常为每个传感器单独构建一个神经网络结构,这种做法不仅无法充分发挥多传感器协同工作的潜力,而且计算开销较大且耗时较长。此外,在简单的共享架构下(如图3所示),各任务难以充分释放性能优势。

▲图3|一种多模态融合算法示意图

■3.1 BEV方案基本流程
·简介
BEV(鸟瞰视图)模型 基于多个摄像头甚至不同传感器,可以被视为解决上述SLAM+DL第一代自动驾驶技术问题的潜在技术方案,本文将BEV+Transformer结合技术成为自动驾驶感知2.0时代。如图4所示,BEV以鸟瞰图视角呈现车辆信息,是自动驾驶系统中跨摄像头和多模态融合的体现。其核心思想是将传统的2D图像感知转为3D感知。对于BEV感知来说,关键在于将2D图像作为输入并输出3D感知帧,而如何在多摄像头视角下高效优雅地获得最佳特征表示仍是一个难题。

▲图4|BEV视图
当前基于多视角相机的BEV3D物体检测感知任务逐渐引起关注。如图5所示,在BEV视图下整合不同视角的信息具有直观自然的特点,从而简化了后续规划与控制模块的工作流程。此外由于在2D视角下不会有遮挡现象及缩放问题因此显著提升了检测精度并简化了感知融合的过程进而实现了从纯视觉感知到多传感器融合方案的一体化设计有效降低了开发成本。

▲图5|纯视觉的端到端规划框架
· BEV技术方法
到目前为止,BEV研究主要基于深度学习技术框架。针对BEV特征信息如何进行组织的方式的不同分类下,主流研究方法可划分为各自对应的特征提取结构。
■3.2 自底向上 vs. 自顶向下
· 自底向上方法
自底向上法采用了从2D到3D的模式:
1)第一步是在二维视角中计算每个像素的深度信息,并通过相机内外参数将图像转换至BEV空间。
2)接着整合来自各个视角的图像数据以生成完整的BEV特征描述。
该方法在早期阶段的主要代表为LSS(即Lift、Splat、Shoot),如图6所示的部分中可以看到这一技术框架的具体实现方式。该框架设计了一个简洁且高效的处理流程:通过动态地将数据按需提升至合适的工作负载级别并进行处理,在完成所有必要的计算后将结果逐步降级至最低的工作负载级别以减少资源消耗。
1)将二维相机捕捉的图像投影到三维空间中;
2)随后通过俯视的方式将获取到的三维场景投影到二维平面上以生成BEV视图。

▲图6|Lift-Splat-Shoot架构
平面布局能够满足人们对于地图的直觉感受。尽管已经获取了三维场景数据,并非完整的三维信息;由于从鸟瞰图(BEV)的角度观察,则无法精确获取三维空间的高度信息。因此需要将其进行扁平化处理。自下而上的方法核心在于:
- 提升——在完成相机图像的空间分辨率采样后,在图像平面基础上精确计算特征点的空间深度分布,并形成包含图像特征信息的空间锥体(即视锥-点云);
- 拍打动作——基于摄像机自身的内外部参数信息,在贝 V 网格坐标系中将各摄像机对应的视锥-点云数据进行累加处理,并生成完整的贝 V 特征图;
- 拍摄过程——通过任务头对贝 V 特征图进行深度感知处理并输出感知结果。
LSS 和 BEVDepth等算法基于 LSS 框架进行了优化,是 BEV 算法的经典之作。
· 自顶向下方法
自顶向下法采用了从3D到2D的模式:
1)该方法的第一步是建立BEV空间中的特征表示;
2)接着利用多层次的Transformer网络对每个图像特征进行关联处理,并生成相应的BEV特征表示。
Transformer 是谷歌于2017年开发的一种基于注意力机制的神经网络模型,在计算领域有着革命性的影响。不同于传统的RNN和CNN,在于它能够通过注意力机制识别序列内部元素之间的联系和关联,并能适应输入的不同长度和结构。该算法最初在自然语言处理领域展现了卓越的应用前景,并广泛应用于计算机视觉领域,并取得了显著成果
该自顶向下的方式实现了 BEV 构建流程的逆向操作。基于 Transformer 的全局感知机制从多个视角图像的特征提取相关数据,并将其整合与更新至 BEV 特征图。特斯拉在其FSD Beta软件视觉感知模块内采用了一种自顶向下的策略,并于特斯拉AI Day上详细介绍了BEVFormer的技术架构。
该自顶向下的方式实现了 BEV 构建流程的逆向操作。基于 Transformer 的全局感知机制从多个视角图像的特征提取相关数据,并将其整合与更新至 BEV 特征图。特斯拉在其FSD Beta软件视觉感知模块内采用了一种自顶向下的策略,并于特斯拉AI Day上详细介绍了BEVFormer的技术架构。
■3.3 纯****视觉还是多传感器融合?
在自动驾驶领域中,BEV 已经发展成为一个规模宏大的算法家族,在其中涵盖多种不同的算法分支。其中一类主要以视觉感知为核心技术的是由特斯拉引领的视觉感知主导流派,在这一类别中核心的技术架构基于多台摄像头构建感知系统。而另一类则是融合类算法,则是将激光雷达、毫米波雷达等多种传感器数据进行深度整合的技术路线。从技术架构的角度来看,在当前阶段已有诸多自动驾驶公司采用了融合式的统一方案来处理多源数据信息;目前已有诸多自动驾驶公司采用了融合式的统一方案来处理多源数据信息;目前已有诸多自动驾驶公司采用了融合式的统一方案来处理多源数据信息;目前已有诸多自动驾驶公司采用了融合式的统一方案来处理多源数据信息;目前已有诸多自动驾驶公司采用了融合式的统一方案来处理多源数据信息
· BEV相机
由多角度图像序列构成的BEV相机,在实际应用中需将这些多角度数据转化为BEV特征进行感知。例如输出物体的三维检测结果或通过俯视图实现语义分割。相较于激光雷达而言,在场景理解方面具备更强的能力表现;然而其深度测量精度存在不足。同时,在模型设计方面,DNN模型需明确标注每张图片中的各类物体类别及其对应信息。如果遇到训练集中没有的物体类型或是模型性能未达预期的情况,则会导致系统性能下降甚至出现故障。
为了应对这一问题, 占据网格网络调整了感知策略, 舍弃了对分类的关注, 转而专注于道路是否被障碍物阻挡. 这种障碍物可以用三维积木来表示, 并被称为体素 (voxel). 这种方法更具准确性, 不论障碍物的具体形态如何.
特斯拉正经历着一种技术转型的过程——从BEV技术(鸟瞰图)向新技术——occupancy network过渡。这一过程涉及从二维空间扩展至三维空间。无论是在二维空间还是三维空间中,这些技术都旨在描述车辆周围区域的状态变化。在二维BEV中我们采用类似棋盘的方法将环境中的物体位置进行网格划分;而三维occupancy network则采用模块化的体素构建系统来完成同样的目标。
在本领域中,在贝叶斯估计方法(BEV)中使用深度学习模型(DNN),其主要作用是基于概率评估各区域的占据情况,并一般将其划分为两大类。
- 相对稳定或固定不变的物体能够通过以下区域:可通行区域(Driveable)、道路(Road)、车道(Lane)、建筑物(Building)、植被(Foliage/Vegetation)、停车区(Parking)以及未分类但属于静态物体的一种(SingleStationaryObject),这些类别之间存在包含关系。
- 另一类是动态或移动的对象包括:人行者(Pedestrian)、交通工具(Car/VEHICLE)、卡车(Truck/TOWERS?)以及锥形交通标志或安全桶(TrafficCones/SafetyTubs),这类对象通常会持续移动。
这种分类的主要目标是为自动驾驶系统提供后续驾驶规划和控制的基础支持。在贝氏视觉(BEV)感知阶段,算法通过计算每个物体在网格单元中的出现概率来评估其存在可能性,并利用Softmax函数将各单元格的概率值标准化。最终确定具有最高概率的物体类型及其对应单元格作为预测结果。

▲图7|BEVFormer流程
BEVFormer的详细流程如下:
1)基于基干与瓶颈模块(结合 ResNet-101-DCN 和 FPN)从环视图像中提取多尺度特征。
2)编码器模块(包含时间自注意力模块与空间交叉注意力模块)采用本文所述的方法将环视图像特征转化为 Bird's Eye View 特征。
3)类似于可变形 DETR 中的解码器模块,该系统负责完成三维物体检测的任务分类与位置估计。
4)通过匈牙利匹配算法筛选正负样本实例,并采用Focal Loss与L1 Loss组合作为总损失函数来优化网络参数。
5)在损失计算过程中分别采用Focal Loss进行分类损失计算以及L1 Loss进行回归损失计算;随后通过反向传播算法更新网络模型参数。
在算法创新方面
· BEV融合

▲图8|奔驰智能驾驶配备的传感器套件
BEV集成学派的核心任务是在自动驾驶领域整合多种传感器数据。如图8所示的框架中包含了摄像头、激光雷达、GNSS(全球导航卫星系统)、里程表、高精度地图(HD-Map)以及CAN总线等设备。通过这种集成机制,我们可以充分利用各类传感器的独特优势,在提升自动驾驶系统对外界环境感知与理解方面取得了显著成效。
除了摄像头之外的研究者们还研究着激光雷达的数据。相较于毫米波雷达而言,在数据质量上激光雷达表现更为出色因而导致其在主控用途方面逐渐被边缘化但仍然能在某些车辆中继续发挥停车辅助的作用然而在自动驾驶技术飞速发展的背景下新的算法可能为毫米波雷达重新赢得一席之地
激光雷达能够直接测量物体的距离,并且其精度超过视觉推测的场景深度。激光雷达一般会将测量结果转化为深度数据或点云这两种数据形式,在应用历史上已经延续了很久,并且已有的算法可以直接参考这些成熟技术以减少开发负担。此外,在夜间或恶劣天气条件下使用时依然能够保持正常的运行状态,在此环境下相机则可能面临较大的影响而无法准确感知周围的环境情况
本学派旨在将多种传感器数据进行高效整合,并通过这一过程实现对周围环境的全方位、高精度感知。这种精准识别与分析的能力进而提升驾驶员的安全感与系统的可靠性。此外,在自动驾驶领域占据核心地位的技术能够整合来自各 sensors 的数据信息,并通过这一机制让整个系统能够更加精准地识别和分析其周边环境。

■4.1 为什么是BEV感知?
首先指出, 自动驾驶主要涉及3D或BEV感知问题. 采用基于BEV视角的方法能够提供更为全面的场景信息, 这有助于车辆更好地感知周围环境并作出更加精准的决策. 在传统的二维视角下, 由于透视变形的影响, 物体可能会被遮挡或呈现失真比例, 而BEV视角则有效解决了这些问题. 自动驾驶技术的发展不仅依赖于多学科交叉技术的支持, 还需要通过引入先进的计算机视觉算法和机器学习模型来提升车辆对环境的理解能力. 此外, 在数据获取环节也需要不断探索和应用新型技术和方法来提高数据采集效率和质量.
与现有的自动驾驶领域主要依赖正视图或透视图进行目标检测、分割及运动跟踪等任务的方法相比,基于BEV(Bird's Eye View)的不同表示方式能够显著提升对被遮挡车辆的识别能力,并在开发预测系统以及规划控制模块等方面展现出独特优势。此外,它不仅能够精准地将二维图像特征转换为三维空间信息,并且能够灵活应用其提取出的BEV特征到多种探测装置中。
另一个关键因素是推动多源感知信息融合。在自动驾驶系统中,通常会集成摄像头、激光雷达和毫米波雷达等多种传感器设备。通过BEV视角处理方法,在同一平面坐标系下整合来自不同传感器的数据这一技术优势显著提升了数据处理效率与准确性。就现有技术而言,在多模态感知框架下实现单个视点检测向多个视点检测的有效拓展仍面临诸多挑战。
由于单视角检测器仅能处理单一摄像头所获取的图像数据,在多摄像头协同工作的场景中,则需要通过各自摄像头内部及外部参数间的转换关系才能实现多视角融合效果。然而,在这种情况下简单的后处理方法已经不适用因为这种转换过程存在单向性无法实现逆过程区分不同特征所处的不同坐标系原点这也就导致我们难以简便地利用端到端训练模型来提升自动感知系统的性能针对这些问题提出了解决方案即基于变换器原理发展出一种新的BEV感知技术
总之,对于摄像头的感知而言,转向 BEV 将大有裨益:
1)直接在 BEV 中执行摄像头感知可直接与雷达或激光雷达等其他模式的感知结果相结合,因为它们已在 BEV中表示和使用。BEV 空间中的感知结果也很容易被预测和规划等下游组件使用。
2)纯粹通过手工创建的规则将 2D 观察结果提升到 3D 是不可扩展的。BEV 表示法有助于向早期融合管道过渡,使融合过程完全由数据驱动。
3)在没有雷达或激光雷达的纯视觉系统中,通过BEV 执行感知任务几乎是强制的,因为在传感器融合中没有其他三维线索可用于执行这种视图转换。之所以选择从 BEV 的角度进行感知,是为了提高感知的准确性和稳定性,并为多模态融合和端到端优化创造条件,从而推动自动驾驶技术的发展。
■4.2 为什么是BEV+Transformer?
其原因在于基本原则的核心理念即智能驾驶应越来越趋近于像人一样驾驶这一目标。这种理念映射至感知模型自身中BEV展现出一种更为自然的表现形式得益于其全局注意力机制变形器特别适合完成视图转换任务。值得注意的是目标域中的每个位置访问源域中任何位置的距离始终保持一致从而克服了传统卷积神经网络CNN中卷积层所固有的感受野局限性同时视觉转换器相比传统CNN还具有两个显著的优势即更高的可解释性和更强的适应能力随着产学研进程不断推进BEV+Transformer技术正逐步实现了从普及到量产的伟大转变这在当前智能驾驶领域的商业变革背景下无疑是一个值得期待的重要进展

1. 数据收集与前期处理 在 birds-eye view 视图下实施的数据收集与前期处理工作量巨大。这对其感知性能及实际效果具有关键性作用。在这一过程中,需解决多摄像头图像融合、影像对齐以及成像畸变校正等技术难题。此外,变换器系统对于大规模的数据需求也提出了新的挑战,高效获取高质量的大规模数据方法仍是一个待重点研究的问题。
2. 在美学视角下来看待的话(即Transformer),其规模之大令人惊叹,在计算资源方面则面临着巨大的挑战

▲图9|模型优化性能对比图
3. 更加完善的多源感知融合: 当前阶段,在基于BEV(Bird's Eye View)视角的技术中主要依赖激光雷达与摄像头等传统传感设备进行数据采集与处理工作;然而目前技术仍有较大改进空间,在实际应用中还需要进一步整合更多的感知设备信息来源(如图10所示),包括毫米波雷达、GPS等多种设备的数据信息;通过更为完善的多源感知信号融合处理技术的应用能够显著提升数据精度和覆盖范围。

▲图10|更多的传感器数据融合
BEV在复杂环境下具有多重挑战性,在此背景下涉及天气变化、光照变化、目标遮挡以及对抗性攻击等因素的影响。未来研究应着重于提升算法的鲁棒性, 从而显著提升系统稳定性与可靠性

▲图11|复杂场景下的BEV感知
5. 应用场景更多: BEV 技术的应用场景涵盖范围广,不仅限于自动驾驶,还延伸至智能交通系统,物流配送以及城市规划等领域,如图12所示,其中机器人作为典型代表之一.自动驾驶与 BEV 的深度融合能够提供全方位的道路场景信息,有助于车辆更准确地感知周围的物体和环境,从而实现高效且安全的自动驾驶.采用 BEV 视角下的智能交通系统能够提供更具象且全面的道路状况信息,这对于提升城市交通运行效率和服务质量具有重要意义.物流配送与 BEV 的结合则能够实现更加精准的位置追踪与空间感知,从而提高物流效率和服务质量.展望未来,BEV 技术的应用领域将进一步拓展,特别是在农业自动化和矿业智能化等方面取得显著进展.

▲图12|BEV在机器人领域中的应用

基于当前行业发展趋势分析显示, BEV模式及其应用可能成为未来的主要发展方向. 这意味着从芯片层面出发, 传感器芯片、摄像头以及软件算法等均需尽快适应技术变革, 从而迅速实现相应的解决方案.
总结而言
参考:
[3]https://group.mercedes-benz.com/innovation/case/autonomous/drive-pilot-2.html
Shi, Yining, et al. “该研究提出了一种基于网格的交通场景感知方法用于自动驾驶领域并进行了全面综述.” arXiv预印本arXiv:2303.01212 (2023).
The research team of Liao, Bencheng, et al. developed Maptr as a structured approach to modeling and learning in the construction of high-dimensional vectorized maps online.
Singh, Apoorv. “Vision-Radar融合用于机器人贝叶斯检测:综述”. 2023 IEEE智能车辆会议(IV). IEEE, 2023.
① 全网独家视频课程
贝V感知技术

视频官网:www.zdjszx.com
② 国内首个自动驾驶学习社区
拥有超过2000名成员的互动平台
平台汇聚了来自多个行业的顶尖专家与研究者
除了专业的技术分享外
无论是关于自动驾驶的技术难题还是职业发展的问题平台都能成为您最佳的学习伙伴
扫描下方二维码立即加入我们的知识星球获取更多实用的技术资源库并与业内专家深入探讨学习机会期待您的加入!
期待您的参与和共同成长!

③【自动驾驶之心】技术交流群
自动驾驶之心是首个专注自动驾驶技术交流的专业社区平台,在目标检测算法研究与优化、语义分割技术探索、基于全景分割的空间感知技术开发、实例分割场景建模与应用、关键点检测算法优化以及智能车道线识别技术研究等多个前沿领域展开深入探讨与技术创新。为了方便加入该社区的朋友快速了解平台功能与使用方法,在此特别提醒:扫描二维码即可加入汽车人专业社群,并备注"学校/公司+兴趣方向+昵称"以便快速完成审核流程

**④【自动驾驶之心】平台矩阵,**欢迎联系我们!

