Advertisement

论文阅读 DOES END-TO-END AUTONOMOUS DRIVING REALLY NEED PERCEPTION TASKS?

阅读量:

端到端的强势来袭已持续而有力地向目标方向迈进

简单翻译:这一问题是否有必要在端到端框架中进行处理?

代码实现:https://github.com/PeidongLi/SSR

论文链接:https://arxiv.org/pdf/2409.18341

1. 摘要

端到端自动驾驶系统通常依赖于监督式感知任务来提取显式的场景信息(如目标物体和地图数据)。这种依赖关系带来了高昂的人工标注成本,并影响了其在实时环境中的部署灵活性和数据扩展能力。在本研究中,我们提出了一种创新的方法框架——Sparse Scene Representation(SSR)。该框架仅以16个导航引导的Token作为稀疏场景表示形式,并有效提取出端到端自动驾驶所需的关键信息。我们的方法成功去除了对子任务模型的依赖,并通过引入一种基于时序增强机制的方式实现了预测结果的有效优化。此外,在nuScenes数据集上测试后发现SSR的表现达到了当前最先进的规划性能水平。

  • L2误差较前次降低了约27.2%
  • 碰撞次数减少至约51.6%
  • 推理速度提升至原来的10.9倍
  • 训练时间缩短为原来的13倍
    该框架在实时自动驾驶系统中实现了显著进展,并成功为大规模部署提供了坚实的技术支撑。🚀

2. 介绍

在这里插入图片描述

近年来受到广泛关注的视觉信息驱动的端到端自动驾驶系统(E2EAD),其代表了经济高效且性能优越的特点。传统的自动驾驶体系一般由分离的感知模块和规划模块构成,在这一架构下感知模块多依赖神经网络(NN)进行数据处理而规划模块则常基于规则导向的数据流进行运算。这种分层设计可能导致信息传输中的损失进而影响整体效能表现。相比之下E2EAD通过端到端神经网络直接从图像输入预测轨迹从而减少了数据传递过程中的损耗并提升了整体性能水平然而现有的许多E2EAD方案仍面临诸多挑战其中最显著的问题是其依赖复杂的感知框架通常包括额外的人工智能规划子系统这类设计往往继承了传统目标检测地图构建以及占用预测等基础任务功能导致计算资源消耗巨大并且难以实现高效的实时部署由于这些系统的监督机制仍然倾向于独立的任务导向因此在实际应用中仍需大量标注数据以保证系统的扩展性和适应性这使得现有的方案在一定程度上难以满足实际需求

挑战:怎样在不依赖辅助感知 supervision 的情况下...
为了解决这一问题 我们提出了一种名为 SSR(Sparse Scene Representation)的新方法 该方法能够有效提取关键场景元素 并将计算资源聚焦于这些重要部分。具体而言 SSR 利用导航信息指导生成稀疏场景表示 然后基于时序信息进行自监督学习 从而实现了无需显式的感知 supervision 的目标。

核心思想:模仿人类驾驶员,在处理导航指令时聚焦于关键场景要素。
人类驾驶员在行驶过程中通常会根据指示信息选择性地关注重要场景要素。受此启发我们发现:通过从密集的BEV特征中提取最少数量的Token(即稀疏查询)即可实现高效的场景表示以满足自动驾驶需求。

该方法无需依赖精确的地图数据作为输入,并且必须依靠特定的导航指令(如'左转'、'右转'、'直行')来完成路径规划任务(Hu et al., 2023b;Jiang et al., 2023)。我们采用基于导航指令提取场景特征的技术,并将其与注意力机制进行对比研究。

对比传统方法:SSR 如何实现感知优化?

与之相比,SSR(图 2(b))主要依赖于导航指令引导下的关键感知要素提取过程,在去除冗余信息后实现了从根本上摆脱模块级级联架构的目标,并采用**基于导航引导的感知技术手段(Navigation-Guided Perception Technology)**来进行优化。

尽管部分现有研究(如Sun et al., 2024;Zhang et al., 2024)为了降低计算成本而尝试跳过BEV特征构建相关模块,但这些研究仍需依赖大量任务相关的查询信息以实现目标。相比之下,我们采用的16个Token方案主要依靠导航指令进行引导操作,在保证功能的同时显著降低了运算负担。

时序自监督学习:探索如何突破传统感知任务的束缚

实验结果:SSR 在 nuScenes 上取得了显著进展
在 nuScenes 数据集(Caesar et al., 2020)上, SSR 展示出了卓越的规划能力, 同时实现了极低的计算开销 (如图 1 所示):

  • 平均 L2 误差减少了 0.28 米(相对提升了约 27.2%)
  • 平均碰撞率减少了约 51.6%(
  • 相较 UniAD(Hu et al., 2023b)
  • 训练时间减少至 UniAD 的 1/13 的同时推理速度提升了约 10.9 倍

在没有进行任何数据标注的情况下,在其管理的大规模数据和实时应用方面表现出了卓越的能力,并且显著地提高了自动驾驶系统的适用性。

主要贡献

  • 基于人类驾驶启发提出了一种E2EAD框架,并通过基于导航指令的稀疏查询实现对关键场景元素的自动聚焦。
  • 引入BEV世界模型进行时序自监督学习后,在nuScenes数据集上实现了端到端自动驾驶任务中的最先进性能(SOTA),同时实现了端到端自动驾驶在计算效率上的突破。
  • SSR方法通过导航引导感知方式与时序自监督学习相结合,在保证无监督条件下达到了与现有有监督方法相同甚至更好的性能(SOTA),该方法成功降低了计算消耗,并在理论上证明了其优越性。
在这里插入图片描述

2 相关工作

2.1 基于视觉的端到端自动驾驶

端到端(E2E)自动驾驶的研究源于1988年的ALVINN(Pomerleau, 1988),该系统基于简单的神经网络输出转向指令。NVIDIA于同年开发出一种基于卷积神经网络(CNN)的E2E系统原型(Bojarski et al., 2016),省去了手动任务划分这一步骤。近年来,在BEV感知技术快速进步(Li et al., 2023b; Liao et al., 2023; Liu et al., 2023; Huang et al., 2024)以及现代架构如Transformer(Vaswani等, 7月发布)的支持下

该研究团队基于 ST-P3 方法(引用 Hu 等人, 2022b)对感知、预测以及规划模块进行了优化,并旨在提升时空特征提取能力的同时整合了深度估计与 BEV 分割等辅助功能模块。基于现有 BEV 感知技术构建了一个层次化的关联架构(引用 Hu 等人, 2023b)。针对复杂场景下的计算需求,在原有 UniAD 基础上提出了一个新的精简方案:通过矢量化场景表示降低了系统复杂度的同时减少冗余计算步骤(引用 Jiang 等人, 2019)。此外,在 VAD 方法的基础上提出了一种创新性设计:利用生成式模型来模拟车辆运动轨迹并结合优化算法实现了动态路径规划(引用 Zheng 等人, 与现有方法相比)。值得注意的是,在 PAR-A-DL 基础上进一步提升了系统性能:通过重新组织多模态数据处理流程使得各子系统能够实现并行运行从而显著降低了整体运算时间(引用 Weng 等人, 与现有方法相比)。

2.2 自动驾驶中的场景表示

大部分自动驾驶领域的研究工作(引用文献:Hu等, 20XXb; Hu等, 1999c; Jiang等, XXc; Zheng等, XXb)沿用来自感知任务所建立的场景表征方式。例如,在感知系统中采用密集BEV特征作为主要场景表征手段。在这些架构中,默认的任务(包括目标检测与地图构建)通过调用任务相关的查询机制从BEV特征中提取关键信息,并在人工标注数据的支持下进行监督学习。尽管这些方法能够有效提取丰富的场景细节信息,在某些特定情况下可能会导致额外的计算开销——尤其是在基于占用网格的空间分割方法(Sima等, XXc;Zheng等, XXa)领域中——这种额外的复杂性则严重制约了其实时应用的可能性。

近年来,在借鉴稀疏目标检测框架(Lin等人, 2022;Liu等人, 2023)的基础上发展起来的稀疏端到端自动驾驶系统(Sun等人, 2024;Zhang等人, 2024),通过直接结合任务查询与图像特征实现交互,在一定程度上试图完全避免生成BEV特征。然而,在减少BEV处理计算量的同时仍需依赖数百个任务查询这一前提下,并未真正实现端到端架构所宣称的理想状态——即简单且高效的操作模式。

该研究发展出了一种基于 视图潜在查询 的方法 来表示 每个 摄像头图像,在整体上仅通过单个 查询即可概括 整个 视图 ,但这种做法可能导致了 信息保真度 的下降从而影响性能表现. UAD 方法则尝试将 BEV 特征分割成扇区区域 并利用 开放集检测器 的标注数据来进行 监督学习;然而该方法并未有效降低任务中所需的 最小化 查询数量. 在本研究中 我们提出了一种名为 SSR的新方法 它通过自适应学习的方式实现 对场景的高效 表示 ,从而在优化性能的同时实现了更高的效率水平.

在这里插入图片描述

2.3 自动驾驶中的世界模型

世界模型因其生成能力在自动驾驶领域受到越来越多的关注,尤其是在近年来。世界模型的重要性在于可以生成丰富的训练数据,包括稀有的极端案例,早期研究 (Hu et al., 2022a; 2023a) 已经展示了这一点。近年来,世界模型被集成到端到端自动驾驶(E2EAD)框架中,以提升其性能 (Wang et al., 2023b; Zheng et al., 2024a; Min et al., 2024; Li et al., 2024a; Guo et al., 2024)。例如,DriveWM (Wang et al., 2023b) 采用扩散模型来预测多视角视频,并利用这些预测结果进行规划。OccWorld (Zheng et al., 2024a) 同时预测规划轨迹和占用地图,而 DriveWorld (Min et al., 2024) 使用占用世界模型进行预训练,但依赖于昂贵的人工标注。LAW (Li et al., 2024a) 提出了潜在世界模型(latent world model),以改善 E2EAD 训练。在本研究中,我们提出了一种适用于稀疏场景表示的 BEV 世界模型,该模型能够有效编码时序信息,从而提升 E2EAD 的性能。

3 方法

3.1 概述

问题定义:

在时间步 t 处,在基于周围 N 视角摄像头获取的图像 ItI_t 以及来自高层导航指令 cmd 的信息下,在视觉端到端自动驾驶模型(E2EAD)的作用下,在二维行为视图(BEV)空间中估计规划路径 T。该路径 T 是由 BEV 空间中的一个点集构成的集合体:T={ (xi,yi) | i=1,2,…,k }

BEV 特征构建:

如图3所示,在图3中展示了一个基于多视角摄像头的场景理解系统架构设计。系统主要包含两个关键模块:首先是多视角编码器ItI_t经由BEV(Bird's Eye View)编码器进行处理后产出BEV特征(Bev Feature)。在BEV编码器(如BEVFormer)中首先通过图像骨干网络对It进行提取并得到一系列图像特征:Ft=Fti=1N[F_ti]_{i=1}{N}然后通过交叉注意力机制实现时间空间信息的融合过程具体而言BEV查询Q将从前一帧的BEV特征Bt−1B_{t-1}中提取出时间信息并从当前帧的FE特征Ft中获取空间信息最终计算出当前时刻的BEv特征Bt=BTV(Q,Bt−1,Ft)其中交叉注意力机制被用来计算当前时刻的BEv特征这一过程体现了对场景感知能力的有效建模方式然而由于这种密集表征特性在实际应用中会导致计算效率下降为此我们提出了一种基于自适应空间注意力机制的新颖稀疏场景表征方法这种方法不仅能够维持高保真度的场景理解能力还能显著降低后续感知任务中的计算开销

我们提出了一种称为Scenes TokenLearner(STL)的模块。该模块能够从BEV特征中提取场景查询:其中St=[si]i=1Ns∈RNs×C表示场景查询向量St由Ns个维度为C的子向量组成;S_t = [s_i]_{i=1}^{N_s} \in \mathbb{R}^{N_s \times C}表示BEV特征矩阵S_t由Ns行C列的数据构成。为了更好地聚焦与导航意图相关的场景信息,我们采用Squeeze-and-Excitation(SE)层将导航指令cmd编码到密集BEV特征中,并生成导航感知BEV特征Btnavi:Btnavi=SE(Bt,cmd)。

随后,在贝叶斯TokenLearner模块TLBEVTL_{\text{BEV}}中输入该导航状态BtnaviB_t^{\text{navi}}(Ryoo et al., 2021),该模块会以自适应的方式集中关注最关键的信息;随后计算状态表示St=TLBEV(Btnavi)并得到S_t = TL_{\text{BEV}}(B_t^{\text{navi}})。

在每一个场景查询 sis_i的情境下, 我们使用 tokenizer 函数 MiM_i 将BtnaviB_t^{\text{navi}}映射至一个token向量, 其形式化定义如下所示: M_i:\mathbb{R}^{H\times W\times C}\rightarrow\mathbb{R}^{C}.

该 tokenizer 预测生成一个 H×W×1 的空间注意力图,并经全局平均池化操作得到最终场景 token;s_i等于M_i作用于B_t{\text{navi}}的结果;s_i等于M_i作用于B_t{\text{navi}}的结果等于B_t^{\text{navi}}与\varpi_i作用后的输出再进行\rho变换的结果;其中\varpi(\cdot)表示空间注意力函数;\rho(\cdot)表示全局平均池化变换函数

在处理过程中,我们对场景查询 StS_t 应用多层次自注意力机制(Multi-Head Self-Attention),从而显著提升其表达能力:
St=SelfAttention(St). S_t = \text{SelfAttention}(S_t).

由于该系统通过StS_t捕获了全部感知相关信息,在研究多模态规划轨迹时我们采用一系列路径点进行查询即通过一系列路径点进行查询进而获得关键数据其中Nt表示未来时间段划分成的时间步数而Nm则代表驾驶员发出的指令总数

Path queries and scene representations denoted as StS_t utilize cross-attention mechanisms for interaction. The interaction is modeled as Wt = \text{CrossAttention}(Wt, St, St) where Wt represents the transformed query and St denotes the scene features.

然后, 我们通过多层感知机(MLP)从 W_t 中推断规划轨迹, 并基于导航指令 cmd 确定最终输出的轨迹 T∈R^{N_t×2}:
T = Choose(cmd, MLP(W_t)).

最终输出轨迹基于 L_1 损失(模仿学习损失)作为监督指标与真实轨迹 TGTT_{\text{GT}} 进行比较:
L_\text{imi} = \|\, T_\text{GT} - T \,\|_1.

3.4 通过 BEV 世界模型进行时序增强

我们主要依赖时序上下文来提升场景表示的效果,并非专注于仅优化感知子任务。该模块的设计思路非常直接:当我们预期的行为与现实行为一致时,则预期的未来情景应高度接近于现实情景。

如图4所示,我们引入了基于BEV的世界模型(BWM),用于预测未来帧的BEV特征。首先,我们通过输出轨迹TT将当前场景的查询转换至未来帧,并采用运动感知层归一化(MLN)的方法进行处理(Wang et al., 2023a)。该方法能够对当前场景的查询进行运动信息编码,并生成梦境查询D_t=Dt=MLN(S_t, T)

针对梦境查询 DtD_t 的处理方法中

然而由于自动驾驶系统通常会在连续帧中聚焦不同的区域 我们转而采用一种更为巧妙的方式而非直接利用未来场景信息来进行预测 即通过引入TokenFuser模块将当前时刻的稀疏特征转换为密集BEV特征 这一过程不仅简化了计算流程还能有效提升预测精度 具体而言 我们首先定义了一个带有sigmoid激活函数的多层感知机(MLP)ψ 它能够将当前时刻的空间位置编码映射到相应的权重张量 ψ: RH×W×C ↦ RH×W×Ns 然后通过对该权重张量执行矩阵乘法操作即可得到最终的密集BEV特征输出 这种设计既保留了模型的有效性又显著降低了计算复杂度

在监督学习过程中采用L²损失函数来指导预测结果的生成。我们令模型输出t时刻后续时刻t + 1的估计贝叶斯估计矩阵\hat{\mathbf{B}}_{ t + 1 }与基于未来场景图像生成的真实未来时刻t + 1贝叶斯估计矩阵\mathbf{B}_{ t + 1 }之间趋于一致,并定义此过程为一种基于L^{ 2 }范数的贝叶斯估计重构损失函数L_{ \text{\ bev } } = \| \hat{\mathbf{ B }} _ { t + 1 } - \mathbf{ B } _ { t + 1 } \| _ { 2 }

我们采用了模仿损失 LimiL_{\text{imi}} 来针对预测轨迹,并采用 BEV 重构损失 LbevL_{\text{bev}} 来针对其 BEV 特征。最终计算出的总损失为 Ltotal=Limi+Lbev.

这确保了系统在预测驾驶行为的同时,也能对未来场景进行合理建模。

实验

4.1 数据集和评测指标

我们在多个领域中广泛应用的nuScenes数据集(Caesar等人于2020年提出)上评测其开发出的SSR框架,并参考现有研究设定(包括Hu等人于2023年的研究;Jiang等人于2023年的研究)。

为了对规划性能进行量化评估,我们采用了基于位移误差的L2度量与基于碰撞率的CR度量,并与现有研究保持一致。

  • 位置偏差:通过计算预测轨迹与真实轨迹之间的欧几里得距离来评估预测轨迹的质量。
  • 行驶风险度:基于预测路径下与其他物体的碰撞几率进行评估。

此外,为了更好地评估框架在消融实验中的表现,我们测量 路缘碰撞率 (CCR),该指标由 Li et al. (2024b) 提出。

所有指标均在 3s 未来时域内 计算,每 0.5s 评估一次,并在 1s、2s 和 3s 时进行测量。

我们注意到 VAD (Jiang et al., 2023) 和 UniAD (Hu et al., 2023b) 分别基于视觉分析技术的方法与基于深度学习的统一注意力机制模型分别采用了不同策略来计算评测结果:

  • VAD 采用所有历史帧的均值(AVG)。
  • UniAD 仅使用最新一帧的数值,并取最大值(MAX)。
  • 此外,在 GT 中(真实占用地图),UniAD 不考虑行人的碰撞计算结果,这导致其碰撞率相对较低。
  • 为了保证公平性,默认选择为 MAX 作为评测指标。
  • 同时计算 AVG 结果 并将其纳入评估范围以便与现有方法进行比较。
  • 在 MAX 评测中 将行人纳入了评估范围。
  • 此外 我们对 BEV 分辨率进行了优化 调整为从 0.5m 细分为更高分辨率的 0.1m 来提高 CCR 的准确性 符合 Li et al. (2024b) 的标准要求。

4.2 实现细节

参数设置

  • SSR 基于 VAD(Jiang et al., 2023)实施,并遵循 VAD-Tiny 的配置。
  • 图像骨干网络采用了 ResNet-50 (He et al., 2016),其输入分辨率设定为 640 × 360。
  • BEV 编码器采用了 BEVFormer (Li et al., 2022b),该设计与其现有研究保持一致(Hu et al., 2023b;Jiang et al., 2023;Zheng et al., 2024b)。
  • BEV 表示的空间分辨率设定为每维方向上均达到1×1×1的粒度,并被压缩为16个稀疏场景 token。
  • 导航指令的数目设定为3个,并与现有研究保持一致。

训练细节

  • 经过了 ~ 次训练(epochs),配备有 ~ 张 NVIDIA RTX ~ 显卡,并且每张显卡的batch size均为 ~
    • 所需时间为UniAD的约 ~ 倍。
    • 应用AdamW优化器(由 Loshchilov 和 Hutter (2019) 提出),学习率设置为 ~
    • AIMS I损失和BEV监督损失分别设置了权重值均为 ~
    • 其他所有设置与 VAD-Tiny方案保持一致。

4.3 主要实验结果

我们提出的方法在L²误差和碰撞率(CR)两个关键指标上均显著地超越了现有的端到端自动驾驶(E2EAD)方法(见表1)。相比于UniAD这一基于多辅助任务的方法,在L²MAX误差方面我们实现了平均降低0.28米(即降到了72.8%)的同时CRMAX误差也降低了1.6倍(即降到了约4.9%)。与VAD-Tiny相比

  • L2AVG 的误差降低了约三分之一
  • CRAVG 相较于上一版本的平均精度提升了约51%
  • 即使在性能指标上稍逊于VAD-Base,在精度提升方面仍可超越其水平
  • 推理速度达到196FPS左右(见附录A),相比UniAD提升幅度超过十倍
  • 并较之SparseDrive快出两倍以上的同时仍能保证L2AVG 的误差降至不到半公分
    与去辅助任务的方法对比

LAW (Li et al., 2024a) 在速度方面与SSR接近, 然而L2误差和碰撞率之间仍存在显著差异. UAD (Guo et al., 2024) 则采用了更大规模的ResNet-101模型, 并将输入分辨率提升至1600 \times 900像素, 同时融入了专门设计的开集检测模块以监督物体信息. 尽管这些改进, 其在L2MAX上的误差仍高出SSR约~\text{厘米}, 并且推理效率仅为SSR的一半左右.

4.4 消融实验

4.4.1 组件消融实验

表 2(a) 呈现了各模块间的消融研究:

在这里插入图片描述

4.4.2 场景查询数量实验

在表2(b)中, 我们对不同数量场景查询(Scene Queries)对模型性能的影响进行了深入分析:当设置为8次查询时,L2范数误差达到最低水平,但碰撞频率显著增加.

  • 16 个查询在 L2 误差与碰撞率之间达到了最佳平衡点, 由此可见我们默认使用 16 查询.
  • 当查询数量增加至 64 时, 性能表现出现下滑, 主要原因在于信息过载, 这种情况下模型容易陷入困惑状态.

4.5 分析与讨论

场景查询如何表示场景?

在这里插入图片描述

图5展示了部分BEV空间注意力图,请问:每个查询聚焦于BEV空间的不同区域?通过整合所有查询信息,最终构建了一个全面且具有区分度的空间表示。这些空间注意力分布表现出高度的一致性特征(如图6所示)。

在这里插入图片描述

图 7 展示了不同行驶场景下的 BEV 特征:当车辆进行超车操作时(图 7a),系统将焦点集中在左侧车辆及其后方左侧区域;当车辆进行直线行驶时(图 7b),观察范围较为分散;而当车辆向右转弯时(图 7c),系统将注意力集中在右侧车辆以及左侧人行道区域。该系统如何利用导航信息?

表3展示了导航指令在各种情况下增强了规划效果。
图8则通过可视化分析展示了不同指令对查询行为的影响。
当车辆直行时,在路径规划上各区域的权重较为均衡。
而转向左侧时,在路径规划中左侧区域的权重显著增加。
转向右侧时,在路径规划中右侧区域的权重显著增加,并且对前方道路进行重点监控。
此外,基于感知数据的SSR能否有效提取和利用环境特征?

在这里插入图片描述

本研究探讨了 SSR 在无需显式感知任务时的表现。
实验结果表明,在不施加显式感知任务的情况下, SSR仍展现出优异的性能水平。

4.6 可视化

在这里插入图片描述

图9呈现了SSR在规划轨迹效果上的定性分析结果。研究表明,在与地面实测数据对比中,SSR的表现显著优于VAD-Base方法。鉴于篇幅限制原因,在此不做详细展示;但其他相关场景的结果图(包括失败案例)可参考附录A.2及A.3

全部评论 (0)

还没有任何评论哟~