Advertisement

GenAD: 生成式端到端自动驾驶

阅读量:

二〇二〇年二月,《GenAD》一文由 UC Berkeley、Hui-Tuo 研究院及中科院自动化所联合发布。该研究提出了一种基于生成模型的全连接自动驾驶系统框架

实现规划方案直接来源于原始传感器数据始终被视为自动驾驶技术的核心目标之一,并且这一技术方向逐渐获得了广泛关注。现有的端到端自动驾驶系统通常将这一问题划分为感知、运动预测以及路径规划三个阶段进行处理。然而,在这种分阶段处理方式下仍然存在明显局限性:传统的分阶段流水线难以全面捕捉复杂的动态变化过程(例如车辆与周围交通主体之间的互动关系以及结构化的先验知识)。为此本研究提出了一种称为GenAD的新架构框架,并将其定义为一种生成建模问题转化为轨迹分布的学习任务。具体而言,在该框架中首先设计了一种场景编码器(scene encoder),它能够将周围环境中的场景信息转化为地图-觉察实例类型的tokens表示形式;随后通过变分自编码器(VAE)学习潜空间中未来轨迹的分布特性;接着引入时间模型来捕捉生成轨迹所需的潜在特征;最后结合这些模块生成更加高效可靠的未来运动轨迹序列。此外,在本文所提出的框架基础上进一步开发了基于条件采样的采样策略,并采用时间模型对所生成的时间序列进行精细调整以确保输出质量达到最优水平。在nuScenes基准集上的广泛实验验证表明,在基于视觉信息的端到端自动驾驶范式下所提出的GenAD架构能够有效实现当前最优性能。

代码是 https://github.com/wzzheng/GenAD

让我们来概述一下参考的VAD方法。

添加图片注释,不超过 140 字(可选)

如图所示对生成式端到端自动驾驶框架与传统自动驾驶流水线展开分析。大多数现有技术均遵循一系列步骤包括感知、预测及设计布局等环节。然而这些现有技术往往忽视了车辆与其他智能体之间存在的高层次相互作用以及基于现实轨迹所蕴含的结构性先验信息。通过将自动驾驶问题建模为未来生成任务并在结构化潜在轨迹空间中同时完成运动预测与自主规划这一创新性方法有望突破现有技术的局限性并提升整体性能水平

添加图片注释,不超过 140 字(可选)

如图所示展示的是一个基于端到端生成式的自动驾驶框架系统。系统接收周围环境下的图像作为输入信号,并通过提取多尺度特征的方式对图像进行处理。随后利用BEV编码器获取相应的BEV tokens序列,并采用交叉注意力机制与可变形交叉注意力机制分别将BEV tokens转化为地图token序列与智能体token序列。在此基础上通过引入额外的自车token并结合自注意力机制促进车辆与智能体之间的互动过程,并借助交叉注意力机制整合相应的地图信息从而构建起以实例为中心的场景表示体系。该表示体系被映射至由结构化潜在轨迹空间构成的平台其中该空间是由真值未来轨迹联合学习所构建的空间模型最终一步骤中利用未来轨迹生成器完成对未来运动状态及路径规划的具体输出计算

请添加图片描述

如图展示了我们提出的新轨迹先验模型及其对未来轨迹的生成能力。通过将真实轨迹映射到潜在轨道空间中的未来编码器,在该空间中使用高斯分布来建模运动不确定性。随后,在潜在轨道中使用GRU序列模型逐步预测下一个潜在状态,并通过解码器将其转换为明确的运动轨道。

添加图片注释,不超过 140 字(可选)

最后总结一下端到端的自动驾驶框架。

基于输入的周围摄像机信号s

考虑到现实轨迹具有高度结构化的特点,并非随机分布的状态。VAE模块通过先验建模来处理这一特性,并采用生成框架来进行运动预测与路径规划任务。其中包含了一个编码器et,在将真实轨迹映射至高斯分布的空间Z时体现出良好的表征能力。随后利用基于GRU的时间序列模型g对潜空间Z中的实例进行动态建模,并借助简单的MLP解码器dw完成对潜在表示空间中路点序列的重建工作。最终通过将所有时间戳上的解码结果进行积分运算即可恢复出交通智体与自车的真实运动轨迹TPlota与TPlote数据集。此外为了进一步提升模型性能还引入了类解码器dc用于预测每个智能主体c所处的行为类别信息以辅助后续分析与决策过程。在模型训练过程中我们遵循文献[19]的方法对重建后的运动学数据与真实数据之间的差异进行定量评估并优化相关编码与生成模型使其能够更好地捕捉复杂场景下的运动规律

基于实例tokens I的数据进行交通智能体与自驾车未来轨迹的推断,请使用实例编码器ei将每个实例tokens映射至潜在空间Z。该编码器同样生成均值向量μ_I和方差向量σ_I,并用于参数化对角高斯分布。

基于潜在轨迹的空间学习方法构建了对真实轨迹先验信息的建模框架,在运动预测与路径规划问题中将两者统一表示为实例条件概率分布p(z|I)与真实条件概率分布p(z|(T,f))之间的匹配问题。通过采用Kullback-Leibler散度损失项来提升分布匹配性能。

此外(另外一项),通过实施两个子任务——地图分割与三维目标检测——来优化所提出的GenAD模型。具体而言,在地图tokens M上使用地图解码器dm,在智体tokens A中应用目标解码器do。从而生成预期的地图信息以及三维目标检测结果。参考文献[19]中的设计原则构建任务解码器,并采用二分匹配算法实现真实值的配对。最后,在网络训练过程中整合语义图损失项Jmap与三维目标检测损失项Jdet。

全部评论 (0)

还没有任何评论哟~