Advertisement

论文精读系列2:EMMA: End-to-End Multimodal Model for Autonomous Driving

阅读量:

论文:https://arxiv.org/pdf/2410.23262(waymo,自认为该开启了通过大模型输出自动驾驶轨迹和各种任务的“大模型范式”)

参考资料:https://zhuanlan.zhihu.com/p/4667962901(该文章很深入,在梳理论文时有许多参考该文章思考的地方)

尽量让模型寻找隐空间里不易被人类捕捉到的规则

局限:

(1)不能将相机与LIDAR或radar融合,3D空间推理有限;(2)sensor simulation来促进其闭环评估;(3)相较于传统model要更大的计算能力

1.整体框架

image.png

输入 :(1)视觉(环视图像);(2)高维指令,如google地图的导航指令,"前方请在第二个匝道右转出匝道这种指令";(3)自车的历史轨迹等状态

输出 :模型在预测轨迹 之前解释其基本原理 ,通过思维链COT推理增强了模型的性能和可解释性。模型还预测关键对象的准确 3D/BEV 位置,如图中下面模型的三个附加功能

2.Method

image.png

O是T和V输入给G后的自然语言输出,接下里详细看下论文中这三个都表示什么:

(1)V:Surround-view camera videos提供复杂的环境信息

(2)T:分成Tintent和Tego

Tintent:高维的意图指令,如直行、左转、右转等

Tego:自车的历史轨迹,BEV下一系列的坐标点,坐标为纯文本形式。也可以扩展更高阶的速度和加速度

(3)O:用一系列在BEV空间下的轨迹点表示
image.png

补充:列举了两种方法来表示3D空间坐标,第一种是直接文本转,如RT-2;第二种是使用特殊token表示每个location或者action,如MotionLM。本文为了使所有任务都能用语言统一表达并充分利用预训练的知识,虽然可能产生更多的特殊token,但仍然选择问文本直接表示补充:列举了两种方法来表示3D空间坐标,第一种是直接文本转,如RT-2;第二种是使用特殊token表示每个location或者action,如MotionLM。本文为了使所有任务都能用语言统一表达并充分利用预训练的知识,虽然可能产生更多的特殊token,但仍然选择问文本直接表

完整的公式为:
image.png

无敌之处:

首先是自监督 的,唯一需要监督的就只有自车轨迹。就是根据目前给的信息让模型去预测自车的位置点,多个位置点就是一条轨迹(和预训练LLM一样,尽量让模型寻找隐空间里不易被人类捕捉到的规则尽量让模型寻找隐空间里不易被人类捕捉到的规则

只需要相机输入和不需要高精地图

2.1 End-to-End Motion Planning

COT 引入到规划中,增强其推理能力并提高其解释性。也就是说让模型在输出轨迹的时候还有阐释其原理。具体的COT的介绍可以参考:https://zhuanlan.zhihu.com/p/67090768。

(ps:在之前的论文中没有引入COT的机制,都是直接问without reason输出未来轨迹,如Omnidrive,这里其实可以借鉴,加入reasoning的输出

分层构建驾驶基本原理,从 4 种类型的粗粒度信息发展到细粒度信息分层构建驾驶基本原理,从 4 种类型的粗粒度信息发展到细粒度信息:

R1 - 场景描述 (Scene description):

广泛描述驾驶场景,包括天气、时间、交通状况和道路条件。

例如:天气晴朗,并且是白天。道路是一条没有分隔的四车道街道,中间有一个人行横道。街道两边停有汽车。

R2 - 关键物体 (Critical objects):

是那些在道路上并可能影响自车驾驶行为的代理物体。

我们要求模型识别它们的精准3D/鸟瞰视图(BEV)坐标。

例如:行人位置在 [9.01, 3.22],车辆位置在 [11.58, 0.35]。

R3 - 关键物体的行为描述 (Behavior description of critical objects):

描述关键物体的当前状态和意图。

一个具体的例子如下:行人目前站在人行道上,望向道路,可能准备过马路。该车辆目前在我前方,向同一方向移动,其未来轨迹表明它将继续直行。

R4 - 高层驾驶决策 (Meta driving decision):

包含12种高层次驾驶决策,基于先前观察总结驾驶计划。

一个例子是:我应该保持当前低速。

强调驾驶依据说明是使用自动化工具生成的,没有任何额外的人类标签,确保数据生成pipeline的可扩展性。具体来说,我们利用现成的感知和预测专家模型来识别关键agents,然后使用Gemini模型结合精心设计的视觉和文本prompt来生成全面的场景和agents行为描述。高维驾驶决策是使用启发式算法计算的,该算法分析自车的真实轨迹
image.png

其中 O_rationale 表示驾驶依据组件 R1, R2, R3, R4 的有序文本输出 。这种链式思维推理方法通过为决策过程添加解释性步骤,提升了自动驾驶系统的整体性能和安全性。它不仅提高了系统的决策能力,还增强了其解释性,使得自动驾驶过程更加透明和可信。本文还观察到输出O_rationale和Otrajectory顺序不影响结果,所以可以在推理时候让其先预测轨迹然后提前停止,提升效率

2.2 EMMA Generalist

Spatial reasonin (也就是3D box检测):follow Pix2Seq将3D boxes框公式化为:Oboxes = set{text(x, y, z, l, w, h, θ, cls),xyz是中心点坐标,lwh是长宽高,θ为heading角,cls是类别。将其转换为文本,2位小数,用空格分隔每个维度。使用一个固定提示 Tdetect_3D,例如“检测场景中的所有3D物体”,如下:
image.png

Road graph estimation :专注于识别安全驾驶的关键道路元素,包括语义元素(如车道标记、标志)和物理属性(如车道曲率)。这些道路元素的集合形成了一个道路图。例如,车道段由 nodes表示,其中车道在交通方向之后遇到交集、合并或拆分和 这些节点之间的边edge。完整的道路图由许多这样的折线段组成
image.png

补充:道路图由许多连接段 组成,这些连接段由节点和边 表示。节点nodes:如车道在交叉口、合并、分裂处的节点。边edges:连接这些节点,按照交通方向排列。多线段顺序:每个多线段内部的边是有方向的,但不同多线段之间的相对顺序不一定唯一。

构建Oroadgraph:先将车道线转换为有序路径点集,再将点集转换为文本。如"(x1,y1 and... and xn,yn);...""(x1,y1 and... and xn,yn);...","x,y"是小数点两位的float,用;分隔不同的实例

Scene understanding :场景理解任务可以测试模型对整个场景上下文的理解,特别是与驾驶有关的部分。例如,由于施工、紧急情况或其他事件,道路可能会被暂时阻碍。及时检测这些阻塞并安全地绕行对于确保自动驾驶汽车的平滑和安全操作至关重要;然而,需要场景中的多个线索来确定是否存在阻塞。我们主要关注模型在临时阻塞检测任务上的表现,使用以下公式:
image.png

Otemporary_blockage模型输出,指示潜在的阻塞情况;V是图像;Troad_users表示所有在道路前方的物体;Ttemporary_blockage是文本提示:“前方道路是否临时阻塞?"

2.3Generalist Training

单模型同时训练多个任务,然后就是确保训练在任务之前的比例由相对数据集大小控制(训练GPT3似的,小数据集为了防止被大数据集给冲了,每种datasets在训练的时候有合适的e epochs和数据集比例的乘积)实验证明:多个任务一起训练优于单个的专家任务

3.实验

模型用的Gemini 1.0 Nano-1

(1)WOMD数据集上

EMMA 与其他模型(如 MotionLM 和 Wayformer)相比,当仅在 WOMD 数据集上训练时,模型表现与 MotionLM 基线相似,采用 Gemini 预训练权重。当用另外内部数据集预训练时(称为 EMMA+)模型在未来 ADE 5s 中超越了 MotionLM 和 Wayformer,特别在短时间窗口(1s, 3s, 5s)上性能优越(短窗口敏感这是对自驾非常重要的,对比长周期规划)

在较长时间窗口(8s)表现稍逊于 Wayformer,这是因为 EMMA 只使用相机作为传感器,而 Wayformer 结合了激光雷达和雷达,提高了深度感知能力。
image.png

作者注意到:MotionLM 和 EMMA 之间输入的差异:MotionLM 获取agent位置历史、agent交互、道路图和交通灯状态的输入。这些agent boxes由专门的车载感知模型产生,这些模型查看过去和未来的观察,并使用大量精心策划的人类标签进行训练,道路图是使用完整运行段手动生成的,所有输入都使用具有更好深度估计的 LiDAR 数据。与之形成鲜明对比的是,EMMA 仅将相机图像和自我车辆历史作为输入,而不需要任何标签或额外的模型(除了利用 Gemini 预训练权重)

(2)NuScenes上:自监督的EMMA 在nuScenes上的规划取得了最先进的结果,超越了所有之前的监督(带中间感知标签和/或人类标签)和自监督(无额外标签)方法。在相同的自监督设置下,EMMA的平均L2误差比之前的BEV-Planner 提高了17.1%;即使与使用大量中间感知和人类标签的DriveVLM-Dual 相比,自监督EMMA仍然将平均L2误差降低了6.4%
image.png

(3)COT Reasoning对端到端规划的影响(内部数据集上):也就是
image.png


image.png

的对比:COT提高了6.7%,meta-decision and critical objects分别提高了3.0%和1.5%

COT增强了模型的可解释性并显著提高了其性能
image.png

(4)模型表现出scaling law的性能:
image.png

全部评论 (0)

还没有任何评论哟~