Advertisement

自动驾驶架构进化史:端到端自动驾驶演变

阅读量:

自动驾驶架构进化史:端到端自动驾驶演变

前言:

自2023年以来,在行业龙头特斯拉的影响、大模型引领的AGI技术框架以及自动驾驶拟人化与安全性的需求共同作用下,“端到端”技术的重要性日益凸显。“端到端”技术的关注度持续上升。“多领域”的发展已经呈现出明显的突破态势,在多个相关领域都出现了具有里程碑意义的重要进展。

端到端自动驾驶已经成为明确的行业共识。

1、传统自动驾驶架构

传统的自动驾驶架构多源于机器人架构。由于在机器人领域中存在感知-定位-规划三大模块及其功能体系的延伸与整合,在相当长的时间段内构成了自动驾驶架构发展的基础框架。典型的自动驾驶系统通常包含以下几个核心模块:

图片

感知模块(Perception)

感知模块的主要职责是采集并解析周围环境的数据。这些数据来源于多种传感器的应用:摄像头捕捉视觉数据;激光雷达(LiDAR)提供精确的空间信息;雷达探测物体;超声波传感器则用于距离测量。具体来说,这些数据包括其他车辆、行人、交通信号灯以及路标等元素。通过整合各传感器获取的数据信息,该系统通过特定算法构建出一个能让车辆有效理解的环境图景。传统的方法更多地依赖于人为设定的标准与规则,特别关注周边障碍物的存在情况以及区域划分问题。这一传统的目标就是确保所得结果易于人理解和体现对环境中复杂情况的高度概括性。

定位模块(Localization)

该模块的功能是识别车辆在环境中的精确位置。这一过程通常利用全球定位系统(GPS)、惯性测量单元(IMU)以及各种传感器数据来估计车辆的位置信息。另外一种方法则是将这些传感器数据与预先绘制的地图进行比对分析。

预测模块(Prediction)

该模块旨在预测其他道路使用者的行为与意图,并识别不同道路使用者的活动模式。这些信息有助于帮助自动驾驶系统在决策过程中提前做出反应,从而预防潜在的碰撞与冲突。

决策与规划模块(Decision and Planning)

该系统中的决策单元依据感知数据及预测结果来规划车辆行驶策略。具体涉及选择最优行驶路线、判断并决定何时进行变道或超车操作,并处理复杂路况下的应对措施。其中规划单元则通过精确计算生成完整的行程计划,在确保安全的前提下实现车辆从当前位置到目标地点的高效通行。

控制模块(Control)

控制系统接收决策规划模块的指令并生成具体的控制信号。该系统负责准确调节发动机转速、制动力度以及转向方向,并以此确保驾驶过程既平稳又安全。

由于传统方案在模块上的划分较为明确,在实现各模块独立开发的过程中更为方便,并且在问题追溯这一环节同样较为简单快速。然而,在这种方案下所付出的成本是限制了模块以及整个系统所具有的灵活性,并且无法突破其泛化性的上限。

2、端到端自动驾驶架构的演变

目前自动驾驶架构的发展经历了四个主要阶段

第一阶段聚焦于感知系统"端到端"

在该阶段中…被划分为两个核心功能区:

其中…利用多传感器融合的BEV(鸟瞰图视角)技术实现了"端到端"处理能力。

引入了先进的Transformer架构以及跨传感器交叉注意力机制后…

与之前相比…检测精度和稳定性均得到了显著提升。

然而,在规划决策方面仍主要依赖基于规则的方法。

第二阶段:决策规划模型化

在此设计周期内,该汽车架构仍划分为感知与预测决策规划两大核心模块,其中一部分采用上一代的技术方案,而另一部分则发生较大调整——从预测采集到决策制定再到路径规划的任务均被整合进一个统一的神经网络体系中。值得注意的是,在此次设计周期内各功能单元均采用对障碍物位置、道路边界等关键信息的人工智能理解;此外,在此次设计周期内各功能单元仍各自独立完成相应的任务。

图片

第三阶段:模块化端到端

从结构上来看,在此阶段中

第四阶段:One Model/单一模型端到端

在这一阶段后段的功能划分变得不再明确。从原始信号输入一直到最终规划轨迹的输出完全采用了同一个深度学习模型。由不同实现方案决定的一系列One Model设计中可以选择使用强化学习(Reinforcement Learning, RL)或者模仿学习(Imitation Learning, IL)作为其核心算法框架,并且这些设计都可以进一步演变成一个完整的端到端系统或者其衍生物

模块化端到端自动驾驶

在第二阶段的决策规划中采用模块化的架构则需接口标准化这一做法虽然有助于提升系统的组织效率但也存在一些局限性例如在数据转换过程中可能会导致信息在转换过程中有所损失尤其是当这一过程与人类的认知模式不一致时可能导致系统性能出现下降此外这些明显界限会影响系统的整体稳定性和通用性尤其是在未知或极端环境下时则容易导致各个模块之间的衔接出现问题

图片

One Model端到端自动驾驶

尽管OneModel属于第四阶段的方案,然而这一概念提出的时间早于模块化端到端方案。在2016年时,自动驾驶产业刚起步时,英伟达就已经首次尝试使用单一神经网络架构(即卷积神经网络加全连接层的设计)来实现完整的自动驾驶系统,其输入与输出仅限于最基本的传感器数据、方向盘位置以及油门操纵程度。

3、端到端相关概念的联系与区别

端到端与决策规划模型化

行业内普遍存在的误区在于误将"基于模型而非基于规则构建决策规划模块"视为完整的"端到端方案";从而将上文中所涉及的第二阶段同样归类于"端到端"体系中;基于我们之前的探讨可知,在企业级应用中将"决策规划模型化"仅作为满足"全业务流程管理"需求的基础性措施而言,则属于必要但并非充分的条件。

规划模型化应当被视为一种必要但非充分的前提条件,在此基础之上才能实现完整的系统设计。其判断基础在于第二阶段决策性规划模型化与第三阶段模块化设计之间的显著差异:第一,在接口设计上采用人工标签而非底层特征的方式进行连接,在此过程中无法实现跨模块梯度传播;第二,在学习机制上仅局限于局部区域,并未能扩展至全局范围。

端到端与大模型

虽然通常会相互关联

自动驾驶中的"大模型"与NLP或通用AI有所不同,主要受制于车载计算能力和实时性要求,其规模通常远低于后者.即便如此,在车载环境下仍被视为"大型".例如,目前最先进的车载处理器一般具备数百TOPS的运算能力,这不足以支撑十亿参数级别以上的大型模型.因此,在自动驾驶领域中使用的大型模型通常参数量控制在十亿以下,相比小型AI来说已经显著提升.

端到端与世界模型

世界模型的核心即掌握并揭示真实世界物理与数学定律的本质。例如具备掌握重力与相互作用等特性的能力,并生成未来时间段内基于这些认知的预测视频作为其输出。

建立世界模型旨在理解现实世界的物理及数学规律,并能够预判未来发生的事件。
在自动驾驶系统中存在两种不同的看法。
其中一种侧重于精确的物理建模与计算能力;另一种则更加关注基于经验的数据驱动方法。

世界模型被用作生成器,在端到端训练中提供合成数据以增强训练效果并减少资源投入

经过微调优化后的世界模型体系能够实现完全自足的自动驾驶功能。已进行了基础层面的探索与验证工作。受当前车端计算能力限制,在未来可能需要借助模型压缩技术来解决相关问题。

端到端与纯视觉传感器方案
该方案对传感器的选择并无特殊限制,并不会干扰感知架构的发展。误以为该方法仅适用于视觉信息处理是不正确的;实际上基于视网膜增强(BEV)的方法因其丰富的信息资源而得到了广泛应用。这两种方法均属于前向融合型设计框架;因此在实际应用中可依据具体情况灵活选择。随着技术的发展,未来可能会整合更多先进传感设备如激光雷达和四维毫米波技术。

4、 早期端到端自动驾驶的关键成果

于2016年,英伟达发布名为《End to End Learning for Self-Driving Cars》的论文。该论文介绍了一种基于卷积神经网络(CNN)的端到端自动驾驶系统DAVE-2。该系统通过卷积神经网络处理摄像头捕捉到的图像数据,并直接输出转向指令。采用模拟数据进行训练后表现出色。DAVE-2革新了现有的自动驾驶技术架构和适应性,并促进了自动驾驶技术的发展。

图片

Wayve.AI系统于2017年正式成立英国剑桥,在同一年发表名为《一整天内学会驾驶》的论文以展示其快速学习能力。与NVIDIA开发的DAVE-2项目不同的是 Wayve采用强化学习与深度学习结合的方法 在一天之内就能适应并应对复杂的城市道路驾驶场景 其演示视频在伦敦获得了良好的评价

图片

comma.ai自诞生以来即专注于自动驾驶技术研发,在2017年推出了具有里程碑意义的OpenPilot系统,并实现了L2级别的智能辅助驾驶功能,在众多车型中顺利实现适配与应用。进入2020年后, OpenPilot成功转向基于端到端神经网络模型的驱动方案,标志着其在自动驾驶技术领域的重大突破,并首次推出商业化规模的端到端自动驾驶解决方案

图片

5、 近期端到端自动驾驶的重要进展

OpenDriveLab的UniAD(2023)是一种全面的Transformer端到端模型

图片

Wayve开发的GAIA-1(2023)系统基于生成式世界模拟技术,在自动驾驶场景下增强了视频生成效果的同时实现了多模态内容的综合输出。该系统通过集成视觉、语言与动作协同的技术,在自动驾驶领域应用了视觉感知、自然语言处理以及机器人动作控制三者联动的大模型架构。该系统在设计上采用了先进的模块化结构,在确保功能完整性的同时提升了整体运行效率,并通过持续优化实现了对复杂场景下的智能应对能力。

LINGO-2模型负责执行驾驶任务,并能够通过自然语言与用户交流并阐述决策原因。该系统根据用户的指令调整其驾驶行为,并支持视觉问答功能以及展示对环境的理解情况。

图片

采用基于端到端架构的系统设计的Tesla FSD v12.4版本显著提升了车辆在复杂场景下的泛化能力及交互流畅性,并呈现出更为自然流畅的驾驶体验。目前技术细节尚待进一步揭示的相关研究可能将构建一个统一的基础模型这一技术成果可能在未来应用于自动驾驶与机器人领域

图片

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

全部评论 (0)

还没有任何评论哟~