汽车端到端自动驾驶系统的关键技术与发展趋势
摘要:随着以ChatGPT为代表的生成式人工智能的发展,端到端自动驾驶系统得到了广泛关注, 有望为通用场景的驾驶智能带来革命性突破。以全部模块神经网络化为特征的端到端系统对专 家规则的依赖度低,功能的集约性与实时性强,具备智能涌现能力和跨场景应用潜力,是实现 数据驱动自进化驾驶能力的重要途径。本文概述了端到端汽车自动驾驶系统的关键技术与发展 趋势。首先,介绍生成式人工智能的技术现状,包括网络架构设计、预训练与微调,以及模型 剪枝与压缩等;其次,总结端到端自动驾驶的关键技术,其核心是以车云协同为基础的驾驶大 数据和自动驾驶大模型的在线循环迭代;再次,归纳该类自动驾驶系统的发展现状,尤其是感知、 预测和决控三大功能的技术进展;最后,总结生成式人工智能与自动驾驶融合发展的技术挑战。
关键词:人工智能;大模型;车路云协同;自动驾驶;数据驱动
0 引言
随着全球科技革命的演进,智能化已成为汽车工业技术变革的重要方向之一。其中, 自动驾驶技术的发展可促使驾驶车辆的主体从人类向机器智能过渡,将在道路安全、通 行效率和节能减排等方面显著推动社会发展进步[1]。通过全视角感知和高智能决控,自 动驾驶汽车有望提前规避风险,降低事故发生率,甚至具备完全避免交通事故的潜力。 通过优化驾驶路线和保持合理行驶车距,自动驾驶技术有助于提高通行效率,减少道路 拥堵。依托车路云一体化的协同驾驶,自动驾驶汽车可合理规划驾驶行为,降低燃油消 耗和尾气排放,助力碳达峰和碳中目标早日实现。据预测,以驾驶辅助为代表的低级别 自动驾驶技术普及可将通行效率提升10%,油耗与排放分别降低5%。因此,发展中国 式自动驾驶汽车、突破关键技术“卡脖子”问题已经上升到国家战略层面高度。
为了规范我国自动驾驶技术发展,由工信部制定的《汽车驾驶自动化分级》(GB/T 40429-2021)根据自动化系统承担的角色将驾驶智能分为6级,从第0级(L0)到第5 级(L5)智能水平依次递增[2]。目前,L0-L2驾驶辅助技术进入量产阶段,并展现出驾 驶功能逐渐增多、向中低端车型不断渗透的特点。滴滴、小鹏、智行者等企业均已实现 车道保持预警、定速巡航等组合辅助驾驶功能的量产。L3-L5自动驾驶技术正经历从示 范测试到小规模商业运营的关键阶段。北京、深圳、武汉等10余个城市已经允许自动 驾驶汽车承担部分公共交通服务等商业化示范。百度推出新一代无人驾驶出租车“萝卜 快跑”,累计订单量已突破百万。近年,部分企业的自动驾驶汽车事故时有发生,提醒 人们完全脱离安全员监管的自动驾驶技术成熟度尚未达到预期,面向复杂城市道路工况 的L3-L4级自动驾驶依然任重道远。
从发展历史看,自动驾驶汽车的研发可追溯至二十世纪六十年代,如斯坦福大学的 Cart号等。进入本世纪初,一批高科技企业涌入这一领域,加快了自动驾驶技术的工 程应用进程。目前,主流的自动驾驶系统包括感知、定位、预测、决策、规划和控制六 大核心功能。从设计思想看,自动驾驶系统分为模块化和黑箱化两个大类。前者将系统 分解为一系列功能独立的模块,每一个模块单独设计,组合到一起实现自动驾驶功能; 后者又称为端到端自动驾驶系统,它将系统视作一个黑箱,将所有模块神经网络化,训 练一个或者多个神经网络,得到从感知结果到控制命令的直接映射[4]。特别值得注意的 是:端到端自动驾驶的核心特征是全部模块都神经网络化,而非仅使用一个神经网络实 现驾驶功能。从目前的行业应用看,模块化设计更适合团队分工合作,易于引入专家规 则,更具有工程落地能力,这也是目前多数企业采用的落地方案;而端到端式的设计思 想因为全神经网络化的简洁框架同样备受关注,尤其是随着算力增长和数据增加,端到 端自动驾驶系统的应用潜力显著增强,涌现出特斯拉FSD V12等典型代表。端到端自 动驾驶的历史可以追溯到1988年的ALVINN,其中输入是来自相机和激光测距仪的两 个“视网膜”,由一个简单的浅层神经网络生成转向输出。自2015年至今,随着算力的 增强,以深度神经网络为策略载体的自动驾驶技术得到了广泛关注,典型代表包括用于 目标检测的神经网络YOLO[5]、用于轨迹预测的神经网络VectorNet[6],以及用于车辆 控制的神经网络LipsNet[7]。然而,受制于标注数据规模、模型训练效率和有限车载算力, 现用于自动驾驶汽车的神经网络参数规模保持在千万量级,对应的神经元数目为百万量 级,这仍然远远低于典型哺乳动物的神经元数量[4]。例如,大猩猩和人类大脑中的神经 元数量分别约为3.4×1010和8.6×1010个。由于神经元的数量直接影响生物的智力水平, 神经网络的规模限制了自动驾驶汽车在复杂城市场景的智能程度,同时导致其缺乏类人 的对未知场景的泛化能力。
大模型为自动驾驶智能性的进一步突破提供了潜在解决方案。大模型又称基础模型 ( Foundation Model),一般是指参数量过亿、使用海量数据训练的大型神经网络模型。 与现有的小模型相比,大模型具有如下三方面特点。① 智能涌现(Emergence)能力— 随着参数量的增加,模型性能首先呈现缓慢增长,当规模达到一定程度时急剧提升。② 对标签数据的依赖程度低—大模型利用自监督学习进行预训练,通过设计预测任务学 习数据的内在结构和模式。这种方法不需要人工标注的标签,而是利用数据本身的特性生成训练信号。通过自监督学习,大模型能够从大量未标记数据中学习到有用的特征表 示,减少了对标签数据的依赖,更加具有可扩展性和适应性。③ 跨领域应用的潜力— 大模型通过使用大规模数据进行预训练,能够更好地理解语义和上下文信息,并在新 任务中进行迁移,从而摆脱了小模型场景碎片化、难以复用的局限性。此外,通过微调 (Fine-tune),大模型可以针对特定领域或任务进行优化,进一步提升专业性能。当 前,大模型在自然语言处理、图像生成和机器人控制等领域得到了广泛应用,典型的是 对话模型ChatGPT。它的起源可以追溯到2018年OpenAI的GPT(Generative Pre trained Transformer)项目。GPT是指基于Transformer架构的生成式模型,通过 大规模数据无监督预训练,以及特定任务有监督微调,可实现输入提示下的内容生成。 随着计算资源和数据集的不断扩充,GPT系列模型从1.17亿参数的初代版本到2020 年1750亿参数的GPT-3,再到2022年底的通用对话模型ChatGPT,参数规模与模型 性能不断提升,能够更准确地理解上下文、推理逻辑和表达含义,并支持在线问答推理, 掀起了大模型研究的浪潮。国内大模型的典型代表包括百度文心一言、阿里通义千问和 华为盘古等,目前已逐步应用于对话问答、图文创作、气象预报等重要领域。据此,依 托海量自然驾驶数据,结合数据驱动算法训练自动驾驶的感知、预测和决控大模型,以 突破自动驾驶汽车在城市复杂场景的行驶安全性,是大模型赋能自动驾驶技术的重要发 力点。
本文聚焦端到端自动驾驶的技术路径与发展趋势。首先,介绍生成式人工智能的关 键技术;其次,总结生成式人工智能用于自动驾驶的技术路线;再次,归纳端到端自动 驾驶的技术发展趋势,包括感知、预测与决控技术的发展现状;最后,总结端到端自动 驾驶的未来挑战。
1 生成式人工智能的技术现状
数据、算力和算法是大模型发展的支柱,其中算法是大模型的核心技术体现。现有 大模型多以Transformer结构为基础,采用“预训练(Pre-training)+微调(Fine tune)”技术进行参数学习,使之适配不同领域的具体任务,经剪枝压缩后完成最终部署。 本节将围绕网络架构、预训练、微调和剪枝压缩四个方面对大模型关键技术进行介绍。
1.1 神经网络的架构设计大
模型的出现得益于深度学习浪潮中深度神经网络的发展。深层网络的学习建 模能力更强,有利于模型的性能提升。在2012年,神经网络结构AlexNet[8]夺得 ImageNet[9]竞赛冠军,首次证明学习到的特征可以超越手工设计的特征,人们逐渐开 始关注神经网络。在2015年,神经网络结构Res Net[10]被提出,将网络深度成功增加 到了152层。在2017年,Google提出了神经网络结构Transformer[11],如图1所示, 大幅提升了网络表达能力,在计算机视觉(CV)、自然语言处理(NLP)等多个领域大 放异彩,Transformer现已成为大模型的基础网络结构之一。Transformer是以注意力机制为核心的编解码器结构, 其主要结构为注意力、位置编码、 残差连接、层归一化模块。
Transformer被广泛应用 于自然语言处理(NLP)、计算 机视觉(CV)、强化学习(RL) 等领域的大模型中。在NLP领 域中,单词被表示成token输 入Transformer中,从而处 理具有较长上下文依赖关系的 任务,例如BERT[12]使用了 Transformer的编码器结构, GPT-3[13]使用了Transformer的解码器结构,BART[14]则同时使用了Transformer的编解码结构。在CV领域中, 图像被切割为若干图像块,将其作为token处理输入Transformer中,例如Vision Transformer(ViT)[15]、Swin-Transformer[16]等。在RL领域中,状态、奖励、动 作被编码为token输入Transformer中,例如Gato[17]、Decision Transformer[18]等。

1.2 预训练与微调技术预
训练是使大模型获得通用知识并加速模型在微调阶段收敛的关键步骤。根据序列 建模的方式,言模型可以分为自回归语言模型和自编码语言模型,如图2所示。自回 归语言模型使用Transformer的解码器结构,根据前文预测下一个词,从而对序列的 联合概率进行单向建模。这种方式适用于文本生成任务,例如GPT系列模型[13,19]。然而, 自回归模型无法利用下文信息,只能单纯利用上文信息进行预训练。自编码语言模型则 利用Transformer的编码器结构,通过预测序列中的某个词双向建模序列的联合概率。 BERT是其中的代表性模型[12],它通过掩码语言建模和下句预测两个预训练任务学习 上下文的双向信息。掩码语言建模任务会随机掩码(mask)输入序列的词,并预测这些 词的值;下句预测任务则判断输入的两个句子的连接顺序是否正确。自编码语言模型利
