Advertisement

【自动驾驶行为决策研究趋势 】

阅读量:

1驾驶行为决策

定义:

该系统中的"决策"包含根据感知模块识别并解析出来的环境数据(如无人车的位置、速度、方向等信息)。这些数据将被传递至"行为决策层"以制定无人车的操作策略,并最终引导汽车完成预定目标。此外,在系统架构中,"驾驶行为规划"这一术语也被广泛使用,它通常指的是如何在复杂的交通环境中实现安全且高效的行驶路径设计.这个层级结构确保了从高层次的战略计划到低层次的具体操作之间的有效协调.

作用:

驾驶行为决策层的主要作用是依据上层(任务规划层)规划的全局最优行驶路线轨迹,并以确定自身的当前驾驶状态为目标,在遵守交通规则和利用驾驶经验的基础上合理规划自己的行为模式。

决策依据的信息:

所有的路由寻径结果(为到达目的地需要进入的车道)

当前位置及动态信息包括方位信息、运行速度参数、行驶方向数据、所在车道参数信息以及根据导航路径指示需转换的车道信息。

历史信息(上一个决策周期无人车所做的决策:跟车、停车、转弯、换道)

周边障碍物信息包括行人的移动速度、他们在所在位置的行为趋势以及运动路径预测。

周边交通标识信息

当地交通规则(道路限速、是否可以红灯右拐等)

包含主要动作:

加速、减速、向左换道、向右换道、左转向、右转向、超车、跟随、停车

权重分配,过程观察过程中形成决定

设计理念及要求:

合理性、实时性、尽快到达目标地点、保证乘客安全

合理性:符合规范要求与实践经验(其中以遵守交通法规的优先级为高)。具体表现为:避免不必要的车道变更,在前车速度较慢且允许的情况下,则可迅速超车(即不开越线超车)。

发展趋势:

背景:

需要考虑不同类型的多类信息以及受到高度本地化的交通法规的限制,在行为决策问题中,通常无法仅凭单一数学模型来解释。更适宜采用基于一些固定规则的系统来处理。

传统方法:

Cost设计和有限状态机(Finite State Machine)

根据规则与预设的阈值决定行为的触发,例如换道

规则引擎与行为模型的结合

基于Divide and Conquer的思想进行Divide and Conqu策略下的行为决策过程的实现

基于分治原则将无人车周围的环境区域划分为若干子区域。对于每一个独立划分出的区域,在其中分别应用相应的规则来计算无人车在该区域内的决策行为。将各个区域中的决策结果汇总起来形成一个统一的行为策略框架;在此框架下确定执行优先级最高的策略,并如停车这样的操作。从各个独立区域中的个体决策出发,在全面评估的基础上整合出一个全局性的统一策略;随后依据该统一策略制定具体的行动方案。从各个独立区域中的个体决策出发,在全面评估的基础上整合出一个全局性的统一策略;随后依据该统一策略制定具体的行动方案。从各个独立区域中的个体决策出发,在全面评估的基础上整合出一个全局性的统一策略;随后依据该统一策略制定具体的行动方案。多输入/输出系统的解耦与离散化处理则采用因果推理的方法实现

分解为个体决策,但无法用序列描述,两车相遇

可解释性

识别标签

场景识别精确,精度越高

个体决策既是最后综合决策的构成元素,同时也传递到下游的动作规划模块。

多个具有相对独立性且独特性的无人车周边环境被划分为多个区域。对于每一个场景实体而言,在其内部环境中利用交通法规结合车主意图计算出各个信息元素的具体决策结果,并进一步运用一套完善的准则体系和必要的数学运算方法将各个体决策结果整合输出到后续环节。

潜在风险:在不同情况下同一个物体可能通过各自的独立计算逻辑导致冲突的结果

解决方案:规则制定考虑到,场景划分更明确,利用决策汇总规则进行处理

1.2.1基于规则的系统

缺点:缺乏灵活性,很难对所有突发情况面面俱到

当前解决方案:利用无人驾驶模拟器对决策模块进行测试与训练。开发一套能模仿真实场景、涵盖多种突发情况,并与现实汽车系统无缝对接的仿真平台(无人驾驶技术的研发仍面临诸多挑战)

1.2.1.1有限状态机(Finite-State Machine, FSM)

有限状态机仅在特定外部输入下会产生有限数量的反应。
它能够构建的数量是有限的,在这些状态下,
外部输入将使机器从当前的一个状态转移到另一个状态。

有限状态机通常包含元素:

输入域(基于有限状态机可能接收的所有信号)、输出域(FSM能够呈现的所有反应结果)这一领域是有限的,并且可能是空集)、内部的状态转移机制(通常以有向图的形式进行描述)、固定起始状态(无需任何触发条件,默认启动的状态)、终止状态集

FSM分类:

确定型(Deterministic)(每个状态对可能输入只有一个精确转移)

非确定型自动机(Non-Deterministic Finite Automaton, NDFA)是指,在给定状态下对某个输入符号序列能够有零个或多个状态转移的情况。

FSM缺点:

当系统面临海量状态时,在这种情况下Finite State Machine (FSM)体系将会迅速膨胀并产生高度复杂化的状态机架构

可维护性较低:当增删一个状态时会对其相关联的状态产生影响,并导致状态机大规模更改时出现困难

可扩展性差:存在大量状态时有向图可读性差

复用性差:几乎不可能在多个项目中使用相同的FSM

1.2.1.2分层有限状态机(Hierarchical Finite-State Machine, HFSM)

定义:将同一类别的多个状态机组成一个子自动机构保有这些子自动机构通过构建一个大型自动机构保有这些子自动机构

优点:

HFSM无需为每一个单独的状态与其他所有状态建立各自的过渡规则;因为将各个状态进行分类后会形成统一的模式;不同类别之间的状态转换可以通过继承这种统一的模式来进行。

Idea:可以类比为因果图和多层因果图

进阶方法:

使用Bayesian模型对无人车进行建模。

基于强化学习的方法-将强化学习应用于自动驾驶

强化学习是一种基于与环境之间的频繁互动而积累经验的技术,并在此过程中学会一套完整的策略。具体来说, 智能体如何在环境中给予的奖励或惩罚的信息引导下, 逐步形成对这些信息的习惯性反应; 并根据这些信息建立策略以最大化预期奖励。

马尔可夫决策过程的方法:

强化学习的核心机制涉及对序列决策问题的处理,在动态过程中逐步掌握各个状态间的相互关系。从而形成一套最优化的行为准则。这种处理思路与马尔可夫决策过程所面临的挑战具有一定的相似性。

马尔科夫性:指系统的下一个状态仅与当前状态有关

马尔可夫过程被定义为由有序对(S,P)构成的一个数学模型,在此模型中S代表有限的状态集合而P则代表各状态下转移到其他状态的概率分布表。当提供状态转移概率矩阵时,则能够确定从初始态经过一系列转移后到达终态的所有可能路径;每一条路径都完整地描述了一个特定的马尔科夫过程行为模式。然而由于缺乏行为机制和奖励系统,在Start到End之间寻求最优路径成为了一个典型的序列决策问题。

当前关注的无人驾驶车辆行为建模方法中包含两种核心技术:马尔可夫决策过程(Markov Decision Process)以及其扩展形式——部分可观察的马尔科夫决策过程(Partially Observable Markov Decision Process),后者特别适用于系统状态不完全可观测的情况

学术界主流:MDP类的非决定性(non-deterministic)概率模型

业界主流:遵循一定规则下的可预测行为决策系统,在安全性和可靠性方面具有显著优势

基于强化学习的方法

深度Q值网络(Deep Q Network,DQN)算法:Q-learning方法

利用神经网路近似强化学习

Q-learning算法:

一种基于无模型方法的强化学习技术具有显著优势

深度确定性策略梯度(DDPG,Deep Deterministic PolicyGardient)算法:

主要运用了DQN算法的经验回放机制和目标网络两个关键思想来减少强化学习在数据采集过程中的相关性。通过Actor-Critic框架来进行学习(即演员-评论家框架中,在舞台上的演员通过动作展示给自己和其他评论者看,并根据他们的反馈不断优化自己的表现能力)。这种方法允许演员根据不同的情况采取不同的策略以适应环境的变化,并且能够有效地进行价值逼近以优化决策过程。针对不同目标可以选择非策略型方法(off-policy),即演员会采取随机策略去探索环境;或者使用Critic网络来进行价值逼近以提升决策质量

有限状态马尔可夫决策过程

一个马尔可夫决策过程,由(S,A,P,R,
𝛾
𝛾

)五元组定义:

S被定义为一个有限的状态集合。无人车辆处于的一个有限的状态空间中,在该空间划分子区域的过程可参考其当前位置信息以及其所在环境的地图数据来进行规划。例如,在位置维度上根据当前所在的位置信息将其划分为等距网格区域

定义1:有限动作集

P表示状态转移概率。它是一个条件概率模型,在无人车处于状态s并采取动作a时会计算到达下一个状态s’的概率。

R:奖励函数(回报函数),它表示无人车处于状态a时,在状态转移从s到s’的过程中所获得的奖励值。设计该奖励函数时需考虑以下几点:一是确保系统的安全性;二是保证行驶过程中的舒适性;三是合理评估后续动作规划执行的难度系数

𝛾
𝛾

在RL算法中定义了一个重要参数——奖励衰减因子(也称为折扣因子γ),它用于计算累积回报值。具体而言,在每一步动作后, 未来的奖励会随着时间推移而按该因素逐步递减以减少其重要性. 当t时刻采取某一动作后的即时奖励rt+1会被乘以γ^t来折现未来奖励的影响.

,下两个时刻激励系数为
𝛾∗𝛾
𝛾∗𝛾

,以此类推。其含义是当前激励总比未来的激励重要

无人车行为学问题的本质是从有限状态空间S到决策空间A的最优策略定义问题,在任一状态S下直接产生对应的行为a;当最优策略被选定后,在MDP运行时其状态转移规律将形成一个马尔可夫链;而行为决策策略的选择目标则是通过优化当前时刻起长期累积奖励实现系统性能的最大化

全部评论 (0)

还没有任何评论哟~