强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey
这篇文章讨论了强化学习在自动驾驶中的应用,指出监督学习不适合自动驾驶任务,因为其需要处理动态环境和随机性。文章介绍了自动驾驶的感知模块、控制器、强化学习的基础概念及其在路径优化、高级驾驶策略开发等方面的应用。此外,文章提到现有的自动驾驶任务及其奖励函数设计的挑战,并探讨了多智能体强化学习在自动驾驶安全策略中的潜力。未来,多智能体强化学习在自动驾驶领域的应用前景广阔。
近来一直关注着基于深度学习的运动轨迹预测技术,资深同行小李提到或许可以尝试强化学习的方法,于是本人深入研读了21年的《Deep Reinforcement Learning for Autonomous Driving: A Survey》这篇文章。在分享文章内容的同时,本人也简单梳理了其核心观点,希望能为后续工作提供参考,同时也希望能为同样从事自动驾驶研究的同行提供帮助。
原文链接:https://ieeexplore.ieee.org/document/9351818
监督学习不适合自动驾驶任务
机器学习主要包含监督学习、非监督学习以及强化学习(RL)。在自动驾驶研究中,我们需要解决一系列决策问题,而最优决策对应于强化学习中的策略。相比之下,监督学习不适合这类研究,原因在于:
- 智能体的行为预测导致传感器接收到的观察结果发生了变化;
- 碰撞时间等参数在动态环境中是不确定的。为了应对这种情况,必须通过最大化随机代价函数来实现有效的处理;
- 学习的环境时刻变化无常。对于某些任务,如驾驶操作,为了在每一刻都做出最优决策,必须持续关注并学习环境的新配置。
自动驾驶的感知模块(perception module)
- 车道位置;
- 可行驶区域;
- 车辆、行人;
- 交通灯状态。
这些信息属于中级抽象层次的表示,通过 Scene Understanding 生成高级动作或决策模块。这一过程包含场景理解、决策以及规划,这一过程往往整合了激光雷达、相机以及雷达所获取的各类信息。
自动驾驶的控制器
该控制器采用经典最优控制理论作为基础。通过预先生成的地图数据和资深驾驶员的行驶数据,该控制器能够计算出路径上每个点所需的速度、转向角度和制动动作。
强化学习的一些基础概念
一个奖励函数 r 用于评估智能体(agent)的表现程度;通过ε-greedy和softmax方法实现策略平衡,以探索未知领域;马尔可夫决策过程(MDPs)用于解决单个智能体的动态决策序列问题。
强化学习方法可应用于自动驾驶领域的控制器优化、路径优化、高级驾驶策略的开发,以及交叉口合并与分割策略的学习。深度强化学习(DRL)包含状态空间、动作空间以及奖励机制。在自动驾驶领域,状态空间包括车辆自身的位置、方向和速度,以及其他潜在的障碍物信息。
已有的自动驾驶(AD)任务
- 车道保持;
- 车道改变;
- 斜坡合并;
- 超车;
- 十字路口;
- 运动规划。
构建自动驾驶系统的奖励机制仍然是一个极具挑战性的任务,该机制主要受到速度、人行道等因素的影响。
自动驾驶安全政策
针对失去控制的不可见障碍物,已有系统会自动做出反应。外在奖励信号由专家提供,而内部分泌物则代表预测的误差。通过多智能体强化学习(MARL)构建自动驾驶安全策略,可以应用于平衡高速公路上的超车行为,通过信号灯控制缺失的无信号交叉路口等。
未来挑战
作者认为多智能体在自动驾驶领域会有更大的发展空间。
