Advertisement

[论文笔记]Agile Autonomous Driving using End-to-End Deep Imitation Learning

阅读量:

Agile Autonomous Driving using End-to-End Deep Imitation Learning

2018_RSS

基于实践经验而言,在线模仿学习训练策略相较于批量模仿学习训练策略,在克服协变量偏移带来的挑战方面表现出色,并显示出更强的概括能力

传统技术:基于计划的执行法 被认为具有挑战性 因为其主要困难在于难以充分描述机器与环境之间的相互作用

该无人驾驶汽车完全不依赖任何形式的状态估计器或实时规划系统,并且能够直接接收来自低成本单目摄像头和车轮转速传感器的数据输入。在正常行驶中的平均速度达到6米每秒,在紧急情况下可将车速提升至最大行驶速度达到8米每秒(相当于全尺寸车辆能达到108公里/小时与144公里/小时的速度)。

该方法的一些局限性在于计算开销巨大且优化过程必须实时处理以保证频率,在完成轨道导航任务的过程中会导致频繁重复操作以完成目标。此外需要高度精确的GPS和IMU数据作为状态反馈才能确保系统的可靠性

采用逆向学习技术进行自动驾驶时,则面临一个关键挑战:当专家为人类时,在实际公路驾驶任务中实施所需的假设就显得难以满足。特别是在越野驾驶任务中,则更为突出——这是因为人类驾驶员往往依赖于车辆的即时反馈机制来克服随机干扰的影响。因此,在这种情况下,默认采用逐帧标注方法[26]可能会导致一种非常违背直觉、效率低下的方式来进行数据采集过程——因为这种做法会导致动态信息在单个图像帧内被割裂开来而无法完整记录下来。综上所述,在利用人工演示进行在线逆向学习时(如文献[14]所指出的),其效果可能与批量式逆向学习相当糟糕……这主要是由于人为因素所导致的一致性问题所引发的结果。

batch IL and online IL

总体上而言,在线IL和批处理IL算法训练的DNN架构能达到与MPC专家相当的速度水平。
即使在相同的训练数据量下,
采用在线IL的方法通常能表现出更好的效率。
其完成率及模仿损失的表现更为卓越。

训练采集:

batch IL :MPC expert( 图像数据、车速、转向、油门)

online IL 是一种基于专家与学习者策略混合的在线强化学习方法。(图像数据包括帧率(帧率)、速度(速度)、油门位置(油门)以及转向角度(转向)。)

请添加图片描述

β=0.6

请添加图片描述

adam for 20 epochs

batch size 64

learning rate 0.001

全连接层间使用 dropout 第一层 0.5 其余0.25

请添加图片描述

在Batch Imitation Learning(IL)中,在专家的状态-动作空间中并未遇到此情形因而无法应对此次crash;而在Online Imitation Learning(IL)中,则成功学习了此类端到端的情况

就整体情况来看,在采用在线增量学习(Online IL)与批量增量学习(Batch IL)方法进行深度神经网络(DNN)策略训练时,其收敛速度与MPC方法具有相近的学习效率。然而,在基于相同的训练数据集进行评估时,通过在线增量学习方法所获得的性能表现相较于批量增量学习方法更为突出。

相较于传统的人工设计特征提取器而言,DNN策略的一个显著特点是可以自主识别图像的基础和复杂特征。

文中还强调了综合考虑了速度信息在训练数据中,并非仅仅依赖于车辆转向数据。这将有助于提升其预测精度。

思考:本文考虑MPC方法的高计算量以及高精度传感器代价,使用IL的方法来做一个轻量级的自动驾驶决策方案。对比了 Batch IL和 Online IL,主要区别就是一个的训练数据全部由专家提供,另一个的训练数据结合专家数据和学习过程时的采集数据,按照0.6的比例进行迭代。这种训练方法和强化学习有一些神似,虽然没有给定明确的价值函数和状态方程,但是还是通过假定的优化策略,在上一步决策出现非最优时学习下一步相对更优的决策。而不是面对Crash时无从应对,从迭代过程中逐渐学习Crash的应对方法。但是这些方法的表现上限还是MPC,文中还有一个思路就是以后面对DNN的端到端决策将横向控制和纵向控制通通交给DNN去做,可能会有更好的效果。

部分引用论文分类

高速越野自动驾驶:

Jeffrey Michels, Ashutosh Saxena, and Andrew Y Ng. High-speed obstacle-avoidance techniques using single-camera vision and reinforcement learning algorithms. In International Machine Learning Conference, pages 593–600, Year 2005

MPC方法:

Grady Williams, Paul Drews, Brian Goldfain, James M Rehg, and Evangelos A Theodorou. 激进驾驶采用模型预测路径积分控制方法。IEEE国际机器人自动化大会Proceedings上,在2016年会论文集中占据了第1433到1440页。

Grady Williams, Nolan Wagener, Brian Goldfain, Paul Drews, James M Rehg, Byron Boots, and Evangelos A Theodorou. An information-theoretic approach to model predictive control in the context of model-based reinforcement learning. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 1714–1721. IEEE, 2017.

模仿学习

Mariusz Bojarski et al., End-to-end learning represents a significant step toward achieving fully autonomous motor vehicles. This research was published as an arXiv preprint with the identifier arXiv:1604.07316 in 2016.

The research team designed an advanced methodology incorporating a deep neural network to develop a policy enabling comprehensive control in the field of autonomous vehicles. This study was featured at the IEEE American Control Conference in 2017.

视觉

Paul Drews, Grady Williams, Brian Goldfain, Evangelos A Theodorou, and James M Rehg. Ambitious deep autonomous navigation: Model-based predictive control using a convolutional neural network (CNN) as the cost function.发布于 arXiv 的预印本(编号 arXIV:1707.05303),2017年.

方法1:

由于路线指定,考虑全程有GPS信号,使用 IL的方法

可参考

Agile Autonomous Driving using End-to-End Deep Imitation Learning

End to end learning for self-driving cars

方法2:

使用 RL的方法(对仿真环境或真实交互的要求较严格)

可参考

End-to-End Race Driving with Deep Reinforcement Learning

方法3:

传统方法+MPC

可参考

基于学习的模型预测控制:致力于安全学习在控制中的应用

Efficient Road Lane Marking Detection with Deep Learning

Predictive Control:Toward Safe Learning in Control**

Efficient Road Lane Marking Detection with Deep Learning

全部评论 (0)

还没有任何评论哟~