Advertisement

强化学习自动驾驶论文阅读(二)

阅读量:

(一)paper传送门

Model-free Deep Reinforcement Learning for Urban Autonomous Driving

(二)背景知识

强化学习(RL)---------------------------《Reinforcement Learning:An Introduction》第二版
Soft Actor-Critic(SAC)--------------------https://www.jianshu.com/p/9708bb0676b2
Variational Auto-Encoder (VAE))-----------https://zhuanlan.zhihu.com/p/25401928
KL-divergence(KL散度)--------------
Carla(模拟器)--------------------------------https://carla.readthedocs.io/en/latest/

(三)摘要

本文提出了一种基于无模型 的强化学习框架。作者设计了一个特定的输入表示(Bird-View),使用可视化编码来捕获低维潜在状态。并在框架中实现了三种SOTA的RL算法:DDQN,TD3,SAC,并分别通过一些tricks提高了它们的性能,作者最后基于Carla模拟器,模拟城市自动驾驶中较难的具有密集车流的环岛路况。通过实验结果,对比了以上三种不同RL算法的效能,也证明了框架的有效性。

(四)内容

1 问题

直接在原始传感器(Carla模拟器部署的模拟器有相机、激光雷达等)输入上应用RL算法很难很好地解决城市自主驾驶问题,作者因此提出了一个框架来降低问题的复杂性,使其有可能被当前的model-free RL技术很好地解决。

2 主体

在这里插入图片描述
上图即为framework,其实很直觉的能看到作者的思路。

1> Bird-view Image

自动驾驶车辆最优策略的学习,输入端更关注的是对决策模块的有用信息,而不是纹理、光照等等这些冗余的环境信息,从Raw Sensor Data(原始数据) 到 Perception Module(目标检测及定位、道路信息等) 再到 Bird-view Image (Perception Module Pro --哈哈)。在这里插入图片描述
如图所示,作者用四种不同的颜色分别表示四种对象,很直觉吧。另外,有一个细节,作者这里面说越早时间步前的对象亮度越低(想法很丰满,可是现实很骨感)。

2> Latent Encoding

作者认为Bird-View对于策略学习还是一种高维的输入(学习困难、过拟合),因此采用变分自编码器(VAE)来学习低维潜在表示,有关VAE的学习可以看前面背景知识提到的博客,这里简单讲一下,VAE 模型是一种有趣的生成模型,与GAN相比,VAE 有更加完备的数学理论(引入了隐变量),理论推导更加显性,训练相对来说更加容易,VAE 可以从神经网络的角度或者概率图模型的角度来解释。对于本文,定义包括编码器和解码器参数的损失函数为:在这里插入图片描述
作者指出本文的隐藏变量服从高斯分布:在这里插入图片描述
作者给出结果:在这里插入图片描述
其中,第一行为原始输入,第二行为处理后的输出(区别不大,作者解释这样才是正确的。。。。)

3> RL Agent

作者在此简介了三种SOTA算法:DDQN,TD3,SAC(建议自行查阅相关知识,SAC我认为是一种目前最有效的model-free RL算法,推荐大家研究一下背景知识提到的那篇blog)。这里阐述作者关于奖励的设定和提到两点tricks。

<1> Rewards Design

复合奖励:在这里插入图片描述
其中,rv 是速度(当rv > 5时,惩罚 rv=10-rv), rα 是为了保持驾驶流畅性对转向角度的惩罚项:在这里插入图片描述
rc是自动驾驶车辆碰撞的惩罚项(碰撞时,rc = -10;其他, rc = 0),ro是自动驾驶车辆驶出道路的惩罚项(驶出2m时,ro = -1,其他,ro = 0),c是对自动驾驶车辆停止的惩罚项(c = -0.1)

<2> Frame Skip

意思就是说自动驾驶车辆 K 帧保持一个动作,这个很直观,如果不加限制那么训练复杂度会很高(就好比你想送女朋友一个口红,又想显得自己很厉害,就去玩商场的那个口红游戏,,排除后台搞鬼,到后面很快的时候,你也应接不暇),但是也不能慢(这个不用解释),作者这里设置中规中矩 K =4

<3> Exploration Strategies

对于DDQN,其实就是一种decay episilon-greedy。
对于TD3, 作者添加了一个具有特定方差的零均值高斯动作噪声:在这里插入图片描述
其中, δ = 0.5(加速时), δ = 1.0(转向时) 在这里插入图片描述
其中,t时当前训练步数,T是设置为100k步。在这里插入图片描述
其中,tp是单个探索步中的当前路径步数,Tp是最大路径长度,设置为500。在这里插入图片描述
其中, λp是周期系数。
对于SAC,根据最大熵的思想,探索已经很优秀。作者在此处无改进。

3 Carla 仿真在这里插入图片描述

(a)是模拟的示例视图,(b)是roundabout任务场景的bird-view。

1> Roundabout without Vehicles在这里插入图片描述

2> Roundabout with Dense Surrounding Vehicles在这里插入图片描述

3> Success Rate在这里插入图片描述

作者在DDQN、SAC和TD3三种模型上评估了环形交叉口方案的成功率,该值表示实验成功的百分比。

(五)结论

这篇文章同样来自加州大学伯克利分校机械工程学院,与强化学习自动驾驶论文阅读(一)是同样的作者。而且,这篇文章时间较前,全文重视实践,(毕竟是框架)更多的工作在感知层也就是observation states,虽然有些tricks,但在算法上并没有创新,不过将理论与实现结合本来就是挺有价值的,而且,代码开源!代码开源!代码开源!)

全部评论 (0)

还没有任何评论哟~