Advertisement

[论文笔记]Vision-Based Trajectory Planning via Imitation Learning for Autonomous Vehicles

阅读量:

Vision-Oriented Path Prediction Through Imitation Learning by Autonomous Vehicles

视觉信息驱动下的模拟学习型路径规划系统

在人类驾驶的过程中,一般会借助导航软件来确定行驶方向。例如下一个路口转向左。鉴于此现象本文建议,在高级驾驶指令下利用视觉模仿学习生成规划路径。

请添加图片描述

主要部分属于基于地图构建的方法。然而,在计算资源受限的情况下实现动态更新可能是不够完善的;这可能导致无法准确捕捉到环境的变化情况。此外, 该方法依赖于感知系统按照预设特征从原始输入中提取信息, 这使得其难以适应环境的变化

第二类有两个缺陷(i)车辆无法在交叉路口进行操作。转向错误可能是由于车辆缺乏高级导航指令的指引所致。(ii)行为策略仅限于基于专门收集的数据进行有效学习。

本文将视觉信息捕捉和状态数据编码到未来的轨迹中,在传统的架构中整合了感知层、行为决策层以及运动规划模块,并形成了一个完整的端到端的运动规划系统。

本文的主要工作由:

在模拟人类驾驶行为的基础上提出了一种创新性的无图学习规划方案。该方案在诸如十字路口等复杂情况中展现出良好的可靠性。

根据网络规划的轨迹,可以针对不同车辆设计不同的控制器。

相关工作

通过多种输入对不同类型的网络进行了测试,并包括一组灰度图像序列、历史运动轨迹以及完整的环境感知任务评估指标。这些模型均采用了模仿学习策略,并基于收集的真实驾驶数据进行了长时间(约7小时)的真实场景模拟训练。实验结果表明,在多数场景中,LSTM或基于CNN-LSTM架构的设计能够生成平滑且可行的道路保持路径规划方案;然而该网络不具备处理决策的能力,仅专注于车道保持任务本身的研究;此外,由于数据获取限制,未能充分考虑到与其他环境元素之间的相互作用

**Deep Path Planning Using Images and Object Data **

网络搭建:

基于历史数据的基础上进行分析,在网络输入中包含当前时刻前1.5秒内的驾驶场景数据集合中包含了k个图像片段与车辆运行状态信息相结合的形式。其中网络输入由当前时刻前1.5秒的驾驶数据构成,并且这些驾驶数据还包括车辆的位置坐标参数(横向坐标x轴方向的位置坐标参数以及纵向坐标z轴方向的位置坐标参数)以及速度参数v。

网络的输出是未来3s的无碰撞轨迹的位置。

输入命令来选用3个子网中的一个来执行不同的驾驶任务(直行、左转、右转)

请添加图片描述

三个子网分别用于提取输入图像的视觉特征并生成对应的三维空间分布信息;其中主子网负责生成一个大小分别为128\times 16\times 4的空间位置编码;辅助子网则生成一个64\times 4\times 4的空间位置编码;随后将两个空间位置编码进行拼接形成一个(64+64)\times 5\times 4的空间位置编码;该编码作为深度学习模型的一个关键中间表示并被进一步处理;最终经过LSTM网络处理后得到一个大小为5\times (5-0)的空间位置编码

请添加图片描述

该网络架构包含一个完整的图像处理模块,在此过程中图像数据通过四个卷积层逐步提取高阶特征。具体而言,在第一个卷积层中使用了7×7大小的卷积核并生成了16个特征通道;随后第二个卷积层采用6×6大小的滤波器并增加了32个通道;第三个卷积层则应用了5×5大小的滤波器并增加了48个通道;最后第四个卷积层同样使用了5×5大小的滤波器并生成了64个通道。各采样步长设置为1以保持均匀采样特性。经过三个全连接层后,最终得到一个128维的特征向量作为分类依据

对于LSTM模块,循环层数为3,隐藏的特征数目为512。

请添加图片描述

在每一个训练样本中,请注意:将trj_{gt}视为地面真实值,并将trj_{plan}视为模型预测值的基础上,请注意:我们定义损失函数如下

请添加图片描述

数据

数据源自 RobotCar 数据库,在此基础上被用于提取相机图像以及地面真实位置的数据。这些图像被用于实现视觉化和性能评估的目的,在每帧中将相邻时间段内的运动轨迹投射到相应区域上。经过筛选后得到的训练数据集中共有52,200张图像,并剔除了GPS信号质量不佳的相关序列段以保证所选样本的质量。在本研究中假设车辆不会因交通信号灯或路旁标志而临时停止行驶,在这种假设下讨论的问题情境下进行实验分析。其中训练、验证与测试的数据比例分别为35%、4%和11%。具体分布情况如附图所示

请添加图片描述

在每个图像中,在其对应的时间范围(前1.5秒+后3秒)内进行UTM坐标(即Universal Transverse Mercator坐标)与本地坐标系之间的转换,并将其转换为本地坐标系。随后将该结果记录到该图像上。这样就能得到一个持续4.5秒的车辆运动轨迹。

请添加图片描述

原始图像位于第一行;通过Mask R-CNN技术,在第二行中实现了目标检测;随后利用获取的二维边界框信息进行物体尺寸及朝向估计;接着通过PSM-Net网络计算图像的空间深度信息。

训练过程:Optimizer : Adam,Learning rate : 0.001, batch size : 32.

文中采用8个指标来评估网络的性能。

T:

DLJ(unitless jerk ):无量纲抖动性指标用于评估运动路径的光滑程度。当DLJ值越高时,表示运动路径越趋近于光滑。

请添加图片描述

IoU:根据车辆得宽度将每帧图像未来轨迹拓展为区域D,

请添加图片描述

E(speed):平均速度

E(l2):是平均位移误差

E(lateral):横向平均误差

E(longi):纵向平均误差

E(final disp):预计最终目标位置与真实最终目标位置误差

实验结果:

定量分析

请添加图片描述

在20分钟内各种模型的横向与纵向误差数据如下。从数据可以看出,在位置规划上CNN-LSTM + State模型相较于其他两种方法更为精准,并且尤其值得注意的是其在纵向方向的位置

请添加图片描述

定性分析

在第一列中,在GPS + INS数据与实际驾驶轨迹存在一定程度偏差的情况下,在CNN-LSTM + State模型下能够生成其轨迹更加光滑。

请添加图片描述

左转以及右转。

请添加图片描述

第二栏沿曲线行驶,在第三栏进行车道变换,在第五栏遇到前方有车辆时减速。

在本文的研究中,并未对交通信号灯的处理进行相关工作;此外,在不同天气状况及光照条件下路径规划的能力也没有得到充分考虑。

补充

Mask R-CNN

Mask RCNN借鉴了Faster RCNN的核心理念,在特征提取方面采用了基于ResNet-FPN的架构,并在此基础上增加了专门用于Mask预测的分支模块。

待补充。

Kai He, George Gkioxari, Pascal Dollár, and Ross Girshick, "Mask r-cnn," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2961–2969

Abdulla W., “用于物体检测和实例分割的mask r-cnn模型在keras和tensorflow平台上的实现”,发布于GitHub平台上的Mask R-CNN代码库(2017)

PSM-Net

引入了空间金字塔池化模块(spatial pyramid pooling,SPP)。

J.-R. Chang and Y.-S. Chen proposed the 'pyramid-based stereo matching architecture' in their work presented at the 'Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition' in 2018, with details spanning pages 5410 through 5418.

待补充。

As well as Y.-S. Chen's work, "Pyramid stereo matching network" appears in the IEEE proceedings from 2018, covering pages 5410 to 5418.

待补充。

全部评论 (0)

还没有任何评论哟~