Advertisement

[论文笔记]VTGNet A Vision-based Trajectory Generation Network for Autonomous Vehicles in Urban Environ

阅读量:

VTGNet is a Vision-based Motion Trajectory Generation Network for Autonomous Vehicles in Urban Environments

P. Cai, Y. Sun, Y. Chen, and M. Liu, “Vision-based trajectory planning via imitation learning for autonomous vehicles,” in 2019 IEEE Intelligent Transportation Systems Conference (ITSC), Oct 2019, pp. 2736–2742

同样来自Cai Peide的文章与之前一篇强化学习漂移由同一作者撰写,并同时是对上一篇文章的扩展版本。

本文阐述了一种模拟学习框架来实现不确定性的端到端轨迹生成方法。通过前置摄像头捕捉时空信息来进行场景语义解析,并规划出安全避让路径以避免碰撞危险。

大致内容

文章将自动驾驶的方法分为3类:

请添加图片描述

本文的主要贡献有:

开发一种模仿学习驱动的端到端网络架构。该系统接收输入包括前置相机获取的画面、不包含俯视图和环境信息的画面,并生成用于控制车辆行驶的行为序列。该网络模型中包含了自注意力机制的LSTM模块,并成功捕捉到了空间和时间维度的信息。

建议引入一个新的基准AddNoise以评估从偏离中线和方向偏差下的恢复性能

基于上述两个方面展开比较试验(在大型的数据集以及驾驶模拟器环境中);同时提供了开源代码资源[github.com/caipeide/VTGNet]以及用于研究的数据集链接[sharepoint链接]。

作者视其为未来研究的重要方向之一。

网络模型

请添加图片描述

基于MobileNet-V2设计的特征提取模块经过17次深度压缩的深度卷积层序列,在此过程中实现了对输入图像的空间精简表示。随后通过LSTM网络捕获空间-时间关系,并将最终输出结果分为两个独立的部分。每个部分均为二维向量形式(大小为22×3),其中一部分编码未来连续22帧的运动速度矢量及其在二维坐标系中的位置信息。另一部分则用于描述运动轨迹的不确定性分布情况。

VTGNet 分析过去12帧的连续图像,并整合其对应的车辆运动数据。该系统预期将在3秒内完成对整个场景的覆盖(共22帧)。

构造了三个子网,分别用于左转、右转、直行。

第一部分由基于MobileNet-V2的瓶颈卷积神经网络模块构成。第二部分是轨迹生成模块,它由一个用于加权的冗余历史信息的关注机制和一个用于处理空间-时间特征的长短期记忆单元模块组成。整个框架设计以过去1.5秒内的前向视图序列和运动序列作为输入,并使用意图命令在未来3秒内预测出可行的轨迹集合。

数据集上的实验

训练数据:Bumblebee XB3摄像头捕获前向视图图像并配合GPS/惯性传感器持续监测地面位置与车辆速度;同时为每个图像提供过去1.5秒至当前以及未来3秒的时间段内的车辆运动轨迹数据。

文中采用7个指标来评估网络的性能。

轨迹的平滑度Accel

平均速度和加速度 Ev Eacc

平均的位移误差Ead

横向和纵向误差 Ex Ey

最终的位移误差 Ef d

请添加图片描述
请添加图片描述

实验结果表明,在CNN-LSTM与CNNState-FC之间取得显著优势的同时,在CNN-FC基础上表现更为卓越,并且两者的误差规模相对较小。从结构特性来看,CNN-LSTM的优势主要体现在其在时空信息处理方面的明显优势上,这种差异源于循环神经网络结构(例如LSTM)相较于全连接层(FC layer)在捕捉时序关系方面的独特能力。进一步推测,在此过程中,LSTM模块能够有效地推断出各帧之间的环境变化趋势,从而在此基础之上进行模仿学习任务的表现优化。然而,全连接层面临的一个关键挑战在于,它难以直接从连续的视觉特征序列中提取具有实用价值的信息来生成未来的轨迹预测结果。另一方面,CNNState-FC体系的优势则体现在对运动历史数据的利用上,这种体系认为轨迹生成过程类似于人类的记忆功能,即通过状态记忆来模拟轨迹的变化规律.值得注意的是,位置信息与方向数据均为图像固有属性,CNN架构本身无法单独提取这些关键特征并用于生成精确的运动预测结果.因此,为了实现有效的轨迹预测,CNNState-FC体系需要结合外部运动历史数据作为补充输入.就大多数驾驶行为而言,其模仿学习能力与VTGNet高度契合,这正符合模仿学习的基本原则

五个具有代表性的场景中,VTGNet展示了定量分析结果;而这些场景均未包含在训练数据中,则可为模型的泛化能力提供定性评估。

总体而言,在各种光照和天气条件下都能实现无碰撞轨迹然而在RainyNight场景中因相机镜头表面存在雨滴该场景中出现的彩虹效应通常较为明显在这种情况下需要特别注意以避免潜在事故

另外,在进一步优化的基础上进行实验测试后发现,在移除了不确定性估计机制、取消了注意力机制,并将两个LSTM网络分别用于处理图像信息与运动序列的情况下进行测试时, 实验结果表明, 在这些简化条件下, VTGNet依然表现出色

Analysis: Compared to manual feature extractors, one of the advantages of CNN is their ability to automatically extract useful features from raw RGB images.

请添加图片描述

attention mechanism: 在转弯的过程中, 我们可以看到交叉口入口处(对应于时间步长为3的位置)的重要性更高, 这些区域捕捉到了周围环境更为细致的变化特征。相比之下, 当车辆沿着道路平稳行驶时, 早期捕捉到的数据并未携带额外的重要信息, 因此模型倾向于更加关注当前时刻附近的观测数据。

请添加图片描述

CARLA模拟器上的实验

基于Robotcar数据集训练而成的先前模型存在无法在偏离道路中心或偏离方向时恢复的情况。

为了提升系统性能, 我们首先在CARLA中收集了新的专家驾驶数据集, 并利用该数据集优化模型以实现领域自适应. 在CARLA模拟器中的Town01场景中, 设置了从300米至1500米的随机路线范围, 并以40公里/小时的速度匀速行驶车辆. 驾驶命令均由CARLA生成并发送给系统作为指令. 为了构建动态环境, 我们设置了晴天两次, 大雾天一次, 以及雨天两次. 由CARLA内部AI引擎控制动态行人与车辆的行为模式. 此外, 每隔6秒向车辆施加随机转向噪声指令并持续跟踪其恢复过程. 最终生成的数据集将运行16.6小时, 在此期间累计行驶里程达288.7公里

基准AddNoise 用于检测车辆偏离行驶路线或方向的失误,并衡量其恢复性能。我们每隔5秒施加随机转向噪声给测试车辆,并持续施加约0.2至1.0秒的时间。若测试车辆能够在规定时间内安全抵达目标位置并避免与任何障碍物碰撞,则认为该任务获得成功。通过计算任务的成功率来评估自动驾驶系统的性能

另外与最新的SOTA model基于视觉的端到端控制网络CILRS进行比较。

设计了PID控制器 ,将生成的轨迹转换为驾驶动作。

请添加图片描述

与CILRS++相比,在训练条件下 VTGNet 的性能略逊色于后者;但就新车和新地图而言,在适应性方面 VTGNet 显示出明显的优势。

补充知识

CILRS:待补充

F. Codevilla et al., "Investigating the boundaries of behavioral cloning in autonomous driving systems," within the Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9329–9338

MobileNet-V2:一种轻量化的卷积神经网络模型,在设计上实现了对原始结构的优化与简化,在保持原有性能的基础上提升了计算效率和资源利用率。该模型通过引入轻量化的操作层和优化后的参数配置,在保证分类精度的前提下显著降低了计算开销与内存占用

MobileNet-V1的主要优势在于通过深度可分离卷积有效地降低了计算复杂度和参数规模,在传统的网络架构中,并未引入捷联机制。ResNet、DenseNet等采用捷联机制的网络的成功案例表明了其显著的优势作用,因此在后续版本中MobileNet-V2成功地引入了捷联机制以进一步提升性能。

主要是两点:

  1. 在Depth-wise convolution的前部增加了一个扩展层;
  2. 最后选择使用Linear而非Relu, 其目的为避免Relu损坏特征。
请添加图片描述

ResNet主要通过卷积模块提取特征,并进行深度压缩;而MobileNetV2则基于Inverted residuals这一创新机制,在保证同样效果的前提下实现了网络参数的大幅缩减。

请添加图片描述

The paper by M. Sandler et al., titled "Mobilenetv2: Inverted residuals and linear bottlenecks," was published in the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition in 2018, covering pages 4510–4520.

Investigating recursive residuals and linear limitations in the context of recent advancements in computer vision systems, as presented at the IEEE Conference on Computer Vision and Pattern Recognition in 2018, spanning pages 4510 to 4520.

全部评论 (0)

还没有任何评论哟~