Advertisement

【论文笔记】--LiDAR-based Multi-Task Road Perception Network for Autonomous Vehicles

阅读量:

基于激光雷达的自动驾驶汽车多任务道路感知网络

摘要

对于自动驾驶汽车来说,在动态驾驶环境中实时获取综合的静态道路信息是其重要要求。对周围道路的综合感知应该包括对遮挡下的整个道路区域的准确检测,以及道路的三维几何和拓扑类型,以便于自动驾驶的实际应用。为此,我们提出了一种轻量级、高效的基于lidar的多任务道路感知网络(LMRoadNet),可以同时进行无遮挡道路分割、道路地面高度估计和道路拓扑识别。为了优化该网络,在公共SemanticKITTI数据集的基础上,半自动化地建立了相应的多任务数据集MultiRoad。具体地说,我们的网络体系结构使用道路分割为主要任务,剩下的两个任务集中1 / 4范围内直接解码功能映射来自主要任务的不同尺度和阶段特征图谱,从而大幅度减少整体网络的复杂性而达到高性能。此外,采用每个任务具有可学习权的损失函数对神经网络进行训练,有效地平衡了每个任务的损失,提高了单个任务的性能。

introduction

  • 了解自主车辆附近道路的布局和形状是安全自动驾驶的基础。全面感知周围的道路不仅包括道路区域的准确检测,但还包括全局语义信息的道路拓扑结构,如一个十字路口的存在和类型,因为它定义了场景,提供上下文信息和限制未来交通参与者的运动。此外,为了方便自动驾驶汽车的实际应用,道路的3D信息也是必要的,因为地面并不总是平坦的。
  • 在道路区域检测方面,自由空间道路检测和道路边界检测是两个比较热门的领域。自由空间道路检测方法侧重于车辆可以行驶的无障碍道路区域,而其表示形式在一定程度上混淆了静态道路区域和道路上的动态对象,这对于复杂的驾驶场景规划是不够的。
  • 道路边界通常用Bezier样条、三次样条等曲线来表示,这并不能描述交叉口等复杂的道路形状。另一方面,道路的三维信息是控制车辆的一个重要因素。一些研究者对道路的横向和纵向边坡进行了研究。其他则对用各种模型重建路面感兴趣。在全局层面,道路拓扑识别方法的目的是了解自我车辆正在接近的道路类型。
  • 近年来,基于视觉的方法已经显著受益于深度学习。然而,在真实的自动驾驶应用中,基于视觉的道路检测由于缺少3D信息而存在模糊性。为了解决这一问题,将激光雷达点云转换为前视图或俯视图表示,这些方法可以在保留三维信息的同时利用DCNN技术。此外,多任务深度学习因其具有提升单个任务性能和提高整个网络效率的潜力而引起了研究者的关注。除了参数共享机制外,多任务学习中最具挑战性的问题是如何平衡训练阶段各任务的减重。早期的工作总是使用单个任务损失的加权和,当损失权重没有正确选择时,甚至可能会降低性能。

为了应对上述挑战的道路感知问题,获取遮挡下的综合道路区域检测,以及3D信息和对道路类型的高度理解,我们提出了一个执行无遮挡道路分割(ORS)的多任务网络。密集道路地面高度估计(DHE)和道路拓扑识别(RTR)同时进行,如图1所示。提出的多任务网络LMRoadNet,采用激光雷达点云的俯视图表示。
主要内容:

  • 提出了一种轻量级、高效的多任务道路感知网络,可实时同时进行无遮挡道路分割、密集道路高度估计和道路拓扑识别,并对网络结构进行了精心设计,在准确性和运行时间之间取得了平衡。
  • 为了训练和测试网络,基于公共SemanticKITTI数据集,半自动化地建立了多任务道路感知数据集MultiRoad。
  • 提出了一种融合策略,将所提模型在不同方向上的结果进行融合,根据实际应用中驾驶场景的复杂性和车载计算能力灵活有效地扩展视场。

methodology

任务定义

第一个任务是无遮挡道路分割(ORS),目标是在遮挡下获得完整的道路面积。第二个任务是密集道路高度估计(DHE),它估计网格地图中每个道路单元的高度。第三个任务是理解道路形状的全局属性,即道路拓扑识别(RTR)。输入是非结构化点云的基于网格的俯视图表示。
在我们的工作中,对网格中的每个单元计算了5个基本统计,在这里插入图片描述Ni为点云数,zi分别为最大、平均、最低地面高度,Ii为第i个单元中的平均反射率,NG为网格中的单元数。
网络的输入在这里插入图片描述
ORS输出在这里插入图片描述
DHE输出在这里插入图片描述
RTR输出在这里插入图片描述
H表示网格的高度,W表示网格的宽度。

网络结构

考虑到效率和有效性的目的,提出的网络LMRoadNet旨在在准确性和运行时间之间取得最好的可能的平衡。由网络共同推理ORS、DHE和RTR任务。该体系结构包含一个编码器和一些特定任务的解码器,该体系结构在一个中间尺度的特征图上解码其他任务,该特征图来自一个主要任务的不同尺度和阶段的特征图,这大大减少了参数的数量和计算复杂度,同时保持了较高的精度。
在这里插入图片描述

无遮挡道路分割

在我们的工作中,选择ORS任务作为主要任务,主要有两个原因。一个是ORS任务在这个过程中提取更详细的特征。另一个原因是,其他两个任务与ORS任务高度相关,可以从ORS任务中受益。
为了使它更有效地捕获有用的特性,使用MixNet作为骨干,其基本组件是混合深度卷积(MixConv),它自然地在单个卷积中混合了多个内核大小,这样它可以轻松地捕获不同分辨率的不同模式。为了进一步降低计算复杂度,只使用MixNet的前4个阶段得到1/16比例尺的feature map。
为了完成基于主干线的ORS任务,我们提出了联合上采样模块(Joint Up-sampling Module, JUM),该模块对两个不同阶段的特征图进行上采样。前期分辨率大、通道少的feature map承载了足够的空间细节,后期分辨率小、通道多的feature map包含了context中必要的事实。因此,JUM利用详细的和全局的信息,不仅推断自由的道路细胞,而且还推断占用和堵塞的道路细胞。如图2所示,JUM将小尺度特征映射向上采样到大分辨率特征映射,然后生成1×1卷积层。更大分辨率的特征映射在两个分支连接在一起之前需要一个1×1卷积。然后使用挤压和激励块(SE)[32]自适应地重新校准通道特征响应,明确建模通道之间的相互依赖,然后是两个3×3卷积层。JPU采用级联的方式获取1/2比例尺的feature map,最后使用反褶积层将feature转换为原始分辨率。

密集道路高度预测

为了有效利用主任务的特征,DHE任务对来自特征共享模块(FSM)的连接特征进行高度估计,该模块融合了主任务不同尺度和阶段的特征,可以为其他任务提供合适的特征。因此,只有适当的简单解码器才能获得每个单元高度的准确估计。如图2所示,特征共享模块由四个输入F1、F2、F3、F4组成。F1和F2为编码器阶段的1/4和1/16尺度特征,F3为解码器阶段的1/4尺度特征,F4为最终预测的道路分割掩码。对于不相同分辨率的特征,在拼接前经过适当的操作将其转换为1/4尺度,如F2采用上采样和1×1卷积,F4采用max-pooling。DHE解码器首先使用1×1卷积层来捕获更多与任务相关的有用特征,然后将特征上采样到原始分辨率。最后,应用两个分别为32和1通道的1×1卷积层,得到高度估计结果。

道路拓扑识别

RTR任务与DHE任务共享相同的特性共享模块。首先采用1×1卷积层提取任务相关特征,然后采用平均池化层,再采用两个1×1卷积层作为全卷积层,得到道路拓扑类型的预测。最终输出通道为7条,根据道路拓扑的类数。

损失函数

对于ORS和RTR任务,我们在像素级和图像级分类任务中使用了交叉熵损失,分别表示为Lors和Lrtr,在DHE任务中,L1损失应用于道路区域,在训练阶段忽略非道路区域,损失参考Ldhe
在这里插入图片描述N是属于道路区域的有效单元格,p为预测高度,q为地面真实高度,i为网格中的单元指数。
对于多任务学习,在联合训练网络时,要适当平衡各任务的损失,以获得总的损失。通常情况下,总损失是每个任务损失的加权线性和,即本文中的固定损失权重策略。然而,手动搜索最优权重是昂贵和困难的。因此,在我们的工作中,我们将每个任务的损失权重加到可学习网络参数中,以避免由于可能被零除法而导致的梯度爆炸,我们的网络预测的是S = log𝜎2而不是实际的σ,总损失定义为(4),并应用于可学习损失减重策略。在实践中,RTR任务的loss weight不像其他两个任务收敛,因为RTR任务是全局分类任务,需要在其他任务之后进行优化。但是,由于RTR任务在最后一个训练阶段损失权重的快速变化会影响到其他任务的准确性,所以我们对最后几个阶段的任务进行权重固定,使得训练结果更加稳健。
在这里插入图片描述

数据集说明

构建数据集

为了训练和测试我们的算法,我们基于SemanticKITTI数据集构建了一个多任务数据集MultiRoad,它允许使用多个顺序扫描语义场景解释,如语义分割和语义场景完成。标记的点云以10hz的频率顺序记录。它允许使用时间信息进行语义场景理解和多次扫描的信息聚合。
为了充分利用卷积自然网络在计算机视觉领域的强大功能,我们将其转化为基于网格的俯视图表示,而不是非结构化的点云。步骤的第一步是在激光雷达的x-y平面上创建一个网格,并将点云的每个元素分配到它的一个单元。网格所覆盖的区域宽30米,y∈[-15,15],长46米,x∈[0,46];它的细胞是0.10 ×0.10米大小的平方。然后计算每个网格单元的一些基本统计信息:点的数量;意味着反射率;单元格中点的最小、平均和最大高度。最后,将网格单元作为像素查看,生成5张图像,分别对应上述统计数据。给定所选的单元格大小和网格范围,这些俯视图图像的分辨率为460×300像素。
我们以20帧为间隔对样品进行标记。当使用聚合的多个扫描生成时,网格中只有几个空单元格不包含任何点。对于ORS任务的注释,过程注释是从所选扫描帧周围的聚合多个扫描中获得的。包含道路类点的单元格分配给道路类,其他单元格分配给非道路类。然后,我们通过补充空的道路单元(不包含任何点的道路单元)和占用的道路单元(被道路上对象遮挡的道路单元),手动细化道路分割注释。

全部评论 (0)

还没有任何评论哟~