Advertisement

论文翻译:Multi-View 3D Object Detection Network for Autonomous Driving

阅读量:

来源:CVPR2017

Abstract

本文针对自动驾驶场景中的高精度三维物体检测。我们提出了多视点三维网络(MV3D),这是一个感知融合框架,将LIDAR点云和RGB图像作为输入,并预测定向的3D边界框。我们用紧凑的多视图表示编码稀疏三维点云。网络由两个子网组成:一个用于三维物体建议生成,另一个用于多视点特征融合。提议网络从3D点云的鸟瞰图表示中有效地生成3D候选框。我们设计了一种深度融合方案,将多个视图中的区域特征相结合,并实现不同路径中间层之间的交互。在具有挑战性的KITTI基准测试中进行的实验表明,我们的方法在三维定位和三维检测任务方面胜过了最先进的约25%和30%的AP。另外,对于二维检测,我们的方法比基于LIDAR的方法中的硬数据获得高14.9%的AP。

1. Introduction

三维物体检测在自主驾驶汽车的视觉感知系统中起着重要的作用。现代自驾车通常配备有多个传感器,例如LIDAR和相机。激光扫描仪具有准确的深度信息的优点,而相机保存更多更详细的语义信息。 LIDAR点云与RGB图像的融合应该能够实现更高的自驾车性能和安全性。

本文的重点是利用激光雷达和图像数据进行三维物体检测。我们的目标是在道路场景中对物体进行高度精确的3D定位和识别。最近的基于LIDAR的方法在三维体素网格中放置三维窗口来对点云进行评分[25,6],或者在密集箱体预测方案中将卷积网络应用到前视点图上[16]。基于图像的方法[4,3]通常首先生成三维框提议,然后使用快速RCNN [9]管道执行基于区域的识别。基于LIDAR点云的方法通常可以获得更精确的三维位置,而基于图像的方法在二维盒子评估方面具有更高的精度。 [10,7]结合激光雷达和图像进行二维检测采用早期或晚期融合方案。然而,对于三维物体检测这一更具挑战性的任务来说,需要一个设计良好的模型来利用多种形式的强度。

在本文中,我们提出了一个以多模态数据为输入,预测三维空间中物体的全3D范围的多视点三维物体检测网络(MV3D)。利用多模态信息的主要思想是进行基于区域的特征融合。我们首先提出了一种多视图编码方案,以获得稀疏的三维点云的紧凑和有效的表示。如图1所示,多视点三维检测网络由两部分组成:三维提议网络和区域融合网络。 3D建议网络利用点云的鸟瞰图表示来生成高度准确的3D候选框。 3D对象提议的好处是可以投影到3D空间中的任何视图。多视图融合网络通过将3D提议投影到来自多个视图的特征地图来提取区域特征。我们设计了一种深度融合的方法,以实现不同视图的中间层的交互。结合掉落路径训练[14]和辅助损失,我们的方法在早期/晚期融合方案中表现出优越的性能。给定多视图特征表示,网络执行面向3D盒回归,预测3D空间中对象的精确3D位置,大小和方向。

我们在具有挑战性的KITTI [8]对象检测基准测试中评估我们的3D建议生成,3D定位,3D检测和2D检测任务的方法。 实验表明,我们的3D建议明显优于最新的3D建议方法3DOP [4]和Mono3D [3]。 特别是,只有300个提案,我们分别在0.25和0.5交并比(IoU)门限分别获得99.1%和91%的3D召回率。 基于LIDAR的我们的方法变体在三维物体检测任务中实现了大约25%的3D精确度定位,3D平均精度(AP)提高了30%。 在KITTI的硬测试集上,它也比其他所有基于LIDAR的方法在14.9%的AP上进行二维检测的性能都要好。 与图像结合后,基于LIDAR的结果将得到进一步改进。

我们简要回顾了基于点云和图像三维物体检测,多模态融合方法和三维物体建议的现有工作。

点云中的三维物体检测。 大多数现有的方法用三维像素网格表示来编码三维点云。 滑动形状[21]和Vote3D [25]将SVM分类器应用于具有几何特征编码的3D网格。 最近提出的一些方法[22,6,15]改进了3D卷积网络的特征表示,然而这需要昂贵的计算。 除了三维体素表示,VeloFCN [16]将点云投影到前视图,获得二维点图。 他们在2D点图上应用完全卷积网络,并从卷积特征映射密集地预测3D盒子。 [23,17,11]研究三维物体分类的点云的体积和多视图表示。 在这项工作中,我们编码三维点云与多视图功能图,使基于区域的表示多模态融合。

图像中的三维物体检测。 3DVP [27]引入了三维体素模式,并使用一组ACF检测器来进行二维检测和三维姿态估计。 3DOP [4]从立体图像重建深度,并使用能量最小化方法来生成3D盒提案,这些提议被馈送到RCNN [9]管道进行目标识别。 虽然Mono3D [3]与3DOP共享相同的流水线,但是它会从单眼图像生成3D建议。 [30,31]使用三维线框模型引入了对象的详细几何表示。 为了结合时间信息,一些工作[5,20]结合运动和地面估计的结构,将二维检测框提升到三维边界框。 基于图像的方法通常依赖于准确的深度估计或地标检测。 我们的工作展示了如何结合LIDAR点云来改善3D定位。

多模式融合 在自主驾驶环境中,只有少数几种利用多种数据模式的工作。 [10]结合图像,深度和光流使用专家混合专家框架二维行人检测。 [7]融合早期阶段的RGB和深度图像,并训练基于姿态的二维检测分类器。 在本文中,我们设计了一个深度融合的方法,受FractalNet [14]和DeeplyFused Net [26]的启发。 在FractalNet中,迭代地重复基础模块以构建具有指数增长路径的网络。 同样,[26]通过结合浅层和深层子网络构建深度融合的网络。 我们的网络与他们的不同之处在于,为每一列使用相同的基础网络,并为正则化增加了辅助路径和损失。

3D对象建议 类似于2D对象提议[24,32,2],3D对象提议方法会生成一个小的3D候选对象框,以覆盖3D空间中的大部分对象。 为此,3DOP [4]设计了立体点云中的一些深度特征来对大量的3D候选框进行评分。 Mono3D [3]先利用地平面,并利用一些分割特征从单个图像生成3D建议。 3DOP和Mono3D都使用手工绘制的功能。 Deep Sliding Shapes [22]利用更强大的深度学习功能。 然而,它在3D体素网格上运行,并使用计算上昂贵的3D卷积。 我们提出了一种更有效的方法,通过引入点云的鸟瞰视图表示,并采用2D卷积生成精确的3D建议。

全部评论 (0)

还没有任何评论哟~