[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving
Multi-View 3D Object Detection Network for Autonomous Driving
该文提出了一种多模态的三维目标检测方法,在整合了视觉信息与雷达点云数据的基础上进行了创新性设计。与基于Voxel的传统方法相比,在采用了俯视图和平移图的数据后,在保证计算效率的同时也避免了过分依赖单一视角所带来的潜在局限性。随后构建了三维候选区域,并将特征与候选区域进行融合处理后输出最终的目标检测框。
作者的观点是利用LIDAR点云方法通常能够实现三维物体的位置信息的更高准确性,并且在二维目标检测方面表现出更强的能力。相比之下,在图像处理领域中针对二维目标进行评估所获得的结果往往具备更好的精度水平。
整体结构如图所示为多模态三维检测网络的主要组成单元:主要包括特征提取模块与信息融合模块。

下面对整个架构进行拆解
1)特征提取
a. 提取点云俯视图特征信息
俯视图由高度、强度、密度组成,投影到分辨率为0.1的二维网格中。
在每个网格中,在其对应的点云单元格中取其最高值来确定该网格的高度特征;为了提取更多细节信息并获得丰富的几何描述,在整个点云空间中将数据划分为M个子区域,并使每个子区域分别生成对应的高度图。
强度是每个单元格中有最大高度的点的映射值。
密度表示每个单元格中点的数目,为了归一化特征,被计算为:

设单元格内的点数为N。强度与密度相关的特征是从整个点云中提取的。相比之下,高度相关的特征是从每个M个切片中提取的。因此,在构建俯视图时会整合出一个包含(M + 2)个通道的特征表示。
b. 提取点云前视图特征信息
前视图提供了俯视图的额外信息。当激光点云呈现高度稀疏状态时,在二维投影中同样表现出高度稀疏特征。与此相反,在将该激光点云投射至圆柱面后会生成较为密集的前视图。假设3D坐标为

那么他的前视图坐标

可以通过如下式子计算

c. 提取图像特征信息
在VGG-16的基础上进行修改来作为图像特性提取器。
Channels数量减半,并去除了原始VGG架构中的第四个融合模块。在卷积运算过程中实施了8倍的空间降采样,在多视图融合模块中,并非仅保留原有的fc6和fc7层,在其中新增了一层全连接层fc8。

2)从点云俯视图特征信息中计算候选区域
使用俯视图进行候选区域计算原因有三:
当物体被投影到俯视图时,在维持其物理尺寸的同时实现了较低程度的变化率,在这种情况下(即前视图/图像平面),它不具备这样的特性。
2)在俯视图中,物体占据不同的空间,从而避免遮挡问题。
在道路场景中,在这种情况下(即:目标通常位于地面平面之上,并且其垂直方向上的变化范围较小),可以通过可靠的方式获得准确的3DBounding box

3)把候选区域分别与1)中a、b、c得到的特征进行整合
a. 把俯视图候选区域投影到前视图和图像中
从一个俯视图中获取信息的过程中, 网络利用一些预定义的3D prior boxes来生成候选框. 每个生成的3D候选框都会被参数化为特定的形式以供后续处理.

这些锚点都可以由

离散化后获得。通过这种思路,就可以得到前视图和图像中的锚点。
b. 经过ROI pooling整合成同一维度
目的是在融合之前要保证数据是同一维度。

4)把整合后的数据经过网络进行融合
作者尝试了三种融合方法,最终对比之后才选择了现在使用的这一种。


实验结果
基于KITTI数据集对MV3D网络进行评估。该数据集包含7481张图像用于训练任务和7518张图像用于测试任务。根据设定不同的IoU阈值来计算准确率。
与基于激光雷达的三维目标检测技术 VeloFCN、Vote3Deep 和 Vote3D 进行对比研究的基础上,在现有方法的基础上进一步优化算法性能并提出了一种新的三维目标检测方案
本文所提出的方法在所有IoU(包含IoU)阈值上均超越了现有方法中的3DOP与Mono3D算法;基于激光雷达的深度估计方法表现均超越基于立体视觉的深度估计方法(包括3DOP)以及单目视觉估计方法(Mono3D)。此外,在对比实验中发现所提方法同样超越了VeloFCN算法

相较于现有的两种先进方法(即基于立体视觉的方法3DOP和基于激光雷达的方法VeloFCN[16])而言,在实验结果中证明本文提出的方法不仅实现了物体三维位置、尺寸和方向的精确捕捉,并且在实验结果中展现了显著的优势。

补充知识
RPN 参考
RPN主要用于提取候选框,在这里一方面RPN计算时间较少,在另一方面它能够方便地融入Fast RCNN框架中,并形成一个完整的系统结构。
RPN的引入确实具有重要意义。可以说,在本质上它实现了将物体检测整个流程融入到了神经网络之中。这种网络结构被称作Faster RCNN,并且实际上是由RPN与Fast RCNN所组成

RPN位于Faster RCNN的中间部分
首先经过多组卷积运算生成公共特征图矩阵...假设该公共特征图的尺寸为N×16×16...随后进入RPN模块进行特征提取...首先应用一个3×3的卷积层输出得到257通道×...每个空间位置可被视为257维的特征向量集合...分别生成尺寸为...通过后处理模块整合信息最终输出候选框边界信息

ROI Pooling 参考
ROIs Pooling的本质是一种专门针对提取区域的兴趣点(Regions of Interest)进行池化操作的方法,在计算机视觉领域中具有重要的应用价值;它的一个显著特点在于能够在不同尺寸的输入图像上保持一致的输出尺寸;其核心作用就是对提取出的区域兴趣点图进行尺寸归一化的处理;由于在使用RPN(Region Proposal Network)之后通常会产生多个矩形边界框需求,在此过程中我们往往会面对多个ROI(Region of Interest)的存在;因此在这种情况下我们需要对每一个ROI分别执行池化操作以获得最终统一大小的结果
输入有两部分组成:
特征图:代表的是图1所示的特征图,在FastRCNN架构中该共有用性特征图紧接在RoIPooling操作之后,在FasterRCNN体系架构中则与Region Proposal Network(RPN)模块共享同一个共有用性特征图,并且这一共有用性特征图通常被称作"share_conv"。
在Fast RCNN框架中使用的是Selective Search算法生成的结果;而Faster RCNN则利用Region Proposal Network(RPN)生成多个矩形候选区域。这些候选区域由四个坐标参数(x,y宽度,高度)以及一个索引标识符组成。值得注意的是这些坐标参数是基于原始输入图像建立的空间位置信息而不是直接针对特征图进行计算
该系统采用批次处理的方式对输入数据进行向量表示;具体而言,该系统能够根据输入图像中的多个区域特征,自适应地提取相应的特征向量,其中每个向量的空间维度为通道数乘以宽度乘以高度;其本质是将不同尺寸的区域提取框均等化,并统一映射到相同尺寸(w×h)的空间区域
待补充知识
voxel
一批向量中每个batch对应一个RoI区域;每个vector的维度由channel乘以宽度w再乘以高度h决定;RoI Pooling过程即为将不同尺寸的小矩形框经过池化处理后均变为统一尺寸的小矩形框;
待补充知识
voxel
