Advertisement

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

阅读量:

论文:
在3D点云中准确检测物体是实现自主导航、客房服务机器人以及增强/虚拟现实应用的核心问题。为了建立LiDAR点云与区域提议网络(RPN)的有效接口,在现有研究中大多依赖人工设计的特征表示方案,例如基于鸟瞰图的空间分割方法。在此研究中,我们去除了对3D点云进行人工特征工程的需求,并提出了一种全新的VoxelNet架构。该架构通过创新性的体素特征编码(VFE)层,在此过程中将单个体素内的多点数据转化为统一且具有表达力的特征描述。随后我们将该处理过程与RPN框架结合在一起形成一个端到端可训练的一阶段深层网络模型。具体而言我们首先将原始3D点云数据转换为等距分布的三维体素网格接着利用新引入的体素特征编码(VFE)层将每个体素内的多点数据转化为统一且具有表达力的特征描述最后将其连接到区域提议网络模块以生成最终的目标检测结果。通过在KITTI汽车检测基准上进行的大规模实验表明在提升检测精度方面所提出的VoxelNet显著超越了现有方法。

_LiDAR(Light Detection and Ranging),即激光探测与测距系统的一种别名,在LiDAR领域的新型三维检测技术中也可称为Laser Radar [1] 或LADAR(Laser Detection and Ranging)。

VoxelNet

一种通用型三维检测网络通过整合特征提取与边界框预测形成一个完整的流程这种架构属于全连接深度学习架构

Element Volume(简称体素)是体积元素的概念在3D建模与可视化中被广泛应用其包含的空间可以通过立体渲染技术或基于等值面多边形提取进行可视化展示正如其名这种基本单元广泛应用于多个领域包括但不限于医学影像科学计算与高端显示设备领域类似于二维图像中的像素概念体素构成了3D空间中最小化的数据单元它在现代信息技术发展中扮演着关键角色

在这里插入图片描述

具体来说,在VoxelNet中,点云被划分为规则的三维单元格,并利用新引入的体素特征编码层(VFE),将每个单元格内的多个点转化为统一的空间特征向量。其表示被转化为具有描述性的体积形式后与区域建议网络(RPN)结合使用以生成检测结果。

RPN是一种高效的物体检测技术。然而这种方法要求数据呈现密集状态,并需遵循张量结构(如图像、视频序列),这特性与传统雷达点云数据的特点不符。该文章旨在利用VoxelNet技术来解决上述问题,并改善手工特征表示的技术瓶颈。

在这里插入图片描述

基本流程

基于原始点云的空间信息构建特征学习网络,并对空间进行体素划分。每个体素内的点被编码为向量形式以表征其几何特性和拓扑关系。将空间建模为稀疏四维张量结构,并通过多轮卷积操作提取多尺度的空间关系特征。经过多轮卷积操作后,在最后一个卷积层上应用区域建议网络(RPN)进行三维目标检测。

特征学习网络内部结构

三维空间中散乱分布的多维坐标数据采用规则划分的方法将其划分为规则的栅格结构。
主要实现将占据(D×W×H)空间范围的散乱多维坐标集划分为规则的三维栅格结构。
对各区域的散乱坐标集进行分类整理。
对各个栅格区域内的散乱坐标集进行分类整理。
设定一个阈值T值。
若某个体素区域内的散乱坐标数量超过该阈值T时,则对该区域内的所有坐标执行随机采样操作以减少其数量至该阈值;反之则直接保留原有坐标数量。
处理后得到的新个体素集合中各个体素所含坐标数目均不超过给定的最大限制参数。
对各个体素提取特征并进行融合编码处理

堆叠体素特征编码

在这里插入图片描述

中间卷积层

针对特征学习网络提取的稀疏四维张量特征,在卷积中间层中使用三维卷积层、BN层以及ReLU激活函数;通过逐步扩大感受野范围内融合体素特征来丰富形状描述的能力

候选区域网络(Region Proposal Network)

在这里插入图片描述

实验结果

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~