Advertisement

【论文解读】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

阅读量:

PV-RCNN

  • 摘要

  • 引言

  • 方法

    • 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
    • Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
    • Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
  • 实验

  • 结论

摘要

我们开发了一种高性能的3D对象检测框架PV-RCNN用于精确识别存在于点云中的三维物体。该框架通过融合三维体素卷积神经网络与PointNet集合抽象技术实现了对复杂场景中物体的高效感知与定位。具体而言我们创新性地将体素集抽象模块应用于3D场景建模过程该模块能够将经过3D体素CNN处理后的场景特征浓缩为一组代表性关键点从而大幅降低了后续计算负担同时增强了对典型场景特征的编码能力。在这一基础上PV-RCNN还设计了RoIgrid池这一新方法在该方法下通过关键点集抽象将特征信息从关键点传播到RoI网格区域形成了更加丰富的上下文信息库用于准确评估物体置信度与定位位置关系。经过大量实验测试包括KITTI数据集和Waymo Open数据集在内的实验表明PV-RCNN较现有最先进的3D检测算法显著提升了检测精度与计算效率

引言

我们开发了一种新型的3D目标检测框架PVRCNN(如图1所示)。该框架将基于点的数据特性和体素化空间表征的优势相结合,并通过分别从点特征和体素特征两方面提取信息,并利用各自的优缺点进行融合的方式有效提升了3D目标检测的整体性能水平。

在这里插入图片描述

PV-RCNN的核心在于其基于体素的操作能够有效地编码多尺度特征表示,并能生成高质量的3D建议。相比之下,PointNet集合并通过灵活的感受野保留了精确的位置信息。我们推测这两种类型的特征学习框架的结合能够帮助生成更具鉴别力的特征以实现精确的细粒度盒子细化。

主要困难在于如何将这两种不同的特征学习方案——特别是具有稀疏卷积的3D体素CNN和基于PointNet的方法——有效地整合到一个统一框架中。一个直观的方法是在每个3D提案中均匀采样几个网格点并利用集合抽象聚合这些点周围的空间体素特征以实现细化过程。然而这种方法存在显著内存消耗问题因为体素数量及网格点数量都可能非常庞大导致难以达到令人满意的性能表现。

为了更好地整合这两种类型的点云特征学习网络我们提出了一种分步策略:第一步是将体素转换为关键点场景编码第二步是通过关键点提取RoI(区域-of-interest)并生成网格化的特征表示

主要贡献包括:第一部分提出了一种创新性的体素到关键点转换方法第二部分设计了一种高效的关键点到网格RoI特征提取模块以及第三部分实现了两者的有机融合以显著提升整体性能

  • (1) 我们开发出了PV-RCNN框架这一创新性技术,在综合运用体素特征学习与点云特征学习两种方法优势的基础上实现了精准的三维目标检测。
    • (2) 我们研发出了一种体素到关键点场景编码方案,在多尺度体素特征提取的基础上提取出精炼的关键点集合,并成功实现了对场景复杂性的深度表征。
    • (3) 在网格采样过程中我们提出了一种多尺度RoI特征抽象层这一技术手段通过对场景信息的深度融合实现了高精度的目标细化与置信度评估。
    • (4) PV-RCNN系统以其卓越的表现不仅在KITTI 3D检测基准中位居榜首还以显著的技术优势超越了现有的所有同类方法同样在Waymo Open测试数据集上展现出了更强的适用性。

方法

在这里插入图片描述

图2:我们提出的PV-RCNN架构主要包含三个核心模块。首先将原始点云进行体素化处理后输入至基于3D稀疏卷积的编码器中,在此过程中能够学习到多尺度语义特征并输出3D对象建议。随后利用新型体素集抽象模块对多个神经层上提取的学习体素特征量进行总结和提炼工作,在此过程中能够生成一组关键性特征表示。最后将这些关键点特征按照RoI网格点的位置信息进行聚合处理,并在此基础上构建用于细粒度提案细化和置信度预测的专门化特征表示空间

3D Voxel CNN for Efficient Feature Encoding and Proposal Generation

具有三维稀疏卷积操作的体素卷积神经网络(Voxel CNN)已成为当前三维目标检测领域的主流选择之一,在各向异性数据处理方面展现出显著优势。该网络体系能够有效地将离散化的点云数据转换为稀疏的三维特征体表示,并因其高效的计算性能和较高的检测精度而被广泛采用。
Voxel CNN
首先对输入点集P进行划分操作,在空间维度上划分为L×W×H分辨率的小立方素单元集合。对于每一处非空立方素单元,则其对应的特征表示通过计算该区域内所有采样点的三维坐标信息及其反射强度平均值得到。随后系统采用一系列大小分别为3×3×3的空间稀疏卷积操作,在逐层下采样的过程中生成尺寸递减至1x、2x、4x、8x的空间分辨率下的多级稀疏特征体块。
三维提议生成模块
为了实现高质量的三维目标提议生成过程,在编码后的8倍下采样空间分辨率下进行降维压缩技术处理后得到二维鸟瞰图表示。具体而言,在Z轴方向上叠加一系列预训练编码后的高分辨率空间分辨率下的各通道解码结果块之后得到一个L/8 × W/8的空间分辨率二维鸟瞰图矩阵。在这一过程中系统会对每一个类别分别生成两个维度大小与对应类别的典型物体尺寸相匹配的目标定位框候选区域。

Discussions. (为下一模块做铺垫)

Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction

该系统主要通过整合多尺度特征元素集合为少量关键点来实现...这些关键点分别作为连接纽带作用于3D体素CNN编码器与细化网络之间

FPS(Furthest Point Sampling)

Voxel Set Abstraction Module

在这里插入图片描述

在所有关键点pi中,在该层内半径rk范围内探测与之相邻且非空的单元格,并用于收集或获取这些单元格的方向特征向量集合。

在这里插入图片描述
  • v(lk)j−pi 局部相对坐标(表示语义体素特征f (lk)j的相对位置。)

基于PointNet框架,在S_{(lk)i}体内完成体素级别的特征信息提取后,则能够得到关键点pi对应的特征向量。

在这里插入图片描述

M(·)定义为从相邻集S(lk)i中随机选取至多Tk个像素用于实现计算上的优化,
G(·)由多层感知器网络通过编码体素特征及其相对位置来提取空间关系信息,
尽管相邻体素的数量在不同的关键点之间有所变化
**然而沿通道最大池化操作max(·)能够将不同数量的相邻体素特征向量映射为关键点pi处的特征向量f(pvk)i。

该策略主要在3D体素CNN的不同层级中进行操作,并且能够通过融合来自不同层级的特征来构建关键点pi处的多尺度语义表征

在这里插入图片描述

其中生成的目标空间深度f(pv)i融合了来自体素深度f(lk)j的不同维度表征:一方面基于三维体素卷积神经网络提取的空间信息与高度抽象特征相融合;另一方面则通过多尺度表征融合框架实现了空间关系建模能力的有效提升。其三维坐标完整保留了精确的空间位置信息。

在这里插入图片描述

Predicted Keypoint Weighting.

在这里插入图片描述
  • A() 表示一个三层MLP网络运用了Sigmoid函数作为激活函数,并被用来预测[0,1]区间内的前景置信度。

通过focal loss来训练

在这里插入图片描述

Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement

RoI-grid Pooling via Set Abstraction. 在每个3D区域中, 我们开发了RoI网格池模块, 并从关键采样特征中提取各个接收区域对应的特征向量. 在每一个3D方案里均匀取样6\times 6\times 6个网格点, 记为G=\{g_1,\cdots,g_{216}\}, 并采用\textbf{集合摘要过程}, 对其进行多接收域建模

在这里插入图片描述
在这里插入图片描述

具体来说,我们首先识别半径为r的网格点gi的相邻关键点

在这里插入图片描述

聚合相邻的关键点特征集

在这里插入图片描述

在从其周围的各个关键点收集每个网格的聚合特征之后,在一个具有256维特征空间的基础上应用两层多层感知机模型将该区域的所有子区域(RoI)网格特征依次映射到一个统一的空间中,并最终完成对整个建议的表征。

3D Proposal Refinement and Confidence Prediction.

对于第k个3D RoI,其置信度训练目标yk归一化为介于[0,1]之间的

在这里插入图片描述

(IOU大于等于0.75时,y刚好是1,所以认为IOU达到0.75就已经很好了)

  • 该方法基于二值交叉熵损失进行训练。
  • 采用光滑L1损失函数来实现BOS回归。

实验

KITTI数据集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

本研究提出了一种 novel 的体素集增强网络架构 PV-RCNN 以实现精确三维目标检测任务。该框架旨在通过设计高效的体素融合模块将多尺度体素CNN特性和pointnet表征学习结果融合至精简的关键采样点集合上 并在此基础上构建多层次特征金字塔完成细粒度目标精确定位过程。为了验证所提方法的有效性 我们进行了系统性评估实验 在KITTI数据集和Waymo Open数据集上均取得了显著优越的表现 经过系统性评估实验 与现有最先进的方案相比我们的方法实现了约3%以上的性能提升

全部评论 (0)

还没有任何评论哟~