Advertisement

论文阅读笔记(一)3DFeat-Net:Weakly Supervised Local 3D Features for Point Cloud Registration

阅读量:

摘要 :本文提出了一种名为3D Feat-Net的新方法。该方法采用弱监督学习策略来提取并描述三维点云中的3D特征。与现有方法不同的是,在本研究中无需人工标注配准点群。相反地,在本研究中采用配准技术和注意力机制来自动推断GPS/INS标记三维点云中的特征对应关系。为了验证该方法的有效性,我们构建了一个包含训练数据集和基准测试数据集的新数据集。实验结果表明,在这些经过配准的数据集中,“3DFeat网络”表现出了最佳性能水平。

一、问题描述:

点云P用大小为N的3D点集表示:{x_i|i=1,2,...,N},每一个点云P^{(m)}都是以其中心c_m为球心,固定大小的半径R范围内裁剪出来的。我们假定在训练过程中,点云的绝对位姿可以从GPS/INS中获得,但其精度不足以推断点的对应关系。我们以两点云中心的欧式距离度量点云之间的距离:d(m,n)=||c_m-c_n||_2
我们使用三元组{P^{(anc)}, P^{(pos)},P^{(neg)}}进行训练。我们定义正实例为其到anchor的距离小于一个阈值,即d(anc,pos)<\tau_p,负实例为其到anchor的距离大于一定阈值,即d(anc,pos)>\tau_n。阈值的选择要使得正实例和负实例与anchor有较大或较小的重叠。
网络的目标是学习寻找对应关系集合:
{(x_1^{(m)},x_1^{(n)}),(x_2^{(m)},x_2^{(n)}),...,(x_L^{(m)},x_L^{(n)})|x_i^{(m)}\in P^{(m)},x_j^{(n)} \in P^{(n)}}。网络学习是弱监督的体现在两个方面。其一,只有模型级别的、以相对位姿形式给出的标注,并且不明确指定对应关系。其二,位姿的精度不足以推断点的对应关系。

二、网络结构:

网络结构图

每个分支以点云P作为输入。clustering layer进行点的分组,得到{C_1,C_2,...,C_K}。对于每个分组C_k,使用detector网络预测旋转量\theta_k和注意力w_k。descriptor网络利用\theta_kC_k旋转到规范结构下,并计算描述子f_k\in \mathbb R^d
我们使用三元组训练网络,在最小化正实例点云和anchor的距离的同时,最大化负实例点云与anchor之间的距离。为了使误差能够考虑到每个点的分组,在融合误差之前采用对齐模型将描述子与其最佳匹配对齐。由于不同的点分组具有不同的分辨性,注意力w_k用来衡量每个分组对训练误差的贡献。这些注意力权重在训练过程中在随机采样的簇中学习,在推理过程中用于检测点云中关键点。

2.1 采样与分组

从点云P中进行采样操作,得到一个包含K个元素的集合{x_{i1}, x_{i2}, ..., x_{iK}}}。随后,在Grouping layer阶段将这些采样点与原始点云作为输入进行处理后输出K个空间相关的区域群落。每个区域群落C_k是由其对应的采样中心x_{ik}周围半径为r_cluster的邻域内所有相关联的样本所组成的集合体。这些区域群落被用作计算局部特征描述子的基础单元,在一定程度上类似于二维图像中的图像块概念。在PointNet++架构中我们采用了FPS(Farthest Point Sampling)方法来进行采样操作。对于每一个锚定框中的区域群落样本而言,在正样本训练数据集中存在与其高度相似的真实区域群落的概率将会得到显著提升

2.2 检测

输入到检测器网络以预测每个点簇对应的旋转向量\theta_k及其相关权重参数b_{k}。其中权重b_{k}数值为正值,并代表该点簇在整体特征空间中的重要性程度;旋转向量\theta_k=(\theta_{k_1}, \theta_{k_2})^T通过旋转变换来完成对点云特征向量的空间变换操作;具体而言通过旋转向量\theta_k=(\cosθ,\sinθ)^T将原始特征向量进行标准化处理后即可得到最终的结果表示形式;为了提高模型对齐效果我们仅针对单个维度的角度信息\theta_i$$采用 softplus 激活函数来保证输出始终非负;

2.3 描述子

Descriptor网络基于点集C_{k}及其对应的旋转变换\theta_{k}进行处理。具体而言,在该框架中首先通过应用旋转变换矩阵\theta_{k}对原始点集C_{k}进行标准化处理, 从而得到一个更易于操作的形式。实验结果表明, 整合全局特征有助于提升描述器的质量。通过最大池化操作获得鲁棒性更强的表征, 并将这些特征与各自簇内的独特表示进行融合, 最后再经过全连接层和l_2归一化处理后获得最终的描述子f_{k}

2.4 损失函数

在研究中提出点云P^{(m)}P^{(n)}中的点群分别为\textbf C^{(m)}\textbf C^{(n)}。其描述子欧式距离定义为基于上述两个点群之间的某种度量。

其中归一化注意力权重为w_i^{'}。根据该公式,在配准过程中,第一个点云中的每个描述子与第二个点云中最近邻的描述子进行配准。对于匹配成功的点云对,在第一个点云中对应的点簇能够找到在第二个点云中具有相似特征的簇体;而对于未匹配成功的点云对,则仅将第一个点云中的特征与最接近的目标描述子进行配准处理以避免干扰影响。三元损失函数则定义为L_{triplet}=[D_{anc,pos}-D_{anc,neg}+\gamma]_+,其中当计算结果大于零时取正值部分表示正类与负类之间的差距是否超过设定边界值\gamma

2.5 推理流程

在推理过程中, 将关键信息位置与描述子分别分配到两个独立的计算阶段进行处理。第一部分中, 对所有采样点进行注意力得分评估, 这一过程通过非极大值抑制法, 在每个采样区域中选择具有最高得分的M个样本, 并淘汰那些得分低于阈值\beta的所有采样候选, 最终确定了关键特征的位置。第二部分中, 描述子网络仅对该处提取的关键特征进行描述子生成操作, 这种分离的信息推导过程显著降低了所需的计算资源, 从而实现了对大规模场景的有效处理能力。

全部评论 (0)

还没有任何评论哟~