Advertisement

论文阅读笔记(二):USIP:Unsupervised Stable Interest Point Detection from 3D Point Clouds

阅读量:

摘要:

该研究提出了一种无监督稳定特征点检测器,在无需训练数据真实标签的情况下,在任意变换作用下的三维点云中可靠地识别具有高重复率且定位精确的关键点。该检测器由单一的特征生成网络构成;该网络能够从输入原始点云及其经过任意变换后的版本中自主学习出稳定的特征关键点位置信息。本研究还对关键点退化现象进行了深入分析,并提出了相应的解决方案。通过概率倒角距离优化目标函数;我们成功实现了从训练数据对中提取出具有高度一致性且精确定位的关键区域集合;在包含LiDAR、RGB-D传感器以及CAD模型仿真数据的各种三维场景下;通过大量重复实验验证了所提方法的有效性与优越性;实验对比显示该方法在性能上优于现有手工与深度学习基于关键点的3D检测方案。

一、USIP检测器

USIP网络结构

定义点云 \mathbf X=[X_0,...,X_N] \in \mathbb R^{3 \times N}。变换矩阵的集合为{T_1, ..., T_L},其中T_l \in SE(3)被用于产生L个训练点云对\{\{\mathbf X, \widetilde{\mathbf X}_1\},...,\{\mathbf X, \widetilde{\mathbf X}_L\}\},其中\widetilde{\mathbf X}_l=T_l \circ \mathbf X \in \mathbb R^{3 \times N}\circ表示齐次坐标下的矩阵乘法。使用\{\mathbf X, \widetilde{\mathbf X},T\}表示一个训练的点云对及其对应的变换关系。在训练过程中,\mathbf X\widetilde{\mathbf X}被输送到FPN网络中,输出M个关键点及显著不确定性\{\mathbf Q=[Q_1,...,Q_M],\Sigma=[\sigma_1,...,\sigma_M]^T\}以及\{\mathbf Q=[\tilde Q_1,...,\tilde Q_M],\Sigma=[\tilde \sigma_1,...,\tilde \sigma_M]^T\}Q_m \in \mathbb R^3,\tilde Q_m \in \mathbb R^3,\sigma_m \in \mathbb R^+,\tilde \sigma_m \in \mathbb R^+。为了提高关键点的定位,Q_m \in \mathbf Q不一定是\mathbf X中的点。同样地,\tilde Q_m \in \widetilde \mathbf Q也不一定是\widetilde \mathbf X中的点。
定义\mathbf Q^\prime=T^{-1} \circ \widetilde{\mathbf Q} \in \mathbb R^{3 \times M},这样\mathbf Q^\prime可以与\mathbf Q直接进行比较,并假设显著不确定性不受变换影响,即\Sigma^\prime=\tilde\Sigma。通过最小化\mathbf Q\mathbf Q^\prime之间的差距,可以实现在任意变换下检测重复度高、定位精度高的3D点云关键点。假设损失函数为:\mathcal L=\mathcal L_c + \lambda \mathcal L_p\mathcal L_c是概率倒角损失,目的是最小化\mathbf Q\mathbf Q^\prime对应关系的概率距离。\mathcal L_p是点到点的损失,目的是最小化估计的关键点到点云中最近邻域的距离(因为估计的关键点不一定是点云中存在的点)。\lambda是一个平衡损失贡献的参数。

概率倒角损失函数

地球移动者距离(Earth Mover's Distance, EMD)表示为:

\sum\limits_{i=1}^{M}\min\limits_{Q^\prime _j \in \mathbf Q^\prime}||Q_i-Q^\prime _j||^2_2+\sum\limits_{j=1}^{M}\min\limits_{Q _i \in \mathbf Q}||Q_i-Q^\prime _j||^2_2\tag{1}

该公式最小化了点云中任意一点到另一点云的最小距离之和。然而,所检测的M个关键点并非具有相同的显著性。如果点Q_i的感受野是一个无特征的面,最小化点Q_i与其在\mathbf Q^\prime中最近邻点Q^\prime_j的距离对于学习检测关键点是有害的。为了解决这个问题,本文设计使FPN网络同时学习关键点的显著不确定性\Sigma^\prime\Sigma^\prime。定义:

p(d_{ij}|\sigma_{ij})=\frac{1}{\sigma_{ij}}\exp(-\frac{d_{ij}}{\sigma_{ij}})\\ \sigma_{ij}=\frac{\sigma_i+\sigma^\prime_j}{2}>0,d_{ij}=\min\limits_{Q^\prime _j \in \mathbf Q^\prime}||Q_i-Q^\prime _j||_2 \ge 0\tag{2}

基于以下假设:d_{ij}属于D_{ij}且服从独立同分布,则可得联合概率密度函数为:

p(D_{ij}|\Sigma _{ik})=\prod \limits _{i=1}^{M}p(d _{ik}|\sigma _{ik})\tag{3}

需要注意的是该概率分布具有不对称性 即当交换两点之间的顺序时 该概率分布会发生变化 因为这种最近点映射本身具有一种非对称性

最后的概率加权余弦相似度损失为:

\begin{aligned} \mathcal L_c = \sum\limits_{i=1}^{M}{ - \ln p( d_i,j | \sigma_i,j ) } + \sum\limits _{j=1 }^{ M }{ - \ln p( d_j,i | \sigma_j,i ) } \\ = \sum _{ i = 1 }^{ M }( { \ln σ_i,j + d_i,j / σ_i,j } ) + ∑ _{ i = 1 }^{ M }( { lnσ_j,i + d_j,i / σ_j,i }) \end{aligned}

其中σ表示归一化因子

基于计算(2)中的极值点进行探讨后发现, \sigma _{i,j}或者\sigma _{j,i}所代表的实际意义值得深入研究

通过对其概率密度函数关于σ_ij的一阶导数进行求解, 可以得到σ_ij = d_ij这一结果, 即为求解式(6)中的极值点

此外,在数学分析中发现:对于给定的d_{ij}\not=0值,在\sigma_{ij}=d_{ij}处函数p(d_{ij}|\sigma_{ij})取得极大值;考虑三个关键点集合\{Q_i,Q^\prime_j,Q^\prime_k\}之间的相互关系,在计算两个关键点间距时(即d_{ij}d_{ki}),当d_{ij}趋近于零而d_{ki}显著增大时,则表明\{Q_i,Q^\prime_j\}之间具有较强的重复性特征,并且该关键点对的定位精度较高;相比之下,则说明另一个关键点对\{Q^\prime_k,Q_i\}不具备这样的特性;因此在关键点检测过程中若出现较高的不确定性,则应剔除该不具可靠性特征的关键点;基于此分析可知:概率倒角损失这一度量方法能够有效引导FPN网络准确学习并优化其性能

点到点损失函数

为了解决量化误差问题,在关键点的选择上无需局限于原始点云中的数据。然而这可能会导致网络在关键点选择上偏离较远的区域作者引入了一项基于对应关系的损失函数来优化关键点的选择

该平面误差函数由以下两部分组成:第一部分为\sum\limits_{i=1}^M \mathcal N_j^T(Q_i-X_j), 第二部分为\sum\limits_{i=1}^M\tilde \mathcal N_j^T(\tilde Q_i-\tilde X_j), 如式(9)所示

其中\mathcal{N}_j和\widetilde{\mathcal{N}}_j$分别是点集Q_i映射至空间X及其对应的近邻面的法向矢量。

FPN网络

FPN网络结构:

FPN网络结构

在以下步骤中,从三维空间中的点云\mathbf X \in \mathbb R^{3 \times N}出发,在其空间中通过FPS方法选择M个代表节点(node),标记为\mathbf S=[S_1, S_2,\dots,S_M] \in \mathbb R^{3\times M}。随后针对每个选定节点建立其局部领域集合并进行特征提取操作:具体而言,在该领域集构建过程中采用point-wise到node-wise映射策略,并将每个采样节点周围的邻居数据组织成一个包含其坐标偏移量的小批量数据集

这种设计方式相较于基于kNN或固定半径的领域划分方法具有两个显著优势:首先,在原始点云数据中每个原始数据点都被明确关联到了一个代表节点上;其次这种设计方式能够更加灵活地适应不同尺度和密度的空间分布特性

为了实现该网络架构所需的平移不变性特性,在编码阶段我们对各层特征表示进行了标准化处理:即对于每个代表节点s\in\mathbf S及其对应的领域邻居区域内的所有样本实例x\in X_s而言

全部评论 (0)

还没有任何评论哟~