Advertisement

【论文阅读笔记】PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

阅读量:

PointNet: A framework for Deep Learning on point sets, specifically designed for 3D Classification and Segmentation tasks.

五.二

  • (六)MLP:
  • (七)实验结果:

(把网络原理讲的很清楚)

(一)论文地址:

https://arxiv.org/abs/1612.00593

(二)核心思想:

在这里插入图片描述

因为三维点云数据采用n×3的矢量化表示(具体说明了n个点,每个点包含3个空间坐标值),而不具备顺序信息(点云中点的排列顺序并不反映空间关系),所以早期研究通常将点云数据转换为体素网格或采用多视角图像表示。

这种处理方式无疑使得数据量大大增加,并且会造成伪影等问题;

为了解决这一问题,该网络是作者为解决这一问题而提出的一种创新方法。该网络能够直接处理点云向量数据,每个点独立地进行特征提取。通过最大值池化操作,该网络能够有效地整合点云数据的空间信息。

在研究中发现,PointNet在处理点云数据时能实现关键特征的识别,这些关键特征对应于物体的轮廓特征,这表明PointNet在处理数据缺失或小幅度波动时展现出良好的鲁棒性。

在这里插入图片描述

(三)问题陈述:

一系列点云数据的集合可以描述为:

\lbrace P_i|i=1,2,…,n \rbrace,其中 P_i=\lbrace x_i,y_i,z_i \rbrace

这样用于分割任务的网络每一点的输出结果即为每个节点输出 m 个概率得分,整个网络则输出 n×m 个得分;

(四)点云数据的性质:

我们的点云数据是欧氏空间的一个子集,它具有以下性质:

  1. 无序性:点云数据作为非结构化的点集,其排列顺序并不影响数据的本征特征;因此,网络在处理不同顺序排列的 n 个点云数据时,应保持输出结果的不变性;
  2. 点与点之间存在相互联系:由于点云数据是从具有空间距离度量的环境获取的,每个点并非孤立存在,因此网络需要通过分析邻近点之间的关系来提取点云的全局特征;
  3. 平移不变性:为确保网络的平移和旋转不变性,即无论点云数据 undergoes 任意平移和旋转变换后,网络的输出特征保持不变;

(五)PointNet 的网络结构:

在这里插入图片描述

整个网络结构有三个关键模块:

  1. 该方法通过 max pooling 来聚合全局信息。
  2. 该模型采用了融合局部和全局信息的结构。
  3. 该系统通过两个对齐网络来校准点与点特征。

5.1 无序输入的对称函数:

为了使模型对无序数据保持置换不变性(即无论输入的顺序如何,输出结果均保持一致),目前共有三种处理方案。

将输入数据组织成规范的有序序列;
通过RNN对无序数据进行训练,并结合多种排列方式的数据增强技术进行训练;
通过简单的对称函数进行信息聚合;

比如 +× 就是二元对称函数;

MLP(多层感知机)具备一定的映射能力,然而,由于在高维空间中,无序集合并不存在有序序列,网络在从高维空间到一维空间(有序序列)的映射学习上存在显著的困难。这表明该方法的可靠性受到严重影响。

然而,尽管RNN(如LSTM)通过随机打乱输入序列的顺序来处理数据,从而在处理较小规模的数据集时表现出良好的效果,但在实验测试中,当处理大量数据时,RNN模型的性能表现欠佳。

在这里插入图片描述

作者认为,可以采用一种对称函数,其中,该方法主要由多层感知机和最大池化组成,且仅涉及加法和乘法运算,以近似表示定义在集合上的目标映射函数。

在这里插入图片描述

其中 h 可以用多层感知机实现,g 可以用最大池化层实现;

5.2 仿射变换网络 T-net:

在这里插入图片描述

T-net 用于将输入集合校准到一个规范空间中;

在特征空间中,变换矩阵的维度显著高于空间变换矩阵。为了在训练过程中约束变换矩阵,作者在损失函数中引入了一个正则化项,使其趋向于正交矩阵。

在这里插入图片描述

其中 A 是校准后的矩阵;

(六)MLP:

在这里插入图片描述

这里虽然作者称之为 MLP(多层感知机),但是亦可以理解成一维卷积;

以第一个 mlp(64,64)模块为例,其第一层通过 1×3(涉及3个坐标)的 64 组卷积输出了 n×64 大小的特征向量,而第二层则采用 1×1×64 的 64 组二维卷积结构。

(七)实验结果:

在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~