Advertisement

深度学习在点云分类中的研究综述————文献总结

阅读量:

基于知网文献的综述性分析:王文曦的《深度学习在点云分类中的研究综述》一文进行了系统总结。该研究深入探讨了点云语义分割的发展现状。

在这里插入图片描述

正文开始

点云的语义分割的发展概况,先上图:

在这里插入图片描述

基于深度学习的分类方法

本章主要采用点聚合的方式对基于深度学习的点云分类算法进行了系统性划分,并重点介绍了几种具有代表性和高性能的关键网络架构。

在这里插入图片描述

1、基于投影的方法

典型的卷积神经网络主要在规则、有序且结构化的二维图像上进行运算。针对不规则且非结构化的点云数据,在预先设定好的模式下将其投影,并提取相应的点云特征。本节通过文献综述和分类整理的方法将该研究领域内的技术进一步划分为两大类:

基于体素网格的方法

基于多视角的方法。
(1)体素网格
借鉴卷积神经网络在二维图像语义标注方面的先验知识,并结合体素化技术与三维数据组织结构的一致性特点,在研究如何将体素化的非结构性点云数据应用到三维卷积神经网络模型方面取得了一定进展。
体素化即为利用体积占用网格(Volumetric Occupancy Grid)来表示环境信息。最早的体素化方法由Maturana等[16]提出,旨在充分利用点云数据特征并高效处理海量点云数据。他们的VoxNet模型融合了体积占用网格与3D卷积神经网络技术,在参数简洁的同时通过多层叠加能够生成全局标签来实现对点云数据的分类工作。随后提出的Spherical CNNs方法则通过将3D数据投影到封闭球体上并结合射线采样技术提取特征信息,在此过程中实现了旋转不变性的目标特征提取能力。这些研究不仅有效解决了点云数据无序性和非结构性的问题,还开发出了球面卷积在点云分类中表现出的有效性。(尽管上述方法在解决点云数据特性方面取得了显著进展但计算过程中占用内存过大这一问题仍待解决)

为解决点云数据的稀疏特性及其带来的巨大计算负担,研究者们探索采用可伸缩的空间划分机制替代固定分辨率的空间分割方案。其中一种创新方法是OctNet网络,在该框架下通过混合网格-八叉树结构实现空间分层划分策略,在这种划分下每个节点对应存储特定范围内的池化要素。这一方案不仅有效降低了冗余计算并减少了不必要的内存消耗,在保证数据分辨率的同时实现了更高层次的特征提取能力。随后Wang等人受到OctNet启发提出了OCNN架构,在三维卷积神经网络(3D CNN)中提取八叉树空间中的关键特征参数从而在一定程度上缓解了计算压力并提升了处理效率。类似八叉树划分策略的空间索引方法在分类模型中也得到了广泛应用其中最具代表性的就是Kd-Net框架它利用Kd树结构按照从粗到细的方式对数据进行层次化分组以避免传统卷积神经网络所带来的缩放问题

点云在旋转过程中可能会影响网络效果;而将原始点云数据转换为KD树形式会导致计算负担增加。灵活选择的索引结构虽然能在一定程度上减少计算内存消耗;然而,在训练过程中无法充分结合局部几何信息,并且体素边界可能会影响最终计算结果。基于网格结构提出了MeshCNN模型;通过以边为基本单元定义卷积操作;并采用折叠特征值较小的边进行池化优化;从而实现了分类任务的自动简化。该方法既能够有效提取关键特征又能够去除冗余信息。

该方法从多维度着手为体素化点云处理过程中的关键挑战提供了应对策略。尽管体素化算法展现出一定的优势[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15], 但同时也面临着信息丢失的问题,并且在存储效率方面存在明显劣势以及较高的计算复杂度, 且在适用性方面也难以满足某些特定场景的需求。展望未来, 随着计算机技术的不断进步, 存储技术和计算能力的提升, 这类算法有望获得更加广泛的应用与发展

(2)多视角

基于不同场景设计两种相机配置方案,并在多角度下实现相应的渲染效果。各视图提取的特征数据通过卷积神经网络和池化操作被整合成一个单一且紧凑的三维形状描述符。将融合后的特征传递至全连接层以获得分类结果,请参考附图获取详细流程。

在这里插入图片描述

基于多视图的处理方法中,差异明显的渲染图像更能发挥形状识别的作用

通过投影手段实现将散乱分布的点云数据系统化地映射到二维平面的技术过程;该方法的一个主要缺陷是在计算局部几何特征时会引入额外负担,并且具体涉及如平滑性、粗糙度以及球状程度等参数;无论是采用何种规则化方法或从多个视角进行分析,在这一转换过程中不可避免地会导致部分原始信息无法准确还原

2 、基于原始点云的方法

在上一节中提及基于投影的三维点云分类策略具有较高的计算复杂度,并未能充分提取三维点云数据的独特特性作为分析重点等缺点;为此,研究者们倾向于直接从原始三维点云数据中提取特征信息。本节将从以下四个方面对该类方法进行分析:

  • (1)多层感知机;
  • (2)卷积神经网络;
  • (3)图卷积神经网 络;
  • (4)注意力机制。

(1)多层感知机(MLP)
首次提出将深度学习模型直接作用于原始点云的算法——PointNet。该算法通过创新性的方法解决了点云数据 inherent 的三个关键问题:
利用MLP模型提取每个点的特征信息,并结合对称函数整合全局特征信息以解决点云无序性的挑战;
引入三维空间变换网络(STNs)模块来实现对点云旋转不变性的有效捕捉;
在分类任务中对输入点云执行几何变换和特征提取过程,并采用最大池化操作聚合各点特征信息以应对点云置换不变性的特性。

基于PointNet及PointNet++技术的深入探讨——点云数据处理在三维场景解析中的应用研究(一)

该模型在提取三维点云特征时存在局限性:它仅识别出单一离散点以及整体体素信息,并未能全面收集局部细节特征;并且忽略了邻近采样点之间的相互作用;这些局限因素归因于 PointNet 模型在处理细节级分类任务时表现欠佳,并且其应用范围受到复杂环境条件的限制。

在这里插入图片描述

由于无法解决局部性的结构问题,继而提出优化网络 PointNet++,框架如图:

在这里插入图片描述

该模型在此前方法[30]的基础上增加了由多个抽象层构成的多层次结构。每个层次均包含采样子层、分组子层以及特征提取子层三个组成部分。通过PointNet++设计实现了对特征提取精度的显著提升。通过PointNet++设计实现了对划分局部点云及提取其局部特徵能力的重大提升,并且这种架构能够为处理大规模场景提供更为精细的特徵表示。然而,在现有架构中各体素间相互关系的学习机制尚不完善。为此针对现有架构中的不足之处研究者们开发了多种辅助分类网络工具如:Momenet So-Net 结构关系网络(SRN) 和 PointWeb:

  • Momenet通过引入多项式函数来优化点云坐标处理过程, 从而显著提升网络训练效率与分类精度. *

  • So-Net[33]基于自组织特征映射(Self-Organizing Feature Mapping,SOFM)对点云数据进行分析处理, 并通过该机制实现其在点云分类任务中的置换不变性. *

  • So-Net 架构简洁且具有良好的并行性能,在分类任务中表现出较高的训练效率。

  • Duan 等人提出了 SRN 用于学习点间的关系。

  • Zhao 等人受上下文信息机制的启发后提出 PointWeb 网络。基于局部上下文信息的分析下,
    使用自适应特征调整模块(AFA)能够提取和融合各维度的特征关系。
    为了被用来有效解决如何处理基于 3D 传感器或重建算法的问题。

异常值与噪声为此旨在提出PointASNL系统。该网络由自适应采样模块(Adaptive Sampling, AS)以及局部-非局部模块(Local Nonlocal, LNL)两个核心组件构成。通过抑制噪声与异常值的影响,AS模块有助于提升点云的质量并促进后续特征学习的有效性。基于此,在分类与分割任务中表现突出的是L-NL模块所提供的稳定且精确的关键信息源。其中,在本地区域提取关键细节;而通过将所有采样的局部分布进行整合融合到非本地区域中,则能够构建出全局的一致性描述

(2)卷积神经网络**
卷积神经网络在目标检测、语义分割和边缘检测等领域展现出卓越的效果。由于点云数据的无序特性导致其与二维图像的卷积操作存在本质区别。

A-CNN 在大型场景的应用中性能稳定。图 6 是 A-CNN 中环形卷积的框架图。

在这里插入图片描述

在2D图像中各点的位置是固定的,在此过程中每个样本中的各个像素的位置坐标都是明确确定的。然而,在实际应用中我们常常遇到的是一个由三维坐标系下的大量随机采样数据构成的点云数据集,在这种情况下各个采样点之间的相对位置关系并不固定且可能存在多种不同的排列组合方式。对于一个给定的输入样本而言,在不同空间排列下的相同信息可能会导致不同的计算结果进而影响模型最终输出的结果。PointCNN[41]通过消除了传统方法中存在的空间排列敏感性问题,在网络架构设计上引入了一种新的χ-变换卷积操作符。该操作符能够将带特定输入顺序的数据转换为不依赖于顺序的特征表示从而使得后续的学习过程更加高效可靠。在这一过程中首先利用χ-变换将原始空间域上的数据映射到频域空间上接着通过MLP层对提取出的空间频率特征求取其表征信息最后再利用预设好的χ变换矩阵对这些表征信息进行进一步处理以完成最终的目标输出。值得注意的是在传统的基于密集连接层的设计方案下这种方法仍然存在一些局限性目前χ-变换矩阵与预期结果之间仍存在较大差异因此如何进一步优化这一设计仍是当前研究的一个重要方向

在这里插入图片描述

与仅保留位置信息而无法识别的2D图像情况相反,在这种情况下,点云仅保留位置信息同样能够实现有效的识别。即点云中的相邻点的空间几何信息能够反映隐含的形状特征。据此,在文献中提出了一种基于几何关系编码的新卷积算子RS-Conv,并设计了一种基于几何关系学习3D形状关系的卷积神经网络RS-CNN架构。通过应用RS-Conv(图8)对选定的点云子集执行卷积运算后,并将低维特征映射到高维空间以提取空间信息特征,在此基础上完成形状上下文感知的任务,并通过全连接层生成全局特征用于分类处理。实验结果表明该模型在目标识别任务中表现优异

在这里插入图片描述

模型均以 PointNet 中 MLP 的一维卷积的思想来进行改进,PointConv是在点云上建构深层卷积网络,用 MLP 学习近似 3D 的卷积核,对点云特征密度加权。该网络便于操作,提高了训练时效与精度的同时减轻了计算机存储压力。类似地,核点卷积(Kernel PointsConvolutional,KPConv)也是将卷积自然推广到点云数据中,不同之处在于卷积计算和核转换矩阵的方式。KPConv 提供了可变形卷积算子,通过线性差值得到核转换矩阵,卷积的权重决定了到核点的欧氏距离。Boulch A 提出将卷积核分为空间和特征部分的 ConvPoint,选择卷积核空间部分的任意位置,通过多层感知机训练加权函数。

方向约束全卷积网络(D-FCN):
将输入数据定义为原始点云的三维坐标和强度特征。通过方向约束型卷积层从二维投影感受野中提取三维点集的局部空间特征。基于D-Conv模块构建了一个包含下采样与上采样组件的多尺度卷积神经网络架构。该网络架构对于不同规模的输入点云均具有良好的适应性,并且能够通过端到端的学习过程识别并分类每一个输入点。值得注意的是,在当前模型设计中,默认采用标准卷积核导致无法有效建模空间结构关系,并且忽略了输入点云中各区域密度可能存在的差异。

为解决三维点云中密度分布不均匀的现象,在细节层次上难以准确定位局部结构问题。DANCE-NET通过引入基于密度感知的设计策略,在逐点调整权重的方式优化了卷积核设计,并以适应复杂空间分布的需求构建了新的卷积框架以提升处理能力

(3)图卷积神经网络
现阶段基于点的分类方法都是将整体点云作为输入,虽然它们都在标准基准上实现了理想的检索精度,但却忽略海量点云的冗余信息。图神经网络(Graph Neural Networks ,GNN)的概念最早由 Gori等提出,Scarselli 等人对其完善。Bruna等人(2013)首次提出基于谱图论开发的非欧式域的卷积神经网络。Kipf等人(2016)在前人的基础上正式提出图卷积神经网络(Graph Convolution Networks,GCN)。GCN实际属于 CNN 的优化,通过提取图数据的特征,在半监督分类任务中效果良好。M. Simonovsky受到边缘标签应用的启发,提出了可以应用于任意图结构的边缘卷积网络(ECC)。在进行加权平均的卷积操作时ECC 的权重取决于节点间的边权。ECC 将点云数据的点视作图结构的顶点,使用最大采样法聚合顶点信息。但将点云改变为图结构的过程中需要大量计算,导致分类结果并不理想。KCNet通过图卷积沿边缘聚合点云局部特征。利用图或者树的结构,将局部区域中无序的点云变得有序化。由于点云属于非线性结构,使 KCNet 构建图或树的边缘更加繁琐。

网络能够通过保持置换不变性来捕获局部几何信息;然而未考虑点之间的向量方向而导致部分信息丢失;同时,在DGCNN中用于处理点云的空间转换模块需要大量参数;从而提升了模型的复杂性;随后,Zhang等[51]人对DGCNN进行了优化;随后,Zhang等[51]人提出了链接动态图卷积神经网络(LDGCNN);首先取消了空间变换网络过高的参数需求;通过添加跳跃链接的方式聚合不同层的动态图特征;学习到特征中有效的边缘矢量特征;该方法能够有效避免梯度消失的问题;Point GNN中的每一层网络都在循环使用图的边以避免不必要的分组与采样操作;随后,Gird-GCN[53]提出了一种创新性的模块组合:覆盖感知的网格查询模块(Coverage-Aware Grid Query,CAGQ)与网格内容聚合模块(Grid Context Aggregation,GCA);这些改进使得理论时间复杂度得到降维并提升了空间覆盖率。

Li等人开发了一种基于Pconv和Ppool的深度学习方法。该方法用于提取点云数据中的高层特征,并通过图神经网络架构提出了PointVGG模型。该网络被成功应用于目标分类任务,并在局部分割中取得良好效果。

图 9 为 PointVGG 网络架构,

Pconv层通过依次扩大感受野范围以获取局部几何特征,并结合有序机制处理点云中的无序属性。不同于将局部几何信息直接聚合成对称函数的方法,Pool层能够逐步聚集空间关系从而生成更为细致的局部表征。Wang等研究者采用Reeb图提取高度浓缩且具丰富特性的三维描述,分别借助Reeb图与KNN图捕获输入点云的空间语义信息。该网络架构基于深度图卷积设计用于对点云数据进行特征提取与分类优化,实验表明其在分类任务中取得了令人满意的性能表现。

在这里插入图片描述

(4)注意力机制

注意力机制的运行机制旨在使系统聚焦于核心信息并忽略次要信息。借鉴了二维图像引入注意力网络的分类方法后,并注意到该机制具有固定排列且不依赖于点间联系的特点这一特性能够满足点云处理的需求因此众多学者将注意力机制引入到点云算法研究中基于点云推理的点注意力变压器(PAT)采用组混洗注意力机制(GROUP SHUFFLE ATTENTION GSA)取代并行注意力机制以建模点之间的关系此外网络中还包括GSA和Gumbel子集采样(Gumbel Subset Sampling GSS)两个部分:GSA模块能够更好地挖掘出点之间的特征关系利用GSS完成具有代表性的点子集选择受图卷积知识启发有学者将图卷积技术与注意力机制结合提出了新的分类策略Chen等人基于自注意力机制(self-attention)提出了GAPNet通过嵌入图注意力机制到多层全连接层中来学习原始输入点云的局部语义信息并采用多头注意(multi-head attention)聚合来自不同GAPLayer层的注意力特征网络中的GAPLayer以及注意层能够集成嵌入现有训练模型中以有效提取无序点云的局部几何特征从而提升模型性能Wang[58]等人通过引入图注意力卷积构建了GACNet网络中的卷积核形状能够自适应不同对象的结构这一设计使得该模型在关注局部特征的同时也能考虑密度分布以及全局上下文关系清华学者将Transform概念引入到点云处理中提出了参数简洁精度较高的参数稀疏Transformer网络(PCT)见图10网络首先将输入点云的特征语义编码至更高维特征空间随后连接经过四层注意模块化的局部几何信息以获取不同尺度下的语义相似度最后融合点云的局部与全局特征完成分类与分割任务

在这里插入图片描述

基于图注意力机制构建的卷积神经网络模型(GACNN)中设置了全局注意力机制以捕获点云在空间上的分布特性从而提取整体特征信息。其中局部注意力模块由边距检测子和密度调节子两部分组成:边距检测子则通过分析邻近点的空间布局来动态调整核权重参数以适应不同场景;而密度调节子则能有效应对不同采样密度下的数据质量差异。该模型通过多尺度特征提取显著提升了机载三维点云数据分类的效果。

采用全局-局部图注意力机制构建的卷积神经网络(GACNN)[60]中,全局注意模块负责提取点云的空间分布状态;该网络中的局部注意模块由以下两部分构成:首先是边缘关注模块,在此过程中通过学习邻近点的局部空间布局来动态调整核权值;其次是密度关注模块,在此过程中能够解决非均匀采样点导致的问题。GACNN 能够有效地捕捉多尺度的点云特征,并显著提高机载点云分类的效果。

3、现有方法结果对比与分析

在常用的三维数据集中(尤其是)ModelNet10/40的应用最为广泛。本文提到的算法在该数据集上的表现都非常出色,在大多数情况下都能达到85%以上的准确率,在少数情况下甚至超过了这一数值。值得注意的是,在选择ModelNet10数据集时所采用的算法中,平均精度与总体精度相比(除了3DshapeNets之外),其余所有算法均超过了90%。其中表现出色的网络包括Gird-GCN(MA达到97.4%,OA达到97.5%)和A-CNN(MA达到95.3%,OA达到95.5%)。此外,在采用双线性池聚合局部特征卷积的MHBN网络中,在ModelNet40数据集上的总体精度达到了94.91%,这是目前所有方法中最高的结果之一。基于原始点云分类的方法普遍表现出较高的准确性(大多超过90%),其中通过优化设计改进后的CNN方法表现尤为稳定,在这些方法中RS-CNN的表现最为突出(总体精度达93.6%)

PointNet++、PointCNN、D-FCN、Dance-Net、DGCNN、GACNET 和 GACNN 等方法均采用了 ISPRS 开发的基准数据集作为训练依据,在测试集上的整体精度均超过 80%,其中 Dance-Net 通过引入逐点密度重新加权的可学习卷积核实现了对非均匀分布三维点集上连续卷积效果的最佳逼近,并在训练过程中取得了最优性能(总体精度 83.9%),具体结果可见图 11。在 2019 年 Kpconv 方法首次提出后,D-FCN、DGCNN、GACNET 和 GACNN 等算法均展现了卓越的表现(图 12 显示了这些算法在不同分类任务上的具体表现)。GACNN 提出后因其卓越性能而备受关注,该网络通过融合全局上下文信息与局部注意力机制成功提取了点云多尺度特征,并在电力线与不透水面等特定类别上表现出色(如表 1 所示)。值得注意的是,基于 ScanNet 数据集进行分类时,PointNet++ 和 PointCNN 的表现并不理想,其平均精度与总体精度普遍偏低(具体数值见表 2)。从精确度的角度分析,基于点特征的方法较基于投影特征的方法具有明显优势(原因在于点云数据本质上是物体表面离散点集合,单纯的投影转换会导致不必要的计算开销)。此外,体素化虽然能够将无序的点云数据结构化为网格形式,但采用固定分辨率体素作为输入不仅会丢失细节信息,还会导致计算负担过重(如图 3 所示)。多视图方法尽管在某些方面优于传统机器学习算法,但其分类精度仍受到观察视角位置与角度的影响(如图 4 所示)。直接输入原始未经过处理的原始点云数据虽然能完整保留信息但可能导致算法性能下降(具体原因见图 5);基于优化卷积神经网络与图卷积结合的方法虽然计算与存储开销较大但其性能指标仍优于当时其他主流算法

4、结束语

深度学习的3D点云研究作为一个新兴的研究领域正以显著的速度发展。本文从不同角度探讨了三维点云分类的发展历程,并重点分析了基于深度学习技术的点云分类现状。通过回顾现有技术在点云分类任务中的应用情况可以看出该类模型是借鉴自图像领域的深度学习模型针对其无序性稀疏性非结构化以及信息有限的特点进行了针对性优化与改进本文将此类方法划分为基于投影的分类方法与基于原始点 cloud 的分类方法两类各自具有独特的优势与不足基于投影的方法在处理简单场景时展现出较高的实用性但其在转换 point cloud的过程中不可避免地会丢失大量有效的深度信息相比之下直接处理原始 point cloud 虽然会带来较高的计算开销但在评估现有分类策略时发现直接处理 point cloud 数据整体上能够在分类任务中体现出更强的优势从而有效提升了 point cloud 分类的精度值得注意的是尽管深度学习技术能够有效地提取并利用 point cloud 的特征信息但在当前阶段无论是采用基于投影的方法还是采用基于原始 point cloud 的方法都仍存在一些值得深入探讨的问题例如如何使网络架构兼顾高精度与高效率如何更加灵活地利用 point 间的联系等未来的工作需要围绕这些问题展开深入研究目前关于 point cloud 研究的应用正逐步推进期待有更多创新性的解决方案能够涌现出来

全部评论 (0)

还没有任何评论哟~