Advertisement

PCT: Point Cloud Transformer (阅读笔记)

阅读量:

该文本提出了一种新的基于Transformer的点云学习框架PCT(Point Cloud Transformer),该框架具有固有的排列不变性,特别适用于不规则域的非结构化点云数据。与传统方法相比,PCT通过引入优化的偏移注意力模块和领域嵌入模块来增强局部特征表示能力。具体来说,PCT利用基于坐标的输入嵌入模块将每个点的位置信息与输入特征结合,并采用拉普拉斯矩阵和归一化细化的方法优化偏移注意力机制。此外,领域嵌入模块通过聚合局部点组之间的注意关系来辅助全局特征提取。实验表明,在分类、分割和正态估计任务中,带有显式局部上下文增强的PCT取得了最新的性能表现。

该系统采用坐标位置编码的方法进行输入嵌入,并通过优化后的偏移注意力机制提升模型性能。系统架构包含多个关键组件:首先是一个基于坐标位置编码的输入嵌入模块;其次是一个优化后的偏移注意力机制;最后是领域特定嵌入机制。

  • contributions *
    • 点云数据在Transformer架构中的表示方法*
      • Encoder*
      • 分类任务*
      • 分割任务*
      • 法向量估计任务

Naive方法(PCT),Offset-Attention模型的偏移注意力机制以及强化局部特征表达的领域内嵌表达

开展实验研究

PCT协议作为一种国际标准协议,在全球范围内得到了广泛应用。该协议旨在通过标准化实现不同系统之间的高效通信与协作。在系统架构方面,PCT支持多模态数据交互功能,并具备跨平台应用开发能力。具体而言,在实际应用场景中,该协议能够被应用于企业级解决方案设计与开发、智能终端设备开发,并涉及相关领域研究与创新工作。在性能特点上,则主要体现在其良好的可扩展性、高性能以及易于使用的特性。

该研究主要针对transformer模型在点云处理中的应用展开深入研究与开发。

Transformer在处理一系列点时天然地具有排列不变性。为了更有效地捕获点云数据的上下文信息,作者增强了input的空间嵌入操作,使其支持最远点采样和最邻近搜索。

概述

由于点云的无序特性和无结构性。在之前的PointNet中采用多层感知机(MLP)、最大池化(maxpooling)以及刚性变换操作等技术手段来确保其在排列和旋转变化下的不变性。另一种方法是使用卷积神经网络(CNN)来进行特征提取:

  1. 对点云实施体素划分;
  2. 将输入的点序列重新排列。

自然语言处理中的若干差异

基于坐标系统的输入编码组件(Coordinate system-based input encoder component)

在Transformer架构中采用位置编码模块来表示自然语言中的语序以便区分不同位置上的同一个词以及明确词与词之间的位置关系然而点云数据之间没有固定的顺序作者将原始的位置编码信息与输入嵌入数据整合到一个基于坐标的输入嵌入模块中每个点都有其独特的坐标值从而生成具有独特特征的特征向量

改进型偏移注意力机制模块(Optimized offset-attention module)

以该模块输入与其注意力特征之间的 位移量 来 替代 注意力特征。

  1. 绝对位置可以通过刚性变换得到完全不同的结果;因此,在这种情况下相对位置更为可靠。

  2. Laplacian 矩阵在图卷积学习中被广泛认为具有高度的有效性;点云可被视为一个图结构,并通过浮点值邻接关系表示其连接情况(即注意机制(attention mechanism))。进一步地,在每行标准化至长度为1后(这里假设度数矩阵地可被视为单位阵)。此外,在这一过程中偏移后的注意力机制优化大致遵循拉普拉斯传播规律。

该Laplacian 矩阵(度数 矩阵 degree matrix)与 邻接 矩阵(adjacency matrix)之间存在一定的 offset

领域嵌入系统(Neighbor embedding mechanism)

在自然语言处理领域中,每个词都承载着核心的意义。然而,在点云数据中,各点的独立输入坐标与其所表达的语义内容之间呈现出较弱的相关性。这些机制能够有效提取整体特征,并且在一定程度上忽视了空间几何关系;然而,在点云目标识别过程中,局部结构特性往往占据主导地位。

为了解决这一问题,作者采用了 领域嵌入模 块来取代传统的 点嵌入模块 。具体而言,在注意力机制的设计中,并非直接采用单个点之间的全局注意关系,而是引入了包含语义信息的 局部点组 之间的相互作用。

Contributions

一种新的基于Transformer的点云学习框架被成功开发出(命名为PCT),该框架凭借其内在的排列不变性特性,在面对具有复杂不规则区域的无序非结构化点云数据时展现出卓越的应用效果。
相对于传统Transformer架构中的自注意力机制,在本研究中我们创新性地引入了隐式的拉普拉斯矩阵结合归一化细化机制的设计。
大量实验证明,在形状分类、零件分割以及常规估计等典型任务中,在保留显式的局部上下文信息增强策略下所构建的改进型PCT模型均取得了明显地优于现有方法的最佳成绩。

三维点云数据在Transformer框架下的表征方式

分类任务 ; 结构划分 ; 正态估计(normal estimation)

在这里插入图片描述

Encoder

PCT通过将点云的数据进行映射,在一个更高维度的空间中完成特征提取工作。(这一空间能够有效捕捉不同点之间的语义关联性(semantic affinities),并为多种点云处理任务提供可靠的基础支持)

在经过4个连续堆叠的关注力机制的学习后,在特种空间中提取出每个样本独特的语义信息与独特表示特性,并最终利用全连接层生成输出特征向量。

在这里插入图片描述
在这里插入图片描述

其中 AT^i 代表第i个注意力层,在保证输入与输出维度一致的同时,我们引入了一种更高阶的特征映射方式 F_e。通过线性变换权重矩阵 W_o 对中间结果进行处理。
通过将最大池化操作(MP)与平均池化操作(AP)进行融合来聚合全局表征,则可获得更加丰富的表征信息。
该方法称为MA-Pool。

基于深度学习的方法构建了一个有效的分类机制。该分类器通过使用大规模的训练集进行学习,并采用复杂的网络架构来表示数据特征之间的关系。在模型设计方面,我们采用了自适应优化策略以提升性能指标。实验结果表明该方法在多个领域上表现优异。

基于深度学习的方法构建了一个有效的分类机制。该分类器通过使用大规模的训练集进行学习,并采用复杂的网络架构来表示数据特征之间的关系。在模型设计方面,我们采用了自适应优化策略以提升性能指标。实验结果表明该方法在多个领域上表现优异。

在这里插入图片描述

由两个级联的前馈神经网络模块构成(包含线性层、BatchNormalization (BN)和ReLU激活层),各层均采用0.5的概率进行Dropout正则化处理后,在经过一系列特征提取与学习操作后,最终通过一个全连接(Linear)结构输出对应的N_c个分类结果。

在这里插入图片描述

首先将全局特征F_g与点特征F_o进行融合。为了构建适用于多种对象的一般模型,在训练过程中对某一类目标进行类别向量编码为64维特征后与全局特征融合。其结构与大多数基于点云分割网络相似,在前馈神经网络层LBR上施加了Dropout机制以防止过拟合,并最终实现点分类输出结果共N_s类。

正态分布估计

采用与分割相同的网络结构仅限于N_s=3

该算法基于简单的概率模型进行分类任务处理,其核心思想在于通过以下步骤实现对数据集的有效识别.首先,系统会根据输入特征提取出关键属性参数,随后结合预设的概率分布模型对数据进行分类.这种基础方法虽然在某些特定场景下无法达到最优分类效果,但在计算资源有限的情况下能够提供一个可接受的结果.

为了进一步优化分类性能,该算法采用了多种改进措施.一方面,通过引入动态权重机制能够更好地平衡各维度特征的重要性;另一方面,结合历史数据反馈机制使得模型能够逐步适应数据分布的变化.总体而言,尽管该方法属于较为基础的分类技术范畴,但在特定应用需求下仍能展现出良好的适用性和可靠性.

该方法通过将整个点云数据进行建模与自然语言处理类比,在每个点处进行操作。随后,在每个采样位置上分别提取特征向量,并将其映射至d_e维特征空间中形成一个矩阵F_e ∈ R^{N×d_e}(其中d_e=128)。在此基础上采用两个级联LBR组成的权重共享网络进行特征提取与信息融合。研究者选择仅利用3D点的位置信息作为输入特征(即d_p=3)这一做法相较于现有方案依然具有优势;然而为了进一步提升性能表现还可以考虑引入额外的向量信息如法向量等来进行补充处理

采用自注意力(self-att, SA)组件

该机制(基于self-attention标记)通过计算各元素间语义相关性来分析数据序列中的信息关联。

在这里插入图片描述

在图中虚线线条段代表SA组件,在实线段表示Offset-Attention OA。

在这里插入图片描述

Q,K,V为输入特征的线性变换生成的查询矩阵、键矩阵和值矩阵。F_{in} \in R^{N \times d_e}W_q,W_k,W_v为权重共享的可学习的线性变换矩阵。d_a为query矩阵和key矩阵的维数。
首先可以通过query矩阵和key矩阵的矩阵点积算出注意力权重:

在这里插入图片描述

对图3中的SS实施归一化处理

在这里插入图片描述

该模型中SA模块的输出F_{sa}等于Value矩阵与注意力权重通过加权计算得出的结果。

Q,K,V 矩阵基于输入特征 F_{in} 和线性变换矩阵 T.
此外, softmax 和 weighted sum 操作均不涉及数据的排列信息, 并且整个 SA 过程保持了点云数据的排列特性, 因此该方法特别适合用于点云处理.

最终输出结果表示为F_{out} = SA(F_{in}) = LBR(其状态变量) + F_{in}$

偏移注意力机制(OAM)

图卷积网络通过验证替代邻接矩阵的方法显示出了更好的效果,并且该方法采用了拉普拉斯矩阵...来计算节点间关系。

采用OA取代SA以提升PCT水平。
OA通过计算SA特征与输入特征之间的差异,并采用LBR代替原来的SA特征。
F_{out} = OA(F_{in})=LBR(F_{in}-F_{sa})+F_{in}
F_{in}-F_{sa}类似于离散的拉普拉斯算子:

在这里插入图片描述

通常不考虑线性层中的权值矩阵\bm{W}_v
在注意力机制中表示为对应于图Laplacian \bm{D}的相关单位阵
在注意力机制中表示为对应于图邻接矩阵\bm{E}的关注力权重
因此,在频域上进行卷积操作后的新特征可表示为原始特征与Laplacian算子作用后的结果之差

在这里插入图片描述

在第一维上应用softmax,在第二维上采用L1范数对注意力权重进行归一化处理。该方法在本文实验中采用简单PCT(SPCT)作为基准模型。

通过领域嵌入方法提升本地特征表示的能力(Enhanced Neighbor Embedding for Improved Local Feature Representation)

在之前的方案中,并未考虑点云数据间的局部领域信息。作者借鉴了PointNet++和DGCNN的核心思想,在局部领域聚合策略上进行了创新性设计(采用邻居嵌入技术)。

在这里插入图片描述

领域嵌入模块包含若干LBR和SG组件。与常见的CNN架构相似,在特征聚合过程中逐渐扩展接收域。

在这里插入图片描述

在对点云数据进行采样时,SG层基于欧氏距离计算每个点的k个最近邻居,并通过聚合本地区域的特征信息来完成特征提取。

该层通过采样从点云\mathcal{P}中获取\mathcal{N}个样本,并基于这些样本生成对应的特征表示;其工作流程如下:首先对原始点云\mathcal{P}进行采样处理得到采样后的点集\mathcal{P}_s=\{\mathbf{p}_1,\dots,\mathbf{p}_{\mathcal{N}_s}\}及其对应的特征信息\{\mathbf{f}_1,\dots,\mathbf{f}_{\mathcal{N}_s}\};随后将这些采样结果传递到后续的网络模块进行特征聚合运算;最终输出整合后的全局特征表示\mathcal{F}_{\text{s}}=\{\mathbf{o}_1,\dots,\mathbf{o}_{\mathcal{M}}\}。”

通过最远点采样的方法(FPS)对点云数据集进行downsampling操作以生成降采样后的数据集\mathcal{D}_{\text{down}}. 在此过程中, 我们首先从原始高密度的三维空间中选择关键特征点, 从而有效减少后续处理的工作量. 然后, 对于每个位于降采样后数据集中的点x∈\mathcal{D}_{\text{down}}, 我们计算其在原始三维空间中的k个最近邻居, 并基于这些邻居关系构建图结构. 最后, 通过图卷积网络提取节点特征并聚合得到最终的特征表示.

在这里插入图片描述

通过将v向量重复k次生成矩阵RP(v,k)。其背后的思想源自EdgeConv。

Yue Wang 等人提出了一种基于动态图卷积网络的方法用于点云学习的研究成果,并发表在《A CM Trans actions on Graphics》期刊上。该研究探讨了动态图卷积网络在点云数据处理中的应用,并展示了其在提升点云学习效果方面的有效性。

均设置了不同的网络架构以适应各类任务需求。在分类任务中,仅需进行全局类别预测。两个SG层分别降采样为512个和256个采样点。而对于分割与法向估计任务,则涉及预测每个部分的类别或法向信息。此时上述特征主要用于提取局部特征而不减少采样数量。

实验研究

对官方发布的模型网40和ShapeNet等数据集进行性能评估

全部评论 (0)

还没有任何评论哟~