Point Cloud Transformer(PCT)阅读翻译
Point Cloud Transformer (PCT) 是一种结合Transformer自注意力机制与点云数据特点的框架,在形状分类、零件分割和法线估计等任务中表现出色。通过调整输入嵌入模块(基于坐标),引入优化偏移注意力(Offset-Attention)和邻域嵌入策略(Neighbor Embedding),PCT有效提升了局部特征提取能力。实验表明,在ModelNet40和ShapeNet等数据集上,PCT在分类、分割和法线估计任务中均达到最新水平或超越现有方法。其优势在于利用Transformer强大的并行处理能力替代传统卷积神经网络中的操作,并通过自注意力机制捕捉全局语义信息与局部几何特征。
PCT: Point Cloud Transformer
本研究聚焦于智能数据分析领域中的关键挑战问题,提出了一种创新性的多模态数据融合方案,该方案通过整合图像识别与自然语言处理等多维度信息,实现了系统性能的显著提升.具体而言,本研究主要围绕以下几方面展开:首先,构建了基于深度学习的特征提取模型;其次,开发了高效的多源数据集成算法;最后,实现了对实时数据流的智能处理与分析.通过一系列实验验证,我们发现该方法在准确率和响应速度方面均优于现有解决方案.本研究的主要贡献在于:首次提出了一套完整的多模态数据处理框架;其次,实现了跨学科技术的有效结合;再次,为同类问题提供了可扩展的解决方案框架.
Transformer模型采用了编码器-解码器架构。主要包含三个关键组件:词嵌入表示、位置编码机制以及自注意力机制。其中自注意力机制是核心组件。通过整合全局语义信息从而实现对语义关系的精准建模。
Transformer模型采用了编码器-解码器架构。主要包含三个关键组件:词嵌入表示、位置编码机制以及自注意力机制。其中自注意力机制是核心组件。通过整合全局语义信息从而实现对语义关系的精准建模。
在自注意力机制中,输入由词嵌入表示与位置编码相加的结果作为输入,并通过训练有素的线性层分别计算出每个单词对应的query、key、value三个向量.在此基础上,在计算每个单词时,通过计算各查询与对应的键向量的点积来确定它们之间的关联程度.最终,所有值向量按注意力权重进行加权求和的结果即为最终的注意力特征表示.
值得注意的是,在每个 word 的输入 attention feature 与所有的输入特征之间存在关联关系,并因此能够有效学习全局的上下文信息。transformer 模型的所有操作均可以在不依赖顺序的情况下进行处理,并非必须按照严格的顺序执行。理论上讲,在计算资源允许的情况下,该模型结构可以替代卷积神经网络中的卷积运算,并展现出更广泛的适用性。
PCT的核心理念在于利用transformer固有的顺序不变性特性以规避对点云数据固有顺序的影响,并通过attention机制实现特征的有效学习。具体而言,在图1中可观察到attention权重分布与其所反映的部分语义高度相关,并且其衰减程度与空间距离无关

因点云数据与自然语言数据存在本质不同,PCT对其实施了相应的优化
- 基于坐标的输入嵌入模块 。在 transformer中使用了位置编码模块来表示自然语言中的单词顺序,这样可以区分在不同位置的同一单词并且反映出单词间的位置关系。但是,点云无固定顺序。因此在PCT 框架中,我们将原始的位置编码和输入嵌入合并到基于坐标的输入嵌入模块。可以生成可区分的特征,因为每个点都有代表其空间位置的唯一坐标。
- 优化的偏移 attention 模块 。PCT 对原始的 self-attention 进行升级。它通过使用self-attention模块的输入和 attention feature 之间的偏移来替代 attention feature。首先,绝对坐标可以通过刚性转换变成相对坐标,能够增强鲁棒性。其次,拉普拉斯矩阵在图卷积学习中十分有效。从这个角度看可以将点云看做一个图形,将“float”邻接矩阵作为attention graph。同样,我们将每行的总和缩放为 1。因此度矩阵可以被看做为恒等矩阵。因此,偏移 attention 优化过程可以理解成一个拉普拉斯过程(3.3)。此外,我们对第四节中介绍的偏移 attention 和 self-attention做了大量的对比实验来证明其有效性。
- 邻近嵌入模块(neighbor embedding) 。显然句子中每个单词都包含基本的语义信息。但是这些点的独立输入坐标与语义内容之间的关系很小。attention 机制在捕获全局特征方面很有效,但是它可能会忽略局部几何信息,然而这点对于点云的学习是必不可少的。为了解决这个问题,我们使用邻近嵌入策略来改进点嵌入(point embedding)。它还通过考虑包含语义信息的局部点组而不是单个点之间的 attention 来辅助 attention 模块。
PCT在点云特征学习方面表现出了更高的适应性,在形状分类、零件分割以及法线估计等任务中取得了最新进展。
Contributions: 本研究实现了以下几方面的创新性突破:首先,在理论框架上提出了新的模型构建方法;其次,在算法设计上开发出高效的计算方案;最后,在实验验证方面提供了全面的数据支持
该研究成功开发了一种基于 Transformer 的 PCT 框架,并在此过程中引入了创新性的隐式拉普拉斯算子和归一化修正项的偏移注意力机制。该方法相较于传统的 self-attention 机制,在处理点云数据时展现出显著的优势。通过系统性实验验证,在形状分类、零件分割以及法线估计等关键任务上均展现了超越现有最佳成果的能力。
This section discusses existing research efforts that have explored various aspects of this topic.
(2.1) 转换器在NLP领域展现出显著的技术优势
Bahdanau等人最初提出了具有注意力机制 的神经机器翻译方法;其关注权重由RNN的隐藏层来计算。随后,LIn等人引入了自注意力机制;这种机制被用来帮助理解和解释句子嵌入。在此之后,开发出了基于自注意力机制进行机器翻译的transformer架构;这种架构并未使用任何重复或卷积运算符。接着,BERT(一种双向transformer架构)在NLP领域中占据重要地位;最近发展出诸如XLNet、Transformer-XL以及BioBERT等语言学习网络,在基础上进一步扩展了Transformer框架
然而,在自然语言处理中输入数据具有顺序特征。每个词都包含基本的意义。在点云数据中,各个点之间没有固定的顺序,并且每个单独的点都不携带语义信息。
2.2 Transformer for vision
基于 ViT 的局部区域划分方法以及其在单个词素中的核心意义启发下,我们开发了一个邻近嵌入组件,该组件能够整合来自采样点周边区域的独特特征,从而有效提取局部特征以推导整体语义。
该节讨论的是基于点的深度学习模型
一些其他方法也采用了注意力机制以及Transformer技术。请问PointASNL是否用于解决点云处理中的噪声问题?该系统通过自注意力机制来更新局部点组的特征。PointGMM则通过MLP分割与注意力分割相结合的方式进行形状插值。
PCT主要依赖于transformer而非自注意力模块。我们提出的方法是一个更加通用的框架,并广泛应用于各种点云任务。
3.本研究中我们采用基于Transformers的点云表示技术
在本节中, 我们将重点演示如何将PCT学习所得的点云表征形式运用于点云处理中的多个关键任务, 包括点云分类、部件分割以及法线估计等. 首先, 我们将阐述PCT的原始版本——即直接采用传统的transformer架构. 其后, 我们将介绍带有特别注意力机制以及近邻聚合技术(neighbor aggregation)来进一步提升模型对局部特征的捕捉能力.
3.1. Point Cloud Processing using PCT

Encoder部分:PCT旨在将输入点转换为新的高维特征空间,并通过这一高维特征空间表征各点之间的语义亲和力作为多种点云处理任务的基础。具体而言,在PCT编码器中首先会将输入坐标的特征进行投影映射至新的特征空间。随后将这些嵌入后的特征传递至连续4个注意力机制模块以学习每个点所具有的丰富的语义特性和独特表示形式。最后通过全连接层生成原始特征以完成整个编码过程。总体而言,在解码器设计上与传统的transformer架构基本采用了相同的理念只不过在位置编码部分有所省略因为输入坐标的坐标信息已经包含了位置信息
原始点云数据为N\times d矩阵,在经过输入嵌入模块(Input Embedding)处理后生成d_e维的嵌入特征表示矩阵F_e\in{R^{N\times{d_e}}}。随后通过多层注意力机制(Attention Layers)依次进行特征提取与融合操作,在经过d_o维线性变换后得到最终输出特征矩阵F_1\in{R^{N\times{d_o}}};其中第1层注意力输出结果记为(F_1) = AT^1 (F_e)
第i个结果项等于将变换T施加于前一结果项后的第i次应用的结果,并且其中i取值为2到4。
F_o is equal to the concatenation of F_1, F_2, F_3, and F_4 multiplied by W_o.
在本模型中,W_o表示线性层中的权重参数
为了有效提取具有代表性的点云全局特征向量F_g,本研究采用将两个不同合并运算器的输出进行融合处理的方法。具体而言,在该方法中我们将max-pooling(MP)与average-pooling(AP)两种操作器的输出进行结合以生成最终的结果
该算法旨在将输入点云划分为N_c个目标类别。全局特征F_g通过该分类解码器进行处理,并由两个连续的前馈神经网络构成。每个分支均配备概率为0.5的Dropout层以增强模型鲁棒性。经过上述处理后,通过全连接层计算出最终类别得分向量C\in\mathbb{R}^{N_c}。其类别标签则取该得分向量中的最大值对应的类别。
Point cloud segmentation aims to partition a point cloud into N distinct regions, assigning a semantic label to each point. By fusing global features with local point features, the method seeks to learn a generalized model for various objects, similar to other point cloud segmentation networks. Each object point is encoded as a one-hot label vector within a 64-dimensional feature space and then concatenated with global features. The decoder architecture mirrors that of classification networks, except for the inclusion of dropout in the initial branch only. The network outputs a probability distribution S\in R^{N\times N_s} for each point, with the predicted part label assigned to the category with the highest probability score.
在法线估计中采用分割体系结构,并未对类别进行编码;其输出结果可视为各点处的法向量。
3.2 Naive PCT
优化 Transformer 在点云处理中的最直接方式是将整个点云视为一个完整的句子结构。通过引入基于坐标的三维空间嵌入并结合自注意力机制的计算能力,在这一框架下实现了 PCT 模型的基础构建。
在现有方法中,基本的点嵌入表示方法存在一定的局限性。这种表示方式的主要目标是将具有语义接近度较高的点映射到嵌入空间中的相近位置。本研究中所采用的方法基于构建一个包含两个级联层的共享神经网络架构,并通过该架构能够将原始三维点云 P 映射到 d_e 维的空间 F_e = \mathbb{R}^{N \times d_e} 中进行处理。其中实验表明,在保持足够精度的同时,取d_e=128能够有效提升计算效率。值得注意的是,在本研究中仅采用了三维坐标作为输入特征进行描述(该策略已通过实验验证优于其他方法),但为了更全面地捕捉点云特征信息,还可以引入其他辅助属性如法向量作为额外输入
对于朴素PCT的构建,基于原始Transformer架构中的自注意力(Self-Attention)机制进行设计。亦即,在数据序列的不同项间计算语义关联性的一种方式。输入特征矩阵F_{in}\in{R^{N\times{d_e}}}, 经过线性变换得到查询、键、值向量组(Q, K, V) = F _{in} · (W_Q , W_K , W_V)
Q, K and V are matrices in \mathbb{R}^{N\times d_a} and \mathbb{R}^{N\times d_e}, respectively.
Weight_q, Weight_k ∈ \mathbb{R}^{d_e \times d_a}, Weight_v ∈ \mathbb{R}^{d_e \times d_e}
共享可学习的线性变换由 W_q, W_k, W_v 表示;其中 d_a 代表查询向量与关键向量的维度;需要注意的是 da ≠ d_e. 在设计时我们采用 $d_a = d_e /4 的策略以提高计算效率.
通过查询矩阵和键矩阵间的矩阵乘法运算来计算注意力权重:
\tilde{A} = (\tilde{\alpha})_{i,j} = Q \cdot K^\top
接着对权重进行缩放处理(SS),得到最终的注意力权重 A = (\alpha)_{i,j} 。
self-attention输出特征F_{sa}是通过使用相应的attention权重对 value 向量进行加权求和得到的结果。
F_{sa}=A\cdot{V}
当 query、key 和 value 矩阵由共享的线性变换矩阵以及输入特征 F_{in} 决定时,它们均为顺序无关的操作。其中 soft max运算以及加权求和操作均与序列长度无关。因此整个自注意力过程均为与序列长度无关的操作。
此外, self-attention 特征 F_{sa} 和输入特征 F_in 也被用来通过 LBR 网络为整个 SA 层生成输出特征 F_out:
Offset-Attention是一种基于自注意力机制的变位编码器结构。它通过引入偏移项来解决序列并行处理中的难点。该结构在自然语言处理任务中表现出色。

借鉴图卷积网络的思想,在将Transformer应用于点云场景时, OA模块替代自注意力机制能够获得更好的性能表现。OA层通过执行逐元素相减操作计算SA特征与输入特征之间的差异值(偏移量)。这些偏移量被输入到LBR网络中以生成新的特征表示,从而取代传统方法中的SA特征使用方式。
输出特征F_{out}由OA操作生成:F_{out} = OA(F_{in}) = LBR(F_{in} - F_{sa}) + F_{in}。
其中F_{in}-F_{sa}类似于离散拉普拉斯算子的表现形式。

\bf{W_v} 可以忽略因为它表示线性层的权重矩阵。\bf{I}是与拉普拉斯矩阵的对角矩阵 D 相当的恒等矩阵,\bf{A}是与邻接矩阵相对应的 attention 矩阵。
在增强版的 PCT 系统中采用了归一化机制:
\bar{\alpha}_{i,j}=softmax(\tilde{\alpha}_{i,j})=\frac{exp(\tilde{\alpha}_{i,j})}{\sum\limits_{k}exp({\tilde{\alpha}_{i,k}})}\\ \alpha_{i,j}=\frac{\bar{\alpha}_{i,j}}{\sum\limits_{k}{\bar{\alpha}_{i,k}}}
我们对第一维度应用了 softmax 操作,并在第二维度施加了 l_1-范数进行归一化处理。传统 transformer模型通过缩放操作将第一维度的特征按比例调整为 \frac{1}{\sqrt{d_a}} 的大小,并对该维度的所有元素应用 softmax 函数完成第二维度的归一化。
值得注意的是,在模型中我们通过 offset-attention机制来提升 attention 权重并降低噪声的影响,这对下游模型的性能提升具有重要意义。如图1所示,在 offset-attention map 的示例中可以看出不同查询点的注意力分布差异显著,在语义层面通常具有意义。通过实验验证发现这种改进后的 PCT 方式能够有效提升性能指标,并将其命名为简单 PCT(SPCT)。
This method is referred to as the Neighbor Embedding approach for enhancing the augmented local feature representation.

left: neighborhood embedding架构;
由 SG 模块组成,并包含 N 个输入采样点、D 个输入通道、K 个邻居节点、N_{out} 输出采样点以及 D_{out} 输出通道。
右上角区域:提供采样示例区域。
下方展示的是k-nearest neighbors grouping examples, 如图所示。
LBR上所携带的数值:代表的是输出端口的数量;
具体而言,在SG上所涉及的数值包括采样点数量与输出通道数量。
PCT 的点嵌入虽然能够提取全局特征但未能充分考虑本地邻域信息的影响这在点云学习过程中具有重要意义。通过借鉴PointNet++和DGCNN等方法的思想我们设计了一种基于局部邻域聚合的优化策略即邻域嵌入机制旨在增强PCT在局部特征提取方面的表现具体而言该模块包含两个LBR层用于局部特征提取以及两个SG层(采样与分组)用于逐步扩大特征聚合范围并提升感受野覆盖能力。如图所示该模块结构图中包括两个LBR层分别负责3.2个点的基础性嵌入并通过SG层进行层次化的特征聚合以模拟CNN中多级联结的方式扩张感受野范围从而实现更高效的特征提取过程。
例如,在SG层中假设我们采用一个包含N个顶点及其对应特征F的点云P作为输入,并生成一个包含N_s个顶点及其对应的聚合特征F_s的采样点云P_s。接着,在每个采样顶点p\in{P_s}处定义其最近邻区域knn(p,P),随后通过计算得到输出特征\bf{F_s}:

\boldsymbol{F}(p)定义为点p的输入特征,
\boldsymbol{F_s}({p})定义为采样点 p 的输出特征,
其中MP代表最大池化操作,
而RP(\boldsymbol{x},k)则生成一个新的矩阵,
该矩阵是由将向量x复制k次所形成。
EdgeConv方法正是基于这种概念提出的。
采用不同架构来处理三维数据的不同分析任务(如三维体素图、体网图等)。其中,在完成整体特征识别后,在两个尺度块 SG 中(第一个块减少到 512 点, 第二个块减少到 256 点),分别进行降采样操作以降低计算复杂度与存储开销。而对于后续的任务(如分割与曲率估计),则需要通过识别局部几何特征来确定每个采样点所属的具体物体类别及其表面方向。整个过程专注于提取局部区域内的关键信息而不影响整体结构,并且也不会缩减采样密度N值。
一、Experiments
在 ModelNet 和 ShapeNet 两大数据集上进行了实验性验证,并对三种不同的PCT实现进行了分析比较:包括基于点嵌入的自注意力机制(朴素PCT)、基于点嵌入的加法自注意力机制(simple PCT)以及基于邻域信息的加法自注意力机制(full PCT)。
本节讨论了基于ModelNet40数据集的分类任务
ModelNet40 包含有 40 种目标类别下的 12311 个 CAD 模型,在多个领域中被广泛应用,尤其在点云形状分类和表面法线估计方面具有重要价值。

基于ModelNet40数据集的法向量估计
略。
该系统针对ShapeNet数据集进行了分割任务的研究与实现
略。
对计算资源需求的分析
略。
总结本研究的主要发现已经通过一系列实验得到了有力支持
实验表明,PCT具有良好的语义特征学习能力,并且在多项任务(尤其是形状分类,零件分割和法线估计)上均具有最先进的性能。
鉴于大量的训练数据,Transformer已经显示出强大的功能。 目前,与图像相比,可用的点云数据集非常有限。 将来,我们将在更大的数据集上对其进行训练,并研究其相对于其他流行框架的优缺点。 此外,Transformer的编解码结构支持更复杂的任务,例如点云的生成和重建。 我们将把PCT扩展到更多应用中。
