Advertisement

【论文笔记】PCT: Point Cloud Transformer

阅读量:

这篇论文探讨了如何将transformer架构应用于点云数据上,并提出了一种改进后的网络结构(PCT)。该方法通过输入嵌入模块对点云进行特征提取,并利用自注意力机制捕捉空间关系。为了提升性能,在自注意力模块中取消了除以维度的操作,并引入拉普拉斯算子以减少噪声干扰。此外,作者还结合FPS采样和knn_group方法处理局部特征,并通过Maxpooling得到全局特征用于分类任务。实验表明该模型在ModelNet40分类任务中达到93.2%的准确率,在分割任务中表现与PointCNN相当。尽管整体效果良好但在大型点云上的处理效果仍有待进一步优化。

该论文于2021年3月由清华大学发布,在将transformer技术应用于点云领域方面具有重要意义。同时,在其同一年份的相关研究中还存在两篇具有相似研究方向的论文。

本研究的作者指出该变换器在处理序列时表现出良好的稳定性,并且能够在二维视觉任务中展现出显著的效果,在理论上能够替代卷积层。这使得该方法能够在三维点云数据中得到广泛应用。一、PCT的初步方案

在这里插入图片描述

相较于仅包含文本信息的内容而言,在点云特征中包含了位置信息的相关数据属性特性等基础特征指标参数值组合体属性体结构体属性值体系的基础上构建了更为丰富的表征体系模型结构体元素之间的关联关系等特性指标参数值组合体系能够更高效地提取关键的空间几何与语义语义特征属性体信息从而无需额外插入位置信息即可实现对空间关系的有效建模

在这里插入图片描述

这三个Linear层分别由参数组Wq、Wk和Wv表示,并且其输出维度为N×De。

在这里插入图片描述

计算所得结果依次与矩阵V相乘之后得出Fsa值;随后通过另一层LBR网络进一步计算出SA模块的整体输出

在这里插入图片描述

二、PCT
捉着对PCT进行了修改。
在自注意力机制方面,并不再除以维度D,并并对权重进行了额外计算。

在这里插入图片描述

这一改动的目的在于提升权重值,并尽量降低噪声干扰。
作者借鉴了图谱域图卷积中的拉普拉斯矩阵定义L=D-E。因而,在后续步骤中,作者对FSA进行了相应的调整。

在这里插入图片描述

在这里插入图片描述

该处理通过多层LBR提取了全局特征,但未充分考虑局部特征的影响。研究者借鉴PointNET++与DGCNN模型,在执行FPS采样及knn_group操作后,将局部相对特性和中心特性输入到LBR网络中进行训练。最后通过Maxpooling操作获得最终输出结果:

在这里插入图片描述

对于分割与法向量估计的任务而言,则是将每个点进行分类处理的过程;由此可以得出结论是:该方法并未采用采样策略,在输出结果与输入数据中所对应的点数量一致。而对于单纯的分类任务而言,则是在经过两个SG的处理后,在分类任务中点的数量被缩减至512个和256个。

尽管网络在处理大型点云时存在一定局限性,在ModelNet40数据集上的应用却取得了令人满意的成果。该系统实现了93.2%的分类精度,并其分割性能与PointCNN相当。为了进一步提升性能,请增加SG网络的层数。

全部评论 (0)

还没有任何评论哟~