FatNet: A Feature-attentive Network for 3D Point Cloud Processing论文笔记
摘要
深度学习在三维点云中的应用因无固定顺序而面临挑战性问题。借鉴PointNet中的点表示方法与dgcnn中的边表示方法,在本研究中我们对点云分析任务设计了三处改进方案:首先提出了一种新型关注神经网络层(FAT层),该层通过融合全局点特征与局部边特征信息构建更为优质的表征;其次发现,在最大池化与平均池化的双重特征融合中采用统一注意力机制能够更高效地提升性能表现;第三提出利用残差连接机制能够更高效地传递各层间的依赖关系,在实验中验证了该方法的有效性:在ModelNet40数据集上的分类精度达到95.2%,并在ShapeNet部分分割挑战任务中展现出卓越性能
二.论文创新点
1)开发了一种新型注意力机制FAT(Focus-Aware Transformer),该机制专为3D点云数据设计,在特征提取与表示学习中展现出独特优势。
2)通过引入加权机制对两种特征聚合方式进行融合优化,在保持信息完整性的同时显著提升了分类精度。
3)首次采用残差连接机制改进传统MLP架构,在提升模型深度表达能力的同时实现了更好的计算效率与资源利用率平衡。
4)经过全面评估实验表明, 该模型在ModelNet40分类任务中表现出超越现有方法的优势, 在ShapeNet零件分割任务中同样取得了具有竞争力的结果, 同时消融实验验证了各组件的重要性。
三.网络结构
1.总体架构

网络概览:
(1)原始点云首先通过一个transformer网络生成一个3×3权重矩阵,并对该矩阵进行加权处理以输入后续的一系列fat layer结构。
(2)在fat layer之间传递残差时,“传统映射方法不再适用”的原因在于无法有效捕捉复杂的非线性关系;本文通过引入共享权重的多层感知机(MLP)实现了残差信息的有效传播。
(3)经过多轮fat layer的特征提取后,在融合前几层与最后一层特征的基础上执行聚合操作;通过创新性地应用FatNet聚合方法获得了一个维度为1024的高维特征向量。
fat transformer net相当于整个fat net的一个简化的版本. 首先是三个不含注意力机制的fat层(64, 128, 1024), 然后是聚合过程. 接着将提取到的特征向量经mlp处理(512, 256). 最终输出一个3×3的变换矩阵, 并将其与点云进行乘法运算.
fat transformer net相当于整个fat net的一个简化的版本. 首先是三个不含注意力机制的fat层(64, 128, 1024), 然后是聚合过程. 接着将提取到的特征向量经mlp处理(512, 256). 最终输出一个3×3的变换矩阵, 并将其与点云进行乘法运算.
1.2The Feature-attentive Layer (FAT layer)

该层中的信息经由跳跃连接传递至下一层;这种结构中采用共享权重的方式对MLP模型进行组织调整以适应不同层之间的嵌入维度需求。每个FAT层分别计算节点和边的独立嵌入,并利用特征注意力机制进行加权调整;我们整合处理加权后的节点与边特征并将它们传递给下一层

点嵌入操作相当于采用共享权重MLP(conv1D)结构进行点网络样式特征提取工作;而边嵌入则采用了与DGCNN类似的架构设计方式。我们在图中展示了一个特征注意机制模块,在此过程中对每个单独的特征嵌入计算其对应的注意力权重值。在构建特征嵌入模块时,则采用了包含两个密集层(全连接层)的设计方案,并基于共享权值的方式学习各节点/边节点特定的关注度权重参数。具体而言,在输入端先执行最大池化操作以提取关键特征向量;随后将这些向量经由编码器-解码器模块进行处理;在这一过程中,在压缩比为8的比例下对输入信号进行降维处理;随后将降维后的表示信息经过上采样过程恢复到原始维度,并将其传递至带有sigmoid激活函数层的部分以获得最终对应节点/边节点的关注度分布信息。
1.3Global Feature Aggregation (GFA) Block

平均池与最大池操作经过共享权重编码解码器处理(压缩比为16),接着应用符号门控机制以分配两个池的注意权重。其缩放后的输出被相加以生成我们的全局特征聚合(GFA)块。现有点云处理架构将点嵌入到更高维特征空间,并随后执行全局特征聚合操作。鉴于嵌入过程中所有信息均被整合到该全局聚合中,在此背景下该方法显然需要进一步探索以构建更优的编码方式。自PointNet提出后直至当前仍未进行任何研究或修改工作关于这一关键组件——即全局特征聚合模块。PointNet的一个重要贡献表明最大池优于平均池操作;然而这并不意味着平均汇聚无法为整体网络性能作出贡献。
为此本文建议综合采用平均池与最大池特征并通过学习注意力权重来调节它们对最终输出的影响程度。我们从1024维的特征层提取最终表征并分别获取最大值与平均值向量表示这些表示随后被送至类似于共享加权解码器-解码器系统其中压缩比同样保持为16其输出经由一个gating机制获得两个聚类的操作权重参数最终将这些权重因子应用于各自对应的池操作后再将结果相加以形成GFA块结构。
在训练过程中网络模型成功学习了如何合理分配这两种特征聚类的重要性度量实验结果表明基于这种混合策略得到的整体性能较单一的最大值 pooling方案具有显著提升效果如图所示即我们的GFA模块设计。
1.4Loss Formulation

1.4.1Node-wise supervision


1.4.2Edge-wise supervision

