Advertisement

论文笔记:《FoldingNet:Point Cloud Auto-encoder via Deep Grid Deformation》

阅读量:

这篇论文提出了一种基于深度网格变形的点云自编码器,通过端到端的graph-based编码器和folding-based解码器来直接作用在无序点云上。该方法解决了传统深度学习框架中对点云不规则结构的处理问题,提出了一种新的解码操作(folding)来重构点云表面,并通过实验验证了该方法在分类精度和重构效果上的优越性。实验结果表明,与现有无监督方法相比,该方法在分类任务中表现更优,且在半监督学习场景下也能有效提升分类精度。

Introduction:

本篇论文探讨了基于深度变形网格的点云自编码器架构(AE)。该研究开发了端到端的图模型编码器以及折叠式解码器。

由于点云结构具有不规则性,通常由稀疏的三维点表示,难以适应传统的深度学习框架(例如,在CNN中,每个样本点的邻近样本点需要在固定位置上以便于卷积操作,但点云中的样本点无法做到这一点)。一种可能的解决方案是将点云体素化以模拟图像,但这种方法存在诸多不足,成本较高。作者在此文中提出了一种操作,旨在针对点云结构不规则这一问题,相较于以往的方法,该方案表现出更优的效果。

Contributions:

  1. 开发了一种端到端的深度自编码器模型,用于直接处理无序的点云数据;
  2. 提出了一种名为folding的解码操作,用于对点云进行重新排列;
  3. 通过实验结果表明,相较于其他无监督方法,folding在分类精度方面表现更为优异;

Figures and Tables

Table 1:通过folding操作将2D样本点粘回了物体表面

t1

第一列输入为来自ShapeNet数据集的原始点云样本,
在解码过程中,2D网格点被折合成3D空间结构,
第三、四列分别展示了第一、二次折叠后的结果,输出结果为重构后的点云表面。
第一次折叠将2D网格折合成3D空间形状,第二次折叠则是在3D空间内部进行的。
经过两次折叠,折合出来的表面形状较为精细。
(如果需要获得更好的效果,可以进行多次折叠操作。)

——————————————————————————————————————————————————
Figure 1:

f1

这是FoldingNet的架构。

解码过程:解码模块由两个folding步骤构成。该设计降低了参数数量。最后,我们建立了一个距离函数,用于衡量差异的大小。

第一个loss

其中,S表示输入点集,而S^则对应重构点集。
x属于输入点集中的某一点,x^则属于重构点集中的相应点。

第一项表示,对于输入点云中的每一个点,均能在重构点云中找到其对应点,并计算对应点之间的最小距离,对S中的每个点均执行此操作。第二项与第一项相反,其主要原因是输入点与重构点的点数不一致。

假设K-NNG图具有邻接矩阵A,graph layer的输入矩阵为X,输入矩阵为Y。

编码过程图像层的输出

其中,K是由特征映射矩阵构成的,而矩阵Amax(X)的第i行第j列的输入由相应的数据样本特征决定。

上面那个式子中的一项

local maxpooling操作主要依据图结构来估算局部特征。

——————————————————————————————————————————————————

接下来是实验的结果:

——————————————————————————————————————————————————
4.1 可视化训练过程:

Table 2:FoldingNet还可将非规整的网格映射到三维点云上。

t2

在训练过程中,随机二维流形逐渐转化为点云的表面结构。当原始表面过于复杂时,可能导致失真现象。例如,如图所示,第二行飞机缺少了翅膀,最后一行的椅背失去了小孔。解决方法包括:首先,需要增加输入点样本的数量;其次,应设计更复杂的编码解码网络结构。

————————————————————————————————————————————————————————————————
4.2 point cloud interpolation 点云插值
Table 3:

t3

输入对像和目标对像已经明确给出,基于所提出的架构,该系统具备这种能力,即能够实现同一类别内的或不同类别间的物体表面的重构。

——————————————————————————————————————————————————

4.3 illustration of point cloud clustering
Figure 2:

f2

the embedding result。从图表中可以看出,大多数类别能够被清晰地区分,然而,存在例外情况,例如{table(yellow)v.s.desk(red)}和{dresser(violet)v.s.night_stand(pink)}。

Table 4:

t4

列出了在ModelNet10数据集中分类时最常见的错误。

表名:Transfer Learning Performance Table;表内容:通过codeword构建一个基于MN数据集的线性SVM分类器。

t5

该表格展示了FoldingNet与其他无监督方法在分类精确度方面的对比。在MN40数据集上,FoldingNet表现最佳;而在MN10数据集上,Latent-GAN的表现略胜一筹。

Figure 3:

f3

这幅图直观地呈现了在训练过程中reconstruction loss的下降情况,同时直观地呈现了线性SVM分类器的准确率在训练过程中得到了提升。

——————————————————————————————————————————————
4.5 semi-supervised learning:

有个想法是:标签数据比未标签数据少很多,会发生什么结果呢?
看下图:

Figure 4:

f4

该实验旨在验证某一假设:基于ShapeNet数据集,我们训练了FoldingNet自编码器模型。在ModelNet数据集中,我们采用了总训练数据量的a%来训练线性SVM模型。值得注意的是,尽管线性SVM的测试集始终来源于ModelNet测试数据集,但在实际应用中,我们发现即使仅使用1%的标记训练数据,分类精度依然达到了55%以上(比表5中大多数方法更为优异)。

——————————————————————————————————————————————
4.6.Effectiveness of the Folding-Based Decorder
Figure 5:

f5

通过观察图形可以看出,折叠型解码器具有较高的精度,同时保持较低的重构损失。与传统的fully-connected decoder相比,我们提出的方法在操作便捷性方面具有优势,且参数数量显著减少。

全部评论 (0)

还没有任何评论哟~