Advertisement

[论文搬运]Self-Supervised Point Cloud Representation Learning with Occlusion Auto-Encoder

阅读量:

A Self-supervised Approach to Point Cloud Representation Learning with Occlusion-Aware Autoencoder

1. Introduction

本文的研究无需依赖人工标注的数据进行监督学习,而是专注于探索点云表征方法。作为图像学领域的基础,二维与三维图像的研究历史跨越多年,累积了许多共性实践,包括自动编码器架构与自重构监督方案等。近年来,NLP技术和2D计算机视觉领域的最新进展,已在多个改进方案中得到了应用,其中PCT[14]、Point-Bert[64]以及STRL[20]均为重要代表。然而,由于2D域与3D域在数据特性的本质区别在于有序二维网格与无序三维点集之间的差异,许多传统二维方法难以直接迁移至三维场景中实现有效的提升。

主要挑战之一在于理解全球结构与局部几何之间的层次关系。在3D场景中由于点云数据的离散特性此问题比学习2D图像更为复杂。`传统的三维自编码器大多依赖于基于重构的目标函数来学习全局结构与局部特征。`然而基于重构的传统框架往往无法有效地区分局部细节与整体结构。`因此这些方法通常仅通过相似性度量如 Hausdorff 距离等手段来综合表征整体特征。`然而关于从局部到全局层次进行更细致自我监督的研究仍处于早期阶段。

基于模板的2D自动编码器的最新改进[17]已经被证明是通过基于可见局部块的全局图像信息的推理来有效地学习图像表征。这为建立地方信息与全球信息的自我监督提供了新的视角。由于点云的本质是离散的,直接使用2D基于掩模自动编码器(mask-based auto-encoder)学习3D困难。我们提出了一种新的基于变压器的自监督学习框架3D-OAE ,该框架具有遮挡自动编码器(Occlusion Auto-Encoder)。如图1所示,我们将未标记的点云分割成局部点片,并将它们集中到相应的种子点。在此之后,我们遮挡了很大一部分面片,但仍然保留种子点,并从种子点和可见面片中学习恢复被遮挡的块。种子点作为全局形状的提示来指导全局形状的生成,模型将被迫专注于学习局部几何细节。具体地说,我们设计了一个编码器来只学习可见块的子集上的特征,以及一个解码器来利用可见块的特征来预测遮挡块的局部特征,最后以种子点为全局提示,重建遮挡的面片。在没有任何人工标注的自监督学习之后,我们可以将训练好的编码器转移到不同的下游任务中。我们通过在广泛使用的基准下比较我们的方法来展示我们的优越性能。

我们的主要贡献可概括如下:

  1. 我们开发了一种创新性的自监督学习框架命名为3D Occlusion Auto-Encoder(简称为3D-OAE),该架构采用了非对称编码器-解码器结构。
  2. 该架构在完成自我监督训练后得以应用于后续的任务。
  3. 该方法能够去除高达75%的点云块。
  4. 仅负责编码可见区域的小部分点云数据。
  5. 这不仅显著提升了训练效率(提升幅度达3至4倍),还为在大规模无标签数据环境下实现高效的自我监督学习奠定了基础。
  6. 相较于现有几种主流的自监督方法,在6个不同领域中的应用均取得了超越性的性能。

3. Occlusion Auto-encoder(遮挡自动编码器)

3D-OAE由编码器和解码器构成(从输入形状中提取表示)(并能从学习到的表示中重建原始形状)。与传统编码器不同的是,在这种架构中,默认情况下会对整个点云进行操作;相反,在3D-OAE中,默认情况下会将完整的点云(shape)划分为多个patch区域,并通过高程遮挡处理来隐藏部分几何信息并进一步学习对应的隐藏几何特征。为此,我们设计了一种非对称编码器-解码器架构(其中编码器仅作用于可见斑块区域),通过将预测得到的局部特征与预设种子点相结合作为全局提示来推断出与输入三维形状语义匹配的缺失几何图形。具体来说,在实验过程中首先执行平均池化操作(将所有局部特征合并生成一个全局特征),然后将该全局特征输入到专门设计用于不同 downstream任务的目标解码模块中。

3.1 Grouping and Occluding(分组和遮挡)

以前基于Transformer的方法将原始形状中的每个单点视为最小操作单元,就像句子中的单词一样。然而,由于点云数据规模庞大(我们不希望一个句子有数千个单词),它带来了巨大的计算复杂度和大量的内存需求。受前人作品[10,64]的启发,我们选择使用点云的patch作为最小单位 。为了实现这一点,我们首先使用最远点采样(FPS)对给定的输入点云p \in \mathbb{R}^{N \times 3}上的种子点s \in \mathbb{R}^{M \times 3}进行采样,然后使用K近邻(KNN)对每个种子点\left\{s_{i}\right\}_{i=1}^{M}周围的点片集\left\{g_{i} \mid g_{i} \in \mathbb{R}^{G \times 3}\right\}进行采样,如图3所示。但将这些面片直接放入神经网络是行不通的,因为结构信息和空间坐标在点云中纠缠在一起。为解决这个问题,我们通过将每个patch集中到其对应的种子点,因此每个patch只包含其局部几何细节,而种子点提供全局提示。

通过简单的遮挡策略,在种子点集合\left\{S_{i}\right\}_{i=1}^{R}中进行随机采样,并去除各自对应的patch\left\{g_{i}\right\}_{i=1}^{R}。随后,我们通过一个简单PointNet模型将每个仍然可见的patch映射到一个patch embedding空间中(如图3所示)。其中E_i被定义为...

其中,在MLP层和权值上设置了参数φ与θ。这里定义了一个变量C来代表patch embeddings的通道数;同时定义运算符Max来执行最大池化操作;而集合{E_i}(从i=1到M-R)则构成了编码器f的输入数据体

在表8中可以看到更多关于遮盖率的数据比较。通过移除具有高比率的补丁来显著提高自动编码器的重建难度,从而促使模型具备更强的表示能力以生成更多的局部几何细节。值得注意的是该策略的设计使得在大规模无标记点云数据上的高效自监督学习成为可能

全部评论 (0)

还没有任何评论哟~