Advertisement

【论文阅读】【三维语义分割】RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

阅读量:

文章目录

  • RandLA-Net
    • 设计理念

    • 采样方法

    • 本地特征整合

      • LocSE
        • 注意力池化
        • 扩展残差块
    • Experiments

    • 我的思考

2020CVPR
牛津大学

该文提出了一种针对大规模场景语义分割的方法,并采用随机采样技术来进行降采样操作,并成功降低了计算时间。此外,该文还引入了局部特征聚合模块来有效提取出关键特征,并且该模块的设计旨在减少随机采样带来的负面影响。

RandLA-Net

Motivation

本文主要探讨的是大场景问题。然而实际上应该针对的是那些包含大量数据的点云区域,在这种情况下例如50k个样本就是一个典型实例。由于大场景本质上涉及尺度问题而点云的数据规模直接影响着计算效率与存储需求。因此我们定义为'大点云'来统指这类拥有大量数据的区域。

首先作者提出了目前制约对大点云的实时语义分割的因素有以下三点:
1)目前Point-sampling的方法要么费时,要么费内存,对于大点云来说,都是不可接受的。
2)大多数的方法是使用kernelisation or graph construction的方法提取局部特征。但我本人认为这个说法不太成立,因为作者在之前也说了对局部特征提取特征的方法除了上述两种还有neighbouring feature pooling ,也就是Pointnet++类型和attention-based aggregation。而我认为本文就是用了graph construction和attention-based aggregation这两种方法。
3)对于通常由数百个目标组成的大规模点云,现有的局部特征学习者要么无法捕获复杂的结构,要么由于其感受野的大小有限而效率低下。这个其实我也不太理解,我只能说,本文提出的Local Feature Aggregation Module在结果上来看确实很优秀,但说目前的方法具备上述两者缺陷其一,我不太赞同。

Sampling

作者比较了几种不同的samplng方法;其中涉及FPS、IDIS、GS、CRS以及PGS等技术手段;我不打算深入阐述这些采样方法的具体实施细节;这部分内容在原文中有较为详细的描述;实际上应用最为普遍的就是FPS这种技术

相较于上述方法而言,在实时性能方面表现出良好的表现,并且经过实证研究证实了这一优势。现有方法普遍存在的问题在于其计算效率与内存占用之间的权衡:多数以牺牲运行效率为代价换取较低的内存占用;而基于学习的方案往往在大规模数据集上无法收敛

在这里插入图片描述

然而Random Sampling的一个局限性在于,在其密集采样区域主要集中在靠近LiDAR传感器的位置附近时,在远处区域则显得点过于稀疏。通过采样过程,在随机分布的基础上维持了样本的比例特性;然而在远处区域仍然可能出现过密或过少的情况。相比之下,在覆盖整个空间方面具有明显优势。因此,在语义分割任务中表现出更好的适用性。然而在追求效率的同时,则需要探索如何弥补RS方法在细节捕捉方面的不足:即通过扩大每个采样点的感受野范围,在完成随机采样的基础上保留足够的细节信息。

Local Feature Aggregation

这就是为了能够弥补RS所提出来的局部特征提取的方法

在这里插入图片描述

LocSE

对于某个点p_i,找其k个临近点,使用MLP提取特征,具体的由下公式表述:

在这里插入图片描述

其中p_i^k代表了某一个k邻近点。从这种构造方式来看,则相当于基于kNN原理构建了一个图结构。通过该图结构提取特征信息。

Attentive Pooling

然后使用得到的特征,计算一个weight,然后weight加权得到p_i的新特征。

在这里插入图片描述
在这里插入图片描述

Dilated Residual Block

将LocSE+Attentive Pooling整合为一种用于获取p_i特征的方法,并通过该方法实施两次来逐步扩大感受野的范围至K^2。其具体操作过程可在图中详细说明。

Experiments

为了确保RS系统的运行效率显著提升,实验进行了系统性测试。该结果已在讨论RS相关内容时提前涵盖。

2、在Semantic3D和SemanticKITTI上做到了SOTA的效果

3、Ablation Studies
通过查看(1),可以发现移除LocSE后仅依赖于注意力机制的方式效果并不理想。
通过分析(2)、(3)、(4),可以看出相较于仅依靠池化操作而言注意力机制依然具有显著优势。
通过研究(5),可以看出扩展感受野的重要性

在这里插入图片描述

我的思考

我对语义分割相关领域的研究较少。现有的基于点云处理的方法普遍应用于语义分割实验中,并主要依赖 FPS 技术实现效果。本研究通过 RS 技术验证了达到当前最佳性能(SOTA)的能力。即使特征提取效率较高,在当前研究中 FPS 并非必要条件。

相较于PointNet++中的自适应球体采样模块(SA),Dilated Residual Block的显著区别在于:其采用了邻近关系采样(LocSE)策略来构建局部空间关系图;而传统的自适应球体采样(SA)则依赖于固定半径内的全局球体采样方法;经过消融实验对比分析表明,在关注机制的操作上具有明显优势;具体而言,在多级扩张卷积模块构建的深度网络架构显著提升了特征感知能力;而相比之下,在自适应球体采样模块(SA)的设计中,则采用了多尺度特征提取机制

我认为应该尝试进行将RS替换为FPS进行实验,并观察实验结果如何变化以验证FPS是否确实在效果上能够替代RS。

全部评论 (0)

还没有任何评论哟~