【翻译论文】SEMANTIC3D.NET: A NEW LARGE-SCALE POINT CLOUD CLASSIFICATION BENCHMARK(2017)
翻译论文
翻译研究
SEMANTIC3D.NET:新型大规模点云分类基准;T Hackel,N Savinov,L Ladicky,Wegner, Jan D,K Schindler,M Pollefeys
DOI:10.5194/isprs-annals-IV-1-W1-91-2017
文章目录
- 摘要部分介绍本研究的主要内容。
- 一、概述
- 二、相关研究综述
- 二.1 基于二维图像的基线方法
- 二.2 基于三维协方差的基线方法
- 二.3 基于3D卷积神经网络的基线方法
- 三、研究目标
-
3.1 研究目标之一是探索二维图像的特征提取方法
-
3.2 另一个研究目标是分析三维协方差在特征表示中的作用
-
最终目标是建立高效的3D卷积神经网络模型
- 3.1 二维图像基线
- 3.2 3D协方差基线
- 3.3 3D CNN基线
-
四、 数据
-
- 4.1 点云注释
-
五、价值评估
-
六、基准统计
-
七、结论和展望
-
致谢
-
参考文献
-
摘要:
本文提出了一种创新性的3D点云分类基准数据集,其中包含超过40亿个手动标注点,作为数据密集型深度学习方法的输入。我们深入探讨了使用深度卷积神经网络(CNN)作为基准测试的方法,该方法已展现出显著的技术优势。尽管CNN在计算机视觉和机器学习领域已广泛采用,但受限于数据不足,其在3D点云标记任务中仍面临显著性能瓶颈。基于本文提供的海量数据集,我们致力于缩小这一数据差距,以期充分释放深度学习方法在3D标记任务中的潜力。我们的语义3D.net数据集由静态地面激光扫描获取的密集点云构成,涵盖8个语义类别,包括城市内外的多种场景。我们详细描述了标签界面,并展示了该数据集在点云密度和完整性方面的显著优势,相较于现有研究社区提供的数据集,其标签点总数更具竞争力。此外,我们还进行了基准方法的详细描述,并对已发布至在线系统的提交方法进行了对比分析。我们期待该数据集将为深度学习方法在3D点云标记任务中提供更丰富、更通用的表示方式,而初步的基准测试结果已表明这一愿景正在逐步实现。
一、简介
自从 (Krizhevsky et al., 2012) 的开创性论文复兴了 (Fukushima, 1980, LeCun et al., 1989) 的早期工作以来,深度学习已经取得了惊人的回归。特别是深度卷积神经网络 (CNN) 已迅速成为一系列基于学习的图像分析任务的核心技术。计算机视觉和机器学习中的绝大多数最先进的方法都将 CNN 作为其基本组成部分之一。他们在图像解释任务上的成功主要归功于 (i) 易于并行化的网络架构,有助于在单个 GPU 上从数百万张图像进行训练,以及 (ii) 像 ImageNet 这样的大型公共基准数据集的可用性(Deng et al., 2009 , Russakovsky et al., 2015) 和 Pascal VOC (Everingham et al., 2010) 用于 rgb 图像,或 SUN rgbd (Song et al., 2015) 用于 rgb-d 数据。
虽然 CNN 在图像解释方面取得了巨大成功,但在 3D 点云解释方面却不太成功。使 3D 点云的监督学习变得困难的是每个数据集的数百万点的绝对大小,以及不规则的、未网格对齐的、在某些地方非常稀疏的结构,点密度变化很大(图 1)。

图 1:基准数据集的示例点云,其中颜色表示类标签。
目前的记录方式较为直接,但关键的挑战在于生成足够量的标注数据,这是构建有效机器学习模型所必需的。这些模型在面对新的、未见过的场景时也能表现出色。然而,由于额外的维度,3D空间中的分类器参数数量显著多于2D空间。这些特定的3D效果(如遮挡或点密度的变化)会导致同一输出类别下存在多种不同的模式。这使得传统的基于2D的分类器在3D场景中需要更多的训练数据才能达到相同的效果。与相对容易标注的2D图像相比,3D点云数据的标注难度较高。此外,3D导航任务的计算复杂度更高,并且点密度的变化对模型的解释能力提出了更高的要求。

为了提升点云处理算法的开发效率,我们提供了一个(基于我们的研究发现)规模庞大的地面激光扫描数据集,并附加了具有实用意义的地面实况注释。该数据集包含超过4.109亿个点和8个类别标签,并被划分为大小相近的训练集和测试集。扫描数据具有显著挑战性,不仅由于其每次扫描的尺寸高达约4·108个点,还因其实测分辨率高且覆盖范围大,导致极端的空间密度变化和严重的遮挡问题。为了方便研究人员进行基准测试,我们不仅提供免费获取的数据集,并支持自动在线提交系统,同时公开了系统的提交方法和测试结果。该基准集包含基准线,即基于特征值的多尺度特征提取作为标准流程,随后采用随机森林进行分类,同时提供基本深度学习方法作为对比基准。此外,我们简要讨论了基准测试的首次提交情况。
二、 相关工作
基准测试工作在地理空间数据领域具有悠久的历史,在ISPRS社区中占据重要地位。近年来,相关研究主要集中在两个方面:一是针对高密度航空图像匹配的ISPRS-EuroSDR基准测试3,旨在评估倾斜航空图像的密集匹配方法(Haala,2013;Cavegn等人,2014),以及ISPRS的城市目标检测基准测试和重建项目,其中包含多个关键挑战,如航空图像的语义分割和3D对象重建(Rottensteiner等人,2013)。
基准测试工作在地理空间数据领域,特别是在国际空间组织(ISPRS)中有着悠久的历史。近年来,主要实践包括,如ISPRS-EuroSDR基准3,该基准旨在评估高密度航空图像的密集匹配方法(Haala,2013;Cavegn等人,2014)。此外,还涉及城市目标检测基准测试及重建项目,其中包含了多个关键挑战,如语义分割任务和三维重建挑战(Rottensteiner等人,2013)。

在图像领域进行大规模物体检测的先驱性尝试之一是 tinyimages 数据库(Torralba 等人,2008)。在语义图像分割领域具有里程碑意义且仍被广泛应用的基准数据集是著名的 Pascal VOC 数据集(Everingham 等人,2010)以及相关的挑战,该数据集被用于训练和测试众多领先的深度学习算法,如 Long 等人(2015)和 Badrinarayanan 等人(2015)。另一个较为近期的基准数据集是 MSCOCO 数据库(包含 30 万张带注释的图像),该数据集支持物体分割、历史文物识别以及图像描述任务。在计算机视觉领域最受欢迎的基准之一是 ImageNet 数据库(Deng 等人,2009 年;Russakovsky 等人,2015 年),该数据库推动了卷积神经网络在计算机视觉领域的兴起(Krizhevsky 等人,2012)。它包含了超过 140 万个图像,这些图像按 WordNet 层次结构分类,其中包含认知同义词的图像集合
微软Kinect的推出催生了几个大型RGB-D图像数据库,这些数据库因其具有代表性的特点而广受欢迎。其中最具代表性的例子包括纽约大学深度数据集V2(Silberman等人,2012)和SUN RGB-D(Song等人,2015)。这些数据库为物体分割和场景理解提供了高质量的标记RGB-D图像。相较于激光扫描仪,低成本的结构光RGB-D传感器具有较小的测量范围和较低的分辨率。此外,由于阳光的红外光谱对投射的传感器图案产生了干扰,使其在户外环境中的工作效果较为有限。
目前尚无公开可用的具有上述视觉基准规模的激光扫描数据集。鉴于此,许多基于Voxel网格的卷积神经网络(Brock等人,2017年;Wu等人,2015年)主要依赖于从ModelNet(Wu等人,2015年)的CAD模型中人工生成的数据,这构成一个相对较小的合成数据集。基于此,最近的研究表明,这些方法在ModelNet10上的表现超过97%,这表明模型在数据有限的情况下容易过拟合。

现有的激光扫描数据集大多来源于移动测绘设备或机器人系统,例如DUT1(Zhuang团队,2014)、DUT2(Zhuang团队,2015)以及KAIST(Choe团队,2013)。这些数据集在规模上均小于107个点,并且均为非公开数据。相比之下,公开可用的激光扫描数据集包括奥克兰数据集(Munoz团队,2009,约2×106个点)、悉尼城市物体数据集(De Deuge团队,2013)、Paris-rue-Madame数据库(Serna团队,2014)以及IQmulus & TerraMobilita竞赛数据(Vallet团队,2015)。这些数据集的特点在于,它们均基于移动测绘车上的三维激光雷达数据采集,其点密度显著低于常规静态扫描(如本研究中的方法)。由于这些数据集规模较小,监督学习算法容易面临过拟合问题。目前,广泛使用的点云数据集普遍缺乏全面、透明的评估体系,这一评估体系需通过互联网公开并持续更新,以便系统性地列出所有基准数据集。
我们借助于本文介绍的 semantic3D.net 基准,旨在缩小这一差距。该基准提供了最丰富的三维点云数据集,其中包含约40亿个经过人工标注的点,具备完善评估机制,并持续更新。它成为首个支持在真实三维激光扫描图上进行深度学习的数据集,其中每个扫描点都具备高质量人工标注的标签。
三、目标
给定一组点(此处来自静态陆地激光扫描仪的密集扫描),我们旨在对每个点进行单独的类别标签分类。我们提供三种基准方法,这些方法旨在涵盖最近用于该任务的典型分类方法类别。
i) 二维图像基线。
多种先进的激光扫描仪不仅能够获取彩色值,还能够扫描整个扫描区域的彩色图像。彩色图像不仅提供了额外的物体证据,还可能有助于分类任务。传统的二维语义分割方法仅基于二维彩色图像进行分类,而未采用任何深度信息,以便与现有的二维语义图像分割方法建立联系。现代深度卷积神经网络作为核心模块,能够实现对图像标签的一次性推断。此外,深度架构与条件随机场(CRF)结合使用,能够进一步提升分类性能。在第3.1节中,我们介绍了基于图像的语义分割方法作为基线模型。
ii) 三维协方差基线。
在点云处理中,一种更为具体的策略是直接进行点云级别的特征提取,充分挖掘了三维空间数据的特性。该方法基于当前最先进标准的分类管道,通过从三维(多尺度)邻域中提取手工设计的特征向量,并将其输入到高度判别性学习模型中进行分类。这些特征通常采用点邻域的协方差矩阵(Demantké等人,2011)或随机直方图集(Blomley等人,2014)来进行表征。值得注意的是,为了更精确地捕捉表面几何特性,我们采用了圆柱形邻域编码方法(Monnier等人,2012;Weinmann等人,2013)。作为对比分析的基础,第二种基线方法(第3.2节)采用了类似的处理流程。

图2中,第一行最上面显示的是地面在图像中真实呈现的投影效果。底部一行则展示了基于图像基线进行分类的结果。白色区域代表未标记的像素,黑色区域表示没有相应三维点的像素,灰色区域为建筑物,橙色区域代表人造地面,绿色区域为自然地面,黄色区域代表低植被,蓝色区域为高植被,紫色区域代表硬景,粉色区域为汽车。
iii) 3D CNN基线。
将深度学习技术延伸至三维点云领域,可视为一种自然的扩展。这一策略的核心在于体素网格的采用,以确保每个点的邻域结构具有规则性。近年来的研究中,八叉树(Wu等人,2015)和稀疏体素网格(Engelcke等人,2017)等自适应邻域数据结构被广泛应用于此类场景。第3.3节中的第三个基准方法,采用了一个直接且基础的三维体素网格卷积神经网络架构。
3.1 二维图像基线
我们采用立方体映射法(Greene, 1986)将扫描的颜色值映射为独立的二维图像(不含深度信息)。通过将地面真相标签通过将点云投射至图像空间进行处理,从而将三维点的标签任务转化为二维RGB图像的语义分割问题(如图2所示)。为了实现这一目标,我们选择采用关联层次场方法(Ladicky等人,2013)。该方法在多个领域中展现了卓越的效果(如Montoya等人在2014年和Ladick´y等人在2014年的研究),并且其原始实现版本在技术实现上具有高度的可扩展性。
该方法的工作原理如下:每个图像像素周围密集提取四种特征类型——texton(由Malik等人在2001年提出),SIFT(由Lowe在2004年开发),局部量化三元图案(由Hussain和Triggs在2012年提出),以及自相似性特征(由Shechtman和Irani在2007年提出)。每个特征类别均采用标准的K-means聚类算法,将其划分为512个独特的模式类别。对于图像中的每个像素,其特征向量则由200个大小不一但固定形状的矩形组成的词包直方图构成。这些矩形随机放置于像素周围扩展的邻域区域。我们采用多类提升(由Torralba等人在2004年提出)作为分类器,并参考Shotton等人(2006年)的研究,选取最具识别力的弱特征进行提取。为了在保持局部平滑的同时不丢失物体边界细节,我们对超级像素内部进行平滑处理,并在其边界处进行类别转换。超像素的提取采用均值移位算法(由Comaniciu和Meer在2002年提出),该算法包含三组参数(如Ladicky等人在2013年所述)。重叠的超级像素的类别可能性,是通过由每个超级像素的词包代表组成的特征向量,利用条件随机场模型进行预测的。基于像素的分类器、基于超级像素的分类器,以及对像素和超级像素的额外平滑度预设,在条件随机场框架中以概率方式结合在一起(Kohli等人,2008)。在优化联想层次的最可能解决方案中,我们采用Boykov等人(2001年)提出的移动制作方法,基于图形切割的算法(由Boykov和Kolmogorov在2004年提出),并适当构建高阶电位(由Ladicky等人在2013年所述),从而实现优化。
3.2 3D协方差基线
第二条基线借鉴了(Weinmann等人,2015)的相关研究。该方法通过多尺度特征提取和判别性学习策略,直接推断出类别标签。同样,我们可获得原始方案的实现。该方案采用多尺度邻域的高效近似方法,其中,点云被子采样生成多分辨率金字塔结构。这样,每一级的恒定邻域单元能够有效捕获多尺度信息。多尺度金字塔结构通过均匀间距的体素网格过滤生成。
该方法在每个层面上提取了特征集,这些特征集是Weinmann等人(2013)所提出特征集的扩展。该方法基于每个点邻域的协方差的不同组合,以不同的几何表面属性作为依据。此外,该方法还引入了基于垂直、圆柱形邻域的高度特征,特别强调了重力方向的特殊作用(假设扫描像往常一样对准垂直方向)。
请注意,我们未采用颜色值或扫描仪的强度参数。这些强度值在点云数据中通常不可用,并且通过经验分析,我们发现它们无法提升该方法的效果。在分类任务中,我们采用随机森林模型,并通过网格搜索和五折交叉验证来确定最佳参数设置。详情请参考(Hackel等人,2016)。
3.3 3D CNN基线


我们基于VoxNet(Maturana和Scherer,2015)以及ShapeNet(Wu等人,2015)的三维编码框架,构建了一个用于点云分类任务的基准线。该流程在图3中进行了详细说明。在处理之前,我们未构建一个全局的三维体素网格,而是为每个扫描点生成了一个16×16×16的体素立方体(编号6)。我们在5个不同的分辨率级别上实施了该过程,体素尺寸从2.5厘米扩展到40厘米,以2的幂次递增,空体素单元标记为0,实心单元标记为1。


在五个尺度中,每个均采用类似于VGG架构的网络路径独立处理,具体包括卷积层、池化层和ReLU层。这些5个独立的网络路径最终整合为一个统一的表征,并通过两个全连接层进行融合。第二个全连接层输出一个8维向量,该向量包含了本基准挑战中8个类别各自的分数,这些分数通过软最大函数转换为各类的条件概率。
在详细描述网络结构之前,我们先介绍以下符号。

c(i, o)表示使用3×3×3滤波器的卷积层,其中i为输入通道数,o为输出通道数,每个边界的零填充大小为1,跨度为1。r表示应用ReLU非线性激活函数,m表示其接受域为2×2×2的三维体积,且在每个维度上的跨度为2。d表示采用概率为0.5的随机失活策略,s表示应用软最大层函数。
我们的3D CNN架构整合了这些组件,模仿VGG网络结构。在卷积层中,我们采用了最小尺寸的卷积核(3×3×3),参考了相关研究的建议,以减少每层的参数数量,从而降低过拟合风险并优化计算效率。
对于影响不同分辨率的五个独立的网络结构,我们模仿了VGG网络的架构(Simonyan和Zisserman,2014)。

输出被量化表示,通过序列化连接各标度特征,并构建两个全连接层以预测类反应。

对于训练,我们采用了标准的多类交叉熵损失作为训练损失函数。深度学习具有非凸性质,它可以通过随机梯度下降(SGD)作为有效的优化手段,从而生成最佳预测性能的分类器。采用随机抽样小批量的方式,通过迭代更新CNN的参数来实现SGD算法。我们广泛应用了Adadelta算法(Zeiler,2012),它是随机梯度下降法(Bottou,2010)的一种扩展。
我们采用了100个训练样本(即点)的迷你批次大小,其中每个批次都是随机且平衡的采样(每类样本数量相同)。我们总共进行了74,700个批次的训练,并从一个包含2.59亿个点的大型代表性点云中抽取了训练数据(sg28 4)。数据增强是CNN预处理过程中的一个标准步骤,其作用是扩大训练数据集并防止过拟合。在此过程中,每隔100个批次,我们采用围绕Z轴的随机旋转来增加训练数据。实验结果表明,额外的训练数据并未提升性能。这表明,在当前案例中,我们主要是在应对欠拟合问题(而非过拟合),即模型未能充分提取现有训练数据中的所有关键特征。因此,我们避免了进一步的数据增强方法,如随机删除点或添加噪声。
该网络基于C++和Lua实现,并采用Torch7框架(由Collobert等人,2011年的研究)进行深度学习。该基准版本的代码和文档可在https://github.com/nsavinov/semantic3dnet上获取。
四、 数据
我们发布了共计30份地面激光扫描地图,每份地图包含约40亿个三维坐标点,涵盖城市与乡村环境,包括农场、市政厅、运动场、城堡和市场广场等场景。我们精心选择了多样化的自然与人工环境,以防止分类系统过拟合。所有发布场景均位于欧洲中部地区,展示了典型的欧洲建筑风格,如图4所示。用于采集这些场景的激光扫描设备均为高精度测距仪,能够在静止状态下实现极高的测量精度和远距离探测能力,同时具有极低的噪声水平。与基于运动结构管道或类似Kinect技术的结构光传感器所获取的点云数据相比,本系统提供的激光扫描数据具有更高的质量与可靠性。
数据记录的扫描仪位置遵循野外常见的做法,其特点在于:在登记时仅需少量的扫描重叠,从而能在最短时间内完成场景记录。这种任意选择扫描位置的方式,意味着不能建立基于点密度和类分布的预设假设。在每个场景中,我们限定每次最多发布3个激光扫描,这些扫描的重叠程度较低。对于同一地点的激光扫描,其相对位置是根据目标特征来确定的。
在该基准测试中,我们将其划分为8个等级类别,涵盖了以下内容:1)人造地形,主要为步行道;2)自然地形,主要为天然草场;3)高植被,包括乔木和灌木丛;4)低植被,包括 annual flowers or shrubs less than 2 meters tall;5)建筑设施,如教堂、市政厅、车站和公寓等;6)剩余硬景类别,如杂乱的建筑装饰物,例如围墙、喷泉和银行;7)扫描伪影,指在静态扫描中动态移动物体所造成的人工影子;8)汽车和卡车,其中一些分类标准可能具有一定的模糊性,例如大树与小树难以明确区分。然而,这些分类标准在实际应用中仍然具有一定的参考价值。需要注意的是,在大多数应用场景中,第7类扫描伪影会被启发式规则集主动过滤掉。为实现这一目标,本研究计划采用机器学习技术进行直接分类,而不进行任何启发式预处理步骤。
在我们看来,大数据集具有重要意义,原因如下:a)通常情况下,扫描数据集都较大,因此在处理实际问题时,需要的方法必须能够处理大量数据。b)在开发具有现代推理技术的、能够表示学习的方法时,大型数据集尤其关键。当数据集规模较小时,即使获得理想的结果,也会让人对可能出现的过拟合现象产生疑虑;对于不满意的实验结果,很难将其归因于进一步研究的方向,而是需要考虑结果是否由方法的缺陷或训练数据不足导致。
4.1 点云注释
与传统的三维数据标记方法不同,我们为每个点独立分配了类标记。尽管这种策略需要更多的人力投入,但它避免了从分割方法中继承错误,并且确保分类器在训练时不会学习人工构建的分割规则。主要问题在于从没有明确邻域或表面结构的数百万个三维点中选择二维显示器上的三维点。我们对两种不同的策略进行了测试和评估。
三维注解:我们采用迭代过滤的方法,即人工选择几个关键点,对数据进行模型拟合,去除模型中的异常值,反复进行这些操作,直到所有异常值都属于同一类别。通过这一程序,可以在短时间内完成大型建筑的筛选。苏黎世联邦理工学院的学生助理通过这种方法标记了一小部分点云数据。
二维注解:当用户旋转一个点云并固定一个二维视图时,绘制一个封闭的多边形以将点云分为内部和外部两部分。其中一部分通常包含来自背景的点并被丢弃。此过程需重复执行,直至所有剩余点归为同一类别。最终,所有点将被划分为不同层次,对应于感兴趣的不同类别。该二维程序与现有的软件包(Daniel GirardeauMontaut, CloudCompare, 2016)协同工作良好,因此它比三维工作流程更易于外包给外部标签商。我们对所有经过外包标注的数据集均采用了该程序进行处理。
五、价值评估

我们采用Pascal VOC挑战赛(Everingham等人,2010)所设定的主要分割评价标准,采用该标准中的平均交并比(IoU)作为分类方法的性能评估指标,其值设定为8。假设各个类别的索引均为1至N的整数,其中N代表类别总数。其中,C表示所选分类方法的N×N混淆矩阵,其中每个元素c_{ij}代表真实类别i被预测为类别j的样本数量。

因此,我们基准的主要评价指标是

我们还报告了每个类别i的IoUi和总体准确性

作为辅助手段,该方法通过提供混淆矩阵C来辅助评估模型性能。同时,要求每个参与者说明完成测试集分类所需的时间T,以及实验所用的硬件配置。该方法在真实世界场景中的适用性,尤其是在处理数十亿个数据点时,具有重要意义。
对于计算资源要求较高的方法,我们提供了一个基于已公开测试数据子集的简化挑战。通过表1和表2的对比实验,我们可以看到,我们提出的基线方法在完整挑战中表现优异,而在缩小挑战中同样表现出色。在已公开的三种基线方法中,基于协方差的模型在性能上超越了CNN基线和基于色彩的模型。受限于计算成本,我们目前仅能在缩小数据集上运行我们的深度学习基线DeepNet。我们期待,当网络容量得到提升时,其性能将更加卓越。值得注意的是,两种尚未公布的3D CNN方法,DeepSegNet和HarrisNet,在全面挑战中取得了显著优势(表1显示,其结果分别高出我们的协方差基线12个百分点)。这表明,当有足够的数据用于训练时,深度学习方法在点云处理领域展现出巨大潜力。这是目前我们基准方法取得进展的第一个重要迹象。
六、基准统计
如图5a所示,测试集与训练集的类别分布具有高度的一致性。值得注意的是,样本数量最丰富的类别是人造地形,这主要是由于便利性考虑,现场操作人员倾向于将扫描设备放置在平整且经过铺设的表面上。值得提及的是,点密度随着与扫描设备的距离增加而呈现二次递减,这表明许多样本都聚集在扫描设备周围。
在测试集和训练集的样本之间,主要区别体现在建模方面。尽管如此,到目前为止,这似乎并未对提交的性能产生显著影响。最具挑战性的类别是扫描文物和汽车类,这类样本数量相对较少,且形状变化较大。扫描人工制品可能是最具挑战性的类别之一,因为其形状主要由扫描过程中物体的运动决定。在与业界专业人士讨论后,硬景物类被归类为杂波类,包括了除房屋、汽车和地面以外的各种人造物体。
为了更直观地了解人工标注的标签质量,我们对人类注释者之间的标签一致性进行了检查。这一检查为不同注释者在标记数据方面的一致程度提供了一个具有指示性的量化指标,并可被视为对人工标记精度的一种内部验证方法。我们估计了不同人类注释者在同一场景的扫描重叠区域的标签一致性。由于标注工作外包,我们无法确定某些重叠区域是否由同一个人标注,因此这一评估只能作为参考。我们发现,相邻扫描的重叠区域可以通过场景中的人工标记来精确确定。尽管扫描排列可能非常精确,但由于两个不同地点获取的扫描点不可能完全重合,因此在两个扫描图之间无法实现点对点的精确对应关系。基于此,我们采用了近邻搜索方法来寻找点的对应关系。需要注意的是,只有在两个扫描图中距离不超过5厘米的点才被视为具有对应关系。一旦建立了点的对应关系,我们就可以将一个云中的地面真实标签转移到另一个云中,并计算出一个混淆矩阵。需要注意的是,这种对应关系的定义是不对称的,即云A在云B中的点对应关系与云B在云A中的点对应关系并不相同。对于每一对云,我们计算了两个IoU值,这表明最大的标签差异不超过5%。值得注意的是,对于移动物体,这种对应关系是不存在的,因此在图5b的评估中,我们排除了类别扫描的伪影。
七、结论和展望
semantic3D.net平台发布了一个包含高质量地面激光扫描数据的基准库,其中包含超过40亿个人工标注的点,并配套了标准化的评估体系。该基准集目前仅有少数研究者参与,但团队对其未来影响力持乐观态度。第一批提交的数据表明,基于卷积神经网络的方法在该领域表现显著优于其他传统方法,例如我们的协方差基线方法。我们期望,基于该基准集提交的研究材料将提供更深入的比较分析,并为研究者全面评估不同分类方法在点云处理中的优劣,最终为该领域研究工作提供指导。我们相信,该基准集将满足研究界的需求,并成为该领域的重要资源。
致谢
这项工作由以下项目资助:瑞士国家科学基金会项目163910、马克斯普朗克CLS奖学金和瑞士CTI项目17136.1 PFES-ES。

表1:Semantic3d在全部数据集上的基准结果。三维协方差基线模型TMLC-MS,二维RGB图像基线模型TML-PC,以及首次提交的HarrisNet和DeepSegNet模型。具体分类指标包括:(1)人造地形类别,(2)自然地形类别,(3)高植被类别,(4)低植被类别,(5)建筑物类别,(6)硬景类别,(7)扫描人工物类别,(8)汽车类别。在二维分类任务中,扫描文物的识别表现欠佳,主要原因在于它们在图像数据中并未被包含。

表2:Semantic3D在缩小的数据集上的基准结果。三维协方差基线TMLC-MS,二维RGB图像基线TMLPCR,以及我们的三维CNN基线DeepNet。TMLC-MSR和TMLC-MS采用相同的方法,TMLC-PCR和TMLC-PC也采用相同的方法。在上述两种情况下,R表示在减少的数据集上的分类器。类别包括:(1)人造地形,(2)自然地形,(3)高植被,(4)低植被,(5)建筑物,(6)硬景,(7)扫描人工制品,(8)汽车。由于扫描文物在二维图像中无法体现其细节特征,因此在二维分类任务中被系统自动忽略。

图5(a):各扫描中各类别点数的总和;图5(b)在相邻扫描的重叠区域中基于真实标签的估计误差。
参考文献
Badrinarayanan, V ., Kendall, A. and Cipolla, R., 2015. Segnet:
用于图像分割的Adeep卷积编码器-解码器架构。 arXiv预印本arXiv:1511.00561。
用于图像分割的Adeep卷积编码器-解码器架构 Blomley, R., Weinmann, M., Leitloff, J. and
Jutzi, B., 2014.Shape distribution features for point cloud analysis-a
geometrichistogram approach on multiple scales. ISPRS Annals of the
Pho-togrammetry, Remote Sensing and Spatial Information Sciences.
用于点云分析的形状分布特征——多尺度的几何直方图方法 Bottou, L., 2010. Large-scale machine
learning with stochas-tic gradient descent. In: Proceedings of COMPSTA
T’2010,Springer, pp. 177–186. 具有随机梯度下降的大规模机器学习 Boykov, Y . and
Kolmogorov, V ., 2004. An Experimental Com-parison of Min-Cut/Max-Flow
Algorithms for Energy Minimiza-tion in Vision. Transactions on Pattern
Analysis and MachineIntelligence. 视觉能量最小化的最小切割/最大流量算法的实验比较 Boykov, Y
., V eksler, O. and Zabih, R., 2001. Fast approximateenergy
minimization via graph cuts. PAMI. 通过图割实现快速近似能量最小化 Cavegn, S., Haala,
N., Nebiker, S., Rothermel, M. and Tutzauer,P ., 2014. Benchmarking
high density image matching for obliqueairborne imagery. In: Int.
Arch. Photogramm. Remote Sens. Spa-tial Inf. Sci., V ol. XL-3, pp.
45–52. 倾斜航空图像的高密度图像匹配基准测试 Chen, L.-C., Papandreou, G., Kokkinos, I.,
Murphy, K. andY uille, A. L., 2016. Deeplab: Semantic image
segmentation withdeep convolutional nets, atrous convolution, and
fully connectedcrfs. arXiv preprint arXiv:1606.00915.
Deeplab:使用深度卷积网络、atrous 卷积和完全连接的 crfs 进行语义图像分割 Choe, Y ., Shim, I. and
Chung, M. J., 2013. Urban structure clas-sification using the 3d
normal distribution transform for practicalrobot applications.
Advanced Robotics 27(5), pp. 351–371. 使用 3d 正态分布变换对实用机器人应用进行城市结构分类
Collobert, R., Kavukcuoglu, K. and Farabet, C., 2011. Torch7:A
matlab-like environment for machine learning. In: BigLearn,NIPS
Workshop. 用于机器学习的类似 matlab 的环境 Comaniciu, D. and Meer, P ., 2002. Mean
shift: A robust approachtoward feature space analysis. PAMI.
均值偏移:特征空间分析的稳健方法 Daniel Girardeau-Montaut, CloudCompare, 2016.
http://www.danielgm.net/cc/. De Deuge, M., Quadros, A., Hung, C. and
Douillard, B., 2013.Unsupervised feature learning for classification
of outdoor 3dscans. In: Australasian Conference on Robitics and
Automation,Vol. 2. 户外 3dscan 分类的无监督特征学习 Demantké, J., Mallet, C.,
David, N. and V allet, B., 2011. Di-mensionality based scale selection
in 3d lidar point clouds. TheInternational Archives of Photogrammetry,
Remote Sensing andSpatial Information Sciences. 3d 激光雷达点云中基于维度的尺度选择
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K. and Fei-Fei,
L.,2009. Imagenet: A large-scale hierarchical image database. In:
Computer Vision and Pattern Recognition, 2009. CVPR 2009.IEEE
Conference on, IEEE, pp. 248–255. Imagenet:一个大规模的分层图像数据库 Engelcke, M.,
Rao, D., Wang, D. Z., Tong, C. H. and Posner, I.,2017. V ote3deep:
Fast object detection in 3d point clouds usingefficient convolutional
neural networks. V ote3deep:使用高效卷积神经网络在 3d 点云中进行快速对象检测 Everingham, M.,
van Gool, L., Williams, C., Winn, J. and Zisser-man, A., 2010. The
pascal visual object classes (voc) challenge.International Journal of
Computer Vision 88(2), pp. 303–338. 帕斯卡视觉对象类 (voc) 挑战 Fukushima, K.,
1980. Neocognitron: A self-organizing neuralnetwork model for a mechanism of pattern recognition unaffectedby shift in position.
Biological cybernetics 36(4), pp. 193–202. 一种不受位置变化影响的模式识别机制的自组织神经网络模型
Greene, N., 1986. Environment mapping and other applicationsof world
projections. IEEE Computer Graphics and Applications6(11), pp. 21–29.
环境映射和世界投影的其他应用 Haala, N., 2013. The landscape of dense image matching
algo-rithms. In: Photogrammetric Week 13, pp. 271–284. 密集图像匹配算法的前景
Hackel, T., Wegner, J. D. and Schindler, K., 2016. Fast
semanticsegmentation of 3D point clouds with strongly varying point
den-sity. In: ISPRS Annals of the Photogrammetry, Remote Sensingand
Spatial Information Sciences, V ol. III-3, pp. 177–184. 点密度变化很大的 3D
点云的快速语义分割 He, K., Zhang, X., Ren, S. and Sun, J., 2016. Deep residual
learn-ing for image recognition. In: Proceedings of the IEEE
Confer-ence on Computer Vision and Pattern Recognition, pp. 770–778.
用于图像识别的深度残差学习 Hussain, S. and Triggs, B., 2012. Visual recognition
using lo-cal quantized patterns. In: European Conference on
ComputerVision. 使用局部量化模式的视觉识别 Kohli, P ., Ladicky, L. and Torr, P . H.
S., 2008. Robust higherorder potentials for enforcing label
consistency. In: Conferenceon Computer Vision and Pattern Recognition.
用于执行标签一致性的强大的高阶潜力 Krizhevsky, A., Sutskever, I. and Hinton, G. E.,
2012. Imagenetclassification with deep convolutional neural networks. 使用深度卷积神经网络进行图像网络分类 Ladicky, L., Russell, C., Kohli, P . and Torr, P .,
2013. Associativehierarchical random fields. PAMI. Ladick´y, L., Zeisl, B. and Pollefeys, 关联分层随机场 Ladick´y, L., Zeisl, B. and
Pollefeys, M., 2014. Discriminativelytrained dense surface normal
estimation. In: European Confer-ence on Computer Vision, pp. 468–484.
判别训练的密集表面法线估计 LeCun, Y ., Boser, B., Denker, J. S., Henderson, D.,
Howard,R. E., Hubbard, W. and Jackel, L. D., 1989.
Backpropagationapplied to handwritten zip code recognition. Neural
computation1(4), pp. 541–551. 反向传播应用于手写邮政编码识别 Long, J., Shelhamer, E.
and Darrell, T., 2015. Fully convolutionalnetworks for semantic
segmentation. In: IEEE Conference onComputer Vision and Pattern
Recognition, pp. 3431–3440. 用于语义分割的全卷积网络 Lowe, D. G., 2004.
Distinctive image features from scale-invariant keypoints.
International Journal of Computer Vision. 来自尺度不变关键点的独特图像特征 Malik, J.,
Belongie, S., Leung, T. and Shi, J., 2001. Contour andtexture analysis
for image segmentation. International Journal ofComputer Vision.
用于图像分割的轮廓和纹理分析 Maturana, D. and Scherer, S., 2015. V oxnet: A 3d
convolutionalneural network for real-time object recognition. In:
IntelligentRobots and Systems (IROS), 2015 IEEE/RSJ International
Con-ference on, IEEE, pp. 922–928. 用于实时对象识别的 3d 卷积神经网络 Monnier, F., V
allet, B. and Soheilian, B., 2012. Trees detectionfrom laser point
clouds acquired in dense urban areas by a mobilemapping system. ISPRS
Annals of the Photogrammetry, RemoteSensing and Spatial Information
Sciences. 通过移动测绘系统在密集城市区域采集的激光点云中的树木检测 Montoya, J., Wegner, J. D.,
Ladick´y, L. and Schindler, K., 2014.Mind the gap: modeling local and
global context in (road) net-works. In: German Conference on Pattern
Recognition (GCPR). 注意差距:在(道路)网络中建模本地和全球环境 Munoz, D., Bagnell, J. A.,
V andapel, N. and Hebert, M., 2009.Contextual classification with
functional max-margin markovnetworks. In: Computer Vision and Pattern
Recognition, 2009.CVPR 2009. IEEE Conference on, IEEE, pp. 975–982.
具有功能性最大边距马尔可夫网络的上下文分类 Riegler, G., Ulusoy, A. O. and Geiger, A., 2017.
Octnet: Learningdeep 3d representations at high resolutions. 高分辨率的
Learningdeep 3d 表示 Riemenschneider, H., Bódis-Szomorú, A.,
Weissenberg, J. andV an Gool, L., 2014. Learning where to classify in
multi-viewsemantic segmentation. In: European Conference on
ComputerVision, Springer, pp. 516–532. 学习在多视图语义分割中的分类位置 Rottensteiner,
F., Sohn, G., Gerke, M. and Wegner, J. D., 2013.ISPRS Test Project on
Urban Classification and 3D Building Re-construction. Technical
report, ISPRS Working Group III / 4 -3D Scene Analysis. 城市分类和 3D
建筑重建测试项目 Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S.,
Ma,S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg,A. and
Fei-Fei, L., 2015. Imagenet Large Scale Visual Recogni-tion Challenge.
International Journal of Computer Vision 115(3),pp. 211–252.
图像大规模视觉识别的挑战 Serna, A., Marcotegui, B., Goulette, F. and Deschaud,
J.-E.,2014. Paris-rue-madame database: a 3d mobile laser
scannerdataset for benchmarking urban detection, segmentation and
clas-sification methods. In: 4th International Conference on
PatternRecognition, Applications and Methods ICPRAM 2014.
Paris-rue-madame 数据库:用于对城市检测、分割和分类方法进行基准测试的 3d 移动激光扫描仪数据集 Shechtman,
E. and Irani, M., 2007. Matching local self-similarities across images
and videos. In: Conference on Com-puter Vision and Pattern Recognition
匹配图像和视频中的局部自相似性 Shotton, J., Winn, J., Rother, C. and Criminisi, A.,
2006. Texton-Boost: Joint appearance, shape and context modeling for multi-class object recognition and segmentation. In: European
Confer-ence on Computer Vision. 用于多类对象识别和分割的联合外观、形状和上下文建模 Silberman,
N., Hoiem, D., Kohli, P . and Fergus, R., 2012. Indoorsegmentation and
support inference from rgbd images. In: Euro-pean Conference on
Computer Vision, Springer, pp. 746–760. 室内分割和支持从 rgbd 图像推断 Simonyan,
K. and Zisserman, A., 2014. V ery deep convolu-tional networks for
large-scale image recognition. arXiv preprintarXiv:1409.1556.
用于大规模图像识别的非常深的卷积网络 Song, S., Lichtenberg, S. P . and Xiao, J., 2015.
Sun rgb-d: A rgb-d scene understanding benchmark suite. In:
Proceedings of theIEEE Conference on Computer Vision and Pattern
Recognition,pp. 567–576. Sun rgb-d:一个 rgb-d 场景理解基准套件 Torralba, A.,
Fergus, R. and Freeman, W. T., 2008. 80 milliontiny images: A large
data set for nonparametric object and scenerecognition. IEEE
transactions on pattern analysis and machineintelligence 30(11), pp.
1958–1970. 80 百万张图像:用于非参数对象和场景识别的大型数据集 Torralba, A., Murphy, K. and
Freeman, W., 2004. Sharing fea-tures: efficient boosting procedures
for multiclass object detec-tion. In: CVPR. 共享功能:多类目标检测的有效提升程序 V
allet, B., Brédif, M., Serna, A., Marcotegui, B. and Paparodi-tis, N.,
2015. Terramobilita/iqmulus urban point cloud analysisbenchmark. Computers & Graphics 49, pp. 126–133. Terramobilita/iqmulus 城市点云分析基准
Weinmann, M., Jutzi, B. and Mallet, C., 2013. Feature
relevanceassessment for the semantic interpretation of 3d point cloud
data.ISPRS Annals of the Photogrammetry, Remote Sensing and Spa-tial
Information Sciences. 3d 点云数据语义解释的特征相关性评估 Weinmann, M., Urban, S.,
Hinz, S., Jutzi, B. and Mallet, C.,2015. Distinctive 2d and 3d
features for automated large-scalescene analysis in urban areas.
Computers & Graphics 49, pp. 47–57. 用于城市地区自动大规模场景分析的独特 2d 和 3d 功能 Wu,
Z., Song, S., Khosla, A., Y u, F., Zhang, L., Tang, X. andXiao, J.,
2015. 3d shapenets: A deep representation for volumet-ric shapes. In: Proceedings of the IEEE Conference on ComputerVision and Pattern
Recognition, pp. 1912–1920. 3d shapenets:体积形状的深度表示 Zeiler, M. D.,
2012. Adadelta: an adaptive learning rate method.arXiv preprint arXiv:1212.5701. Adadelta:一种自适应学习率方法 Zhuang, Y ., He, G., Hu, H. and
Wu, Z., 2014. A novel outdoorscene-understanding framework for
unmanned ground vehicleswith 3d laser scanners. Transactions of the
Institute of Measure-ment and Control p. 0142331214541140.
一种新型户外场景理解框架,用于配备 3D 激光扫描仪的无人地面车辆 Zhuang, Y ., Liu, Y ., He, G. and
Wang, W., 2015. Contextualclassification of 3d laser points with
conditional random fields inurban environments. In: Intelligent Robots
and Systems (IROS),2015 IEEE/RSJ International Conference on, IEEE,
pp. 3908–3913. 城市环境中具有条件随机场的 3d 激光点的上下文分类
