【ESANet2021】Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
摘要:
本文提出了一种高效的RGB-D分割方法——ESANet(Effective RGB-D Semantic Segmentation Network),旨在解决室内场景分析中的深度感知问题。传统的RGB-D分割方法依赖于复杂的3D结构信息以提高分割精度,但其获取成本较高且不适合实时应用。针对这一挑战,作者提出了一种基于编码器-解码器架构的设计方案,通过优化编码器模块和解码器模块来实现高效的推断速度和较高的分割性能。
关键点:
背景与挑战:
- 移动机器人等嵌入式设备需要实时处理深度数据进行语义分割。
- 传统RGB-D分割方法依赖于复杂的3D结构信息(如深度校正),获取这些信息的成本较高且不适合实时应用。
- 仅依赖RGB的单模态方法虽然推断速度快但性能较低。
解决方案:- 编码器设计: 使用ResNet作为骨干网络,并在编码器中引入非瓶颈1D块以优化特征提取效率。
- 解码器设计: 增加跳跃式连接以捕捉更深层的语义信息,并采用新的轻量级学习上采样模块以提升分割精度。
- 融合机制: 在编码器与解码模块之间引入 squeeze-and-excitation(SE)机制以增强特征表示。
实验结果:- 在两个典型室内数据集(NYUv2和SUNRGB-D)上进行评估,结果显示ESANet在保持推理速度的同时显著超越了现有的多种基准模型。
- 在Cityscapes数据集上的验证进一步证明了该方法的泛化能力,在城市景观场景分析中展示了优异的表现。
结论与展望:- ESANet通过高效的特征提取与融合机制实现了实时性与性能的平衡。
- 该方法特别适合嵌入式硬件部署和移动机器人场景分析等实时应用需求。
本文为嵌入式 RGB-D 分割提供了一种高效且实用的方法,在实际应用中具有重要参考价值。
Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
室内场景分析的高效RGB-D语义分割
该论文的编号为 arXiv:2011.06961v3 [cs.CV] ,发表日期为 7 April 2021。
具体文章的链接位于 https://arxiv.org/abs/2011.06961 处。
对应的代码资源可访问 https://github.com/TUI-NICR/ESANet。
摘要
对移动机器人在不同环境下的动作进行深入研究是至关重要的。语义分割能够显著提升各种后续应用能力,包括基于语义的人体感知、自由空间探测、地图构建以及导航系统开发。在本研究中,我们提出了一种高效可靠的RGB-D分割算法,该方法通过NVIDIA TensorRT实现了高度优化,特别适合作为复杂动态环境中移动机器人进行常见初始化处理。我们发现,经过精心设计的网络架构,RGB-D分割不仅能够实现对单色彩图的有效处理,还能在实时性方面表现优异。我们在公共室内数据集NYUv2和SUNRGB-D上对所提出的高效场景分析网络(ESANet)进行了评估,并取得了与现有最先进的性能相当的结果,同时支持更快的推理速度。此外,通过对城市场景数据集cityscenes的评估验证了该方法在其他应用场景中的适用性。最后,不仅展示了基准测试结果,还在一个具体的室内应用环境中进行了定性验证
1导言
通过感知与理解语义场景, 移动机器人能够在不同环境中共有两种不同的表达方式

图1:本研究提出的一种高效RGB-D分割方法可作为后续相关工作的基础预处理环节。具体而言,该方法可用于人体姿态估计、环境自由空间检测(如防止机器人在激光照射下的低矮障碍物)以及语义映射等场景中,其中语义映射这一技术在场景理解中具有重要意义。
我们开发了一种高效可靠的编码器-解码器架构的方法来进行语义分割,在复杂系统中实现了对场景的理解(如图1所示)。该方法不仅增强了机器人的视觉感知能力,并通过提供独立于人感知的部分(即单独生成一个语义掩膜),简化了后续的数据处理过程。对于人感知部分[7]而言,在识别特定区域时只需考虑局部区域即可减少计算量。此外,在激光雷达数据处理方面引入了Floor类指示符的概念,在表示无效深度像素的同时帮助避开周围的小障碍物。针对映射[8]部分,在实际应用中可以通过引入额外的信息来提升系统的性能表现。
该分割方法以RGB和深度图像作为输入依据。在室内环境下,复杂的场景可能会影响语义分割的效果。通过整合深度信息来补充空间几何数据,则有助于缓解这一挑战(图9至图11所示)。相较于仅基于RGB图像的处理方式而言,在本文中我们构建了两个独立而优化设计的浅编码器模块(一个专门用于处理RGB数据 Another用于深度信息),显著提升了分割性能水平(网络应用),而非采用单独依赖于单个深度编码器分支的传统架构。
此外,在本研究中我们开发了一种高效的场景分析网络(ESANet),其推理速度较现有大多数基于RGB-D的方法更具优势。实验结果表明 Our该方法在性能上与现有同类算法相当甚至略优。
我们在典型的室内场景数据集NYUv2[12]和SUNRGB-D[13]上对ESANet模型进行了系统性评估,并在实际应用场景中提供了定性分析结果展示。值得注意的是,并非是我们仅依赖高端GPU来展示推理速度;而是将推理时间测量部署于机器人搭载的NVIDIA Jetson AGX Xavier设备上进行综合性能考察。为了提升模型运行效率,在网络架构设计阶段充分考虑了性能优化需求,在此架构下能够利用NVIDIA TensorRT进行加速处理。通过CityScenes等室外数据集的验证实验表明,该方法具备良好的泛化能力
本文的主要贡献是
- 一种先进的RGB-D分割方法,在进行预处理阶段时可简化后续场景分析任务。
其主要优势在于:-
- 经过精心设计的架构配合NVIDIA TensorRT高度优化后可实现快速推理。
-
一种高效且基于ResNet的编码器采用了改进型的基本模块,在降低计算开销的同时提升了预测精度
-
- 一种利用了一种新的学习上采样的解码器
我们对其基础组件进行了系统性的深入分析,并探讨了其对分割精度和推理效率的影响。
通过定量分析复杂机器人场景中的关键要素,我们验证了该方法的适用性和可靠性。
我们开发的代码系统中包含经过专业训练的网络模型,并可通过以下链接进行公开获取:https://github.com/TUI-NICR/ESANet
2.相关工作
遵循编码器-解码架构进行语义分割通常采用的方法是一种高效的设计方案,在此架构中编码部分通过提取高质量的特征并降低分辨率来减少计算负担;而解码部分则通过upsampling恢复原始分辨率并赋予每个像素对应的类别标签
A. RGB- D语义分割
深度图景为RGB图像增进了其几何维度的信息,并进而改善了分割效果[9]、[10]。然而,在现有系统中整合深度信息是一项技术难题。由于引入了与传统统计特征显著不同的特性。
在文献[15]中提到,在处理RGB图像时采用深度信息将其投影至三维空间。然而,在处理生成的三维数据时会导致计算复杂度大幅上升。开发者在文献[16]-[20]中开发了专用卷积层,并基于深度信息进行设计。然而这些改进的卷积大多缺乏高效的优化策略导致运行速度较慢难以满足嵌入式设备对实时分割的需求。
多种RGB-D分割技术[9]、[21]、[10]至[25]主要采用两个分支架构:一个分支专门处理RGB图像数据(提取颜色与纹理特征),另一个分支则专注于深度数据(获取几何与光照无关特征)。这些分支通过后续网络融合提取的特征表示,在各自领域集中优化特定模式特性。研究[9]表明,在多个阶段融合特征能够显著提升分割性能,并非只依赖于低级或高级特征融合效果更好。通常情况下,在每个分辨率阶段仅进行一次特征融合操作,在编码器末端进行最终整合以减少计算开销。FuseNet[9]与RedNet[10]通过将深度信息融入RGB编码器实现了互补性增强;SA-Gate[22]结合了RGB与深度功能模块,并将重新校准功能整合至双编码器路径中以促进相互补充;为了实现两码独立特性提取与增强效果,在ACNet[11]设计中引入了虚拟第三编码器分别从两个编码器获取模态特异信息并处理组合特征这一创新思路得到了认可。除了在编码器层面进行特性融合外,在通用解码器中借助跳接连接(如RDFNet[23]、SSMA[24]及maff-net[25])改进后的通用解码层也可进一步优化各模态特性表达能力
然而,在现有技术中普遍缺乏针对嵌入式硬件的优化方案...
B.高效的语义分割
与基于RGB-D的技术相比([26]至[31]),近年来提出的基于RGB的方法也解决了降低计算复杂度并实现实时分割的问题。许多有效的分割方法开发了专门定制的网络架构以降低计算操作和参数数量 ,从而实现了更快的操作速度同时保持良好的分割性能水平。ERFNet、LEDNet、DABNet等方法通过引入高效的编码器模块(如因式分解、分组卷积或深度可分离卷积)实现了更低资源消耗的目标。然而,在实际应用中其表现略逊于分组卷积或深度可分离卷积方案,并且在表示能力上仍有待提升。相比之下,在实际应用中其表现略逊于分组卷积或深度可分离卷积方案,并且在表示能力上仍有待提升。
在此基础上
3 高效RGB-D分割
如图2所示的是我们所开发的一种高效场景分析网络(ESANet)架构设计。该架构源自于RGB分割方法SwiftNet[30]的核心理念——即采用一个浅编码器与预训练的ResNet18骨干模块以及较大的下采样策略作为基础模块。其中包含了两个关键组件:类似于PSPNet[33]的设计风格上下文模块以及一种深度编码器模块。这种深度编码器模块专门用于提取互补性的几何信息,并通过注意力机制在多个层级对RGB编码器进行融合整合。值得注意的是,在整个网络架构中两种编码器均采用了优化后的结构配置,在提升模型性能的同时也显著降低了计算开销。此外,在解码阶段我们采用了多级块设计——每个解码模块均会对当前特征图进行2倍尺度上的上采样操作,并通过融合各层次特征来逐步细化输出结果。最终该系统能够将特征映射准确地映射到相应的类别标签上,并通过尺寸缩放技术实现与输入分辨率的有效匹配。
我们的整个网络主要由在PyTorch[34]中实现的简单组件构成。我们避免使用复杂的架构或自定义操作(因这些通常无法与ONNX[35]或NVIDIA TensorRT兼容),从而使得推理速度变慢。
在其中

图2展示了我们开发出一种专为高效RGB-D分割设计的ESANet模型的整体架构(上半部分)及其详细组件(下半部分)。此图表清晰呈现了该模型在图像处理过程中的关键环节。
A.编码器
基于**ResNet架构[36]**作为骨干部分构建了我们的网络结构
B. RGB- D融合
通过融合机制将深度特征整合至RGB编码器,在其五个分辨率级别上展开处理。随后对各元素进行加权求和计算(见图2中的浅绿色区域)。该机制通过注意力权重分配实现对不同模式信息的关注与过滤,在给定输入下模型能够自主识别并强化具有重要性的特征属性。实验结果表明,在分割任务中该方法显著提升了性能水平。
C.上下文模块
考虑到ResNet[33]具有的有限的空间感知能力, 我们在设计时借鉴了PSPNet[33]中所采用的多尺度特征融合策略, 在不同尺度上聚合特征以提取并融合相应的上下文信息(如图2所示)。受限于NVIDIA TensorRT对固定尺寸池的支持限制, 在设计时确保所选池尺寸能够适配输入分辨率的变化范围, 并无需依赖动态调整机制来获取所需的信息量。值得注意的是, 在不同的数据集上其参数配置可能存在差异。实验结果表明这种额外引入的上下文处理机制能够有效提升分割性能
D .解码器
如图2所示,我们的解码器由三个解码器模块(图2中红色部分)组成。我们的解码器模块扩展了SwiftNet[30]的模块,后者由一个固定数量为128通道的3×3卷积和后续的双线性上采样组成。然而,我们的实验表明,对于室内RGB-D分割需要一个更复杂的解码器。因此,我们在第一个解码器模块中使用512个通道,并随着分辨率的增加减少每个3×3卷积中的通道数量。此外,我们加入了三个额外的非瓶颈1d块,以进一步提高细分性能。

图3:NYUv2检验集上采样方法的定性比较(颜色与图1和图6相同)。
最后,我们将特征图的样本增加2倍。我们不使用转置卷积进行上采样,因为它们的计算成本很高,并且经常在最终分割中引入不希望的网格工件,如图3(右)所示。此外,我们没有使用双线性插值,而是提出了一种新的轻量级学习上采样方法(见图2深绿色),获得了更好的分割结果:特别是,我们首先使用最近邻上采样来放大分辨率。然后,应用3×3深度卷积来合并相邻特征。我们初始化核,使整个学习上采样最初模仿双线性插值。然而,我们的网络能够适应训练中的权重,因此,可以学习如何以更有用的方式组合相邻的特征,这提高了分割性能。
尽管被放大了,结果的特征图仍然缺乏在编码器下采样过程中丢失的细粒度细节。因此,我们设计了从相同分辨率的编码器到解码器阶段的跳跃式连接。准确地说,我们采用融合的RGB-D编码器特征映射,用1×1卷积将它们投影到解码器中使用的相同数量的通道,并将它们添加到解码器特征映射中。合并这些跳过连接会产生更详细的语义分割。
与[30]、[39]类似,我们只在解码器中处理特征映射,直到它们比输入图像小4倍,并使用3×3卷积将特征映射到各自数据集的类。两个最后的学习上采样模块恢复输入图像的分辨率。
而不是只计算训练损失在最终的输出规模,我们添加监督每个解码模块。在每个尺度上,1×1卷积计算一个较小尺度的分割,该分割由降尺度的地面真值分割监督。
4. 试验
我们在两个常用的RGB-D室内数据集上评估了我们的方法,即SUNRGB-D[13]和NYUv2[12],并在我们网络的关键部分提出了消融研究。为了证明我们的方法也适用于其他应用领域,我们还展示了Cityscapes[14]数据集(用于语义分割的最广泛使用的户外数据集)上的结果。最后,当我们在机器人室内应用中使用我们的方法时,我们不只是报告基准测试结果,而是呈现定性结果。
A.实现细节和数据集
我们使用PyTorch[34]训练我们的网络500个周期,批次大小为8。为了优化,我们使用动量为0.9的SGD和学习率分别为{0.00125,0.0025,0.005,0.01,0.02,0.04}和{0.0001,0.0004}的Adam[40],权重衰减为0.0001。我们使用PyTorch的单周期学习率调度器调整了学习速率。为了进一步增加训练样本的数量,我们使用随机缩放、裁剪和翻转来增强图像。对于RGB图像,我们还在HSV空间中应用了轻微的颜色抖动。
基于均值交并(mIoU)选择最佳模型。在计算最终分割掩码的argmax之前,我们使用双线性上采样将结果类映射缩放到地面真理分割的大小。
NYUv2 & SUNRGB-D: NYUv2包含1449张室内RGB-D图像,其中795张用于训练,654张用于测试。我们使用了常见的40类标签设置。SUNRGB-D有37个类,由10335个室内RGB-D图像组成,包括NYUv2的所有图像。共有5285张训练图片和5050张测试图片。我们的消融研究基于NYUv2,因为它更小,因此可以带来更快的训练。然而,根据[41],在子集上的训练对于可靠的模型选择是足够的。对于这两个数据集,我们使用网络输入分辨率640×480 并应用中频类平衡[42]。由于下采样为32,所以上下文模块的输入的分辨率为20×15,因此我们使用b = 2个分支,一个是全局平均池,另一个池大小为4×3。
城市景观:这个数据集包含5000张图像,带有19个类的细粒度注释。这些图像的分辨率为2048×1024。有2975张图像用于训练,500张用于验证,1525张用于测试。Cityscapes还提供了20k粗略注释的图像,我们没有将其用于训练。我们从视差图像中计算相应的深度图像。由于我们将网络输入分辨率设置为1024×512 ,因此到上下文模块的输入的分辨率为32×16,这允许上下文模块中的b = 4个分支,其中一个分支具有全局平均池,其他分支的池大小为16×8、8×4和4×2。
要了解更多细节和其他超参数,我们可以参考GitHub上的实现。
B. NYUv2和SUNRGB-D的结果

图4:NYUv2测试集上RGB- d与RGB和深度网络(单编码器)及不同骨干的比较。
图4展示了我们在NYUv2平台上采用RGB-D方法与仅使用RGB数据和深度(单编码器)单模态基线进行对比,并对不同编码器主干进行了评估。这与我们所期望的一致:单独处理深度数据和RGB数据均未能达到所提出的RGB-D网络在分割任务上的性能水平。值得注意的是,在实验中发现使用较浅层的ResNet18构建的RGB-D网络在性能上优于更深层ResNet50架构下的RGB网络,并且其运行效率也更为优越。需要注意的是,在实验设计中发现ResNet50包含瓶颈结构块这一特性限制了其可替代性
表1:与NYUv2和SUNRGBD等基准测试集中的现有最佳方法相比,在平均交集与并集方面表现优异(按SUNRGB-D性能及骨干复杂性排序)。据报告,在NVIDIA Jetson AGX Xavier(Jetson AGX Xavier运行于Jetson AGX Xavier running Jetpack 4, TensorRT 7, and Float16)上运行。图例如下:R代表ResNet;*表示额外增加测试时间(通过翻转或多缩放非计时);N/A表示无实现;†包含的操作tensort不支持;⏷则因主干复杂度较高而预期运行速度较慢。
| Method | Backbone | NYUv2 | SUN-RGB-D | FPS |
|---|---|---|---|---|
| FuseNet [9] | 2× VGG16 | - | 37.29 | † |
| RedNet [10] | 2×R34 | - | 46.8 | 26.0 |
| SSMA [24] | 2× mod. R50 | - | 44.43 | 12.4 |
| MMAF-Net [25] | 2× R50 | - | 45.5 | N/A |
| RedNet [10] | 2× R50 | - | 47.8 | 22.1 |
| RDFNet [23] | 2× R50 | 47.7* | - | 7.2 |
| ACNet [11] | 3× R50 | 48.3 | 48.1 | 16.5 |
| SA-Gate [22] | 2× R50 | 50.4 | 49.4* | 11.9 |
| SGNet [19] | R101 | 49.0 | 47.1 | N/A⏷ |
| Idempotent [21] | 2× R101 | 49.9 | 47.6 | N/A⏷ |
| 2.5D Conv [16] | R101 | 48.5 | 48.2 | N/A⏷ |
| MMAF-Net [25] | 2× R152 | 44.8 | 47.0 | N/A⏷ |
| RDFNet [23] | 2×R152 | 50.1* | 47.7* | 5.8 |
| ESANet-R18 | 2× R18 | 47.32 | 46.24 | 34.7 |
| ESANet-R18-NBt1D | 2× R18 NBt1D | 48.17 | 46.85 | 36.3 |
| ESANet-R34 | 2× R34 | 48.81 | 47.08 | 27.5 |
| ESANet-R34-NBt1D | 2×R34 NBt1D | 50.30 | 48.17 | 29.7 |
| ESANet-R50 | 2× R50 | 50.53 | 48.31 | 22.6 |
| ESANet (pre. SceneNet) | 2× R34 NBt1D | 51.58 | 48.04 | 29.7 |
本研究通过实验对比展示了RGB-D方法在两个典型室内场景数据集上的性能。对于较大的SUNRGB-D数据集群体而言,在分割性能上具有显著优势。与现有先进分割算法相比,在分割性能上具有显著优势。相比于传统深度估计方法,在嵌入式硬件推理速度方面同样表现出色。为了进一步优化系统效率,在本研究中我们重点考察了基于NVIDIA TensorRT框架的高效推理实现方案。通过对比实验发现,在保持较高精度的前提下,该框架能够显著提升计算效率。具体而言,在针对SceneNet[43]等合成数据集的预训练过程中,默认采用ResNet34主干架构并搭配NBt1D模块设计的高效网络架构(如表2所示)。此外,在目标数据集样本数量有限的情况下,默认优先选择基于ResNet34主干和NBt1D模块设计的高效网络架构(如表2所示)。
C. NYUv2消融研究

图5为NYUv2实验研究烧蚀特性。每种颜色均代表对特定设计参数的调整:紫色区域指解码器模块中NBt1D块的数量设置;深绿色区域对应于所采用的上采样策略;灰色区域采用特定网络组件;CM区域表示完全去除上下文注意力机制;Skip区域指去掉了编码器-解码器之间的跳跃连接;SE区域则是在融合RGB与深度图像前未对特征进行压缩激活处理
图5展示了我们网络架构的核心组成部分的侵蚀特性分析,并验证了我们的设计选择。此外,在优化过程中对所选网络进行调整时,该架构指出了各个组成部分的影响。
从图中可见,在类似SwiftNet[30]的研究中使用了较简单的浅层解码器效果不佳。因此,在各解码器模块内逐步增加了附加NBt1D结构的数量以提升性能。实验结果表明,在各解码器模块内采用固定数量的三个NBt1D结构能够显著提升性能。
深绿色表明了解码器中采用的不同上采样方法。尽管优化上采样过程会增加推理时间,在这种情况下学习上采样使mIoU提升为0.9。值得注意的是,在图3中展示了与双线性插值相比,在生成分割时采用了更为精细的方法可以获得更多细节信息。这种方法不仅进一步防止了由于转置卷积所带来的问题(如ACNet[11]和RedNet[10]所遇到的问题)。
如图5所示的灰色区域中,上下文模块、编码器和解码器采用了跳过连接策略,并在融合之前应用了压缩与激活机制(Squeeze-and-Excitation),从而单独地提升了分割性能。整合这三个网络部分能够取得最佳效果。
D.城市景观的结果
表2:相较于当前最先进的方法,我们的ESANet在两个典型分辨率下的城市景观平均交集与联合均表现优异。据实验数据显示,该框架运行在NVIDIA Jetson AGX Xavier平台(基于Jetpack 4.0.0版本,结合TensorRT 7.1.0及float16混合精度)上具有高效的性能表现。图例中的?号代表测试服务器所得结果,而*号则表示模型通过额外的粗略数据进行了训练以获得更好的收敛效果。

为了展示该方法在多个领域的适用性, 其中一项是户外环境, 在表2中列出了相关数据.随后我们进一步探讨了对城市景观数据集的评估.
我们首先关注1024×512的小分辨率,因为它通常用于高效分割。此外,由于大多数方法仅依赖RGB作为输入,我们首先比较我们的方法的单模态RGB版本。使用ERFNet[26]、LEDNet[27]和ESPNetv2[32]等自定义体系结构的有效方法非常快,但性能也明显不如我们的ESANet。与ERFNet、LEDNet和ESPNetv2相比,SwiftNet[30]速度更快,mIoU更高。尽管如此,在1024×512的输入分辨率下,我们的ESANet-R34-NBt1D仍然超过30 FPS,比所有其他有效方法至少高出2.2 mIoU。结合深度进一步提高细分性能。但是,性能增益没有室内数据集NYUv2那么高。我们认为这可以归结为城市景观的视差图像不如NYUv2和SUNRGB-D的室内深度图像精确。与推理时间相似的RGB-D方法LDFNet[44]相比,我们获得了明显更高的mIoU。
为了确保评估的全面性, 我们在2048×1024全分辨率下对网络进行了测试.与现有方法相比, 在mIoU指标和推理速度方面, 本研究提出的方法均位于移动平台(SwiftNet、BiSeNet)及其非移动 counterpart 之上.
相比之下,在采用RGB格式、分辨率2048×1024的基础上
E.机器人的应用
我们并未仅在基准数据集上进行评估;而是深入探究了室内应用中的具体表现,并借助Kinect2传感器[45]、[46]展示了定性结果。为了验证其实际效果,我们将提出的ESANet-R34-NBt1D部署至我们的机器人系统,该系统能够完成如图1所示 semantic scene analysis 的复杂任务,并展现出令人满意的性能水平,包括对精细地板区域的良好识别能力。此外,通过对比实验发现,该方法在整体性能上有显著提升(见图6)。关于附加的具体测试结果以及与非语义场景理解能力的相关比较,我们已将相关视频文件一并提供。

图6:在机器人场景分析系统中的应用 。
5. 结论
本文提出了一种高效且创新的RGB-D分割方法ESANet其核心技术在于采用两个增强的ResNet模块通过注意力机制融合深度信息并结合创新性的学习式上采样模块实现快速而精准的空间分割效果。实验研究表明在NYUv2和SUNRGB-D室内数据集上我们的ESANet不仅能够与当前最先进方法持平还略具优势并且展现出高效的推理速度这使其在硬件资源受限的情况下特别适合嵌入到复杂的移动机器人场景分析系统中
REFERENCES
[1] H.-M. Gross, et al., “TOOMAS: Interactie shopping guide robots in everyday use – final implementation and experiences from long-term field trials,” in IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). IEEE, 2009, pp. 2005–2012.
[2] B. Lewandowski, et al., “Socially compliant human-robot interaction for autonomous scanning tasks in supermarket environments,” in IEEE Int. Symp. on Robot and Human Interactive Communication (ROMAN). IEEE, 2020, pp. 363–370.
[3] H.-M. Gross, et al., “Mobile robot companion for walking training of stroke patients in clinical post-stroke rehabilitation,” in IEEE Int.Conf. on Robotics and Automation (ICRA), 2017, pp. 1028–1035.
[4] T. Q. Trinh, et al., “Autonomous mobile gait training robot for orthopedic rehabilitation in a clinical environment*,” in IEEE Int.Conf. on Robot and Human Interactive Communication (RO-MAN),2020, pp. 580–587.
[5] H.-M. Gross, et al., “Robot companion for domestic health assistance:Implementation, test and case study under everyday conditions in private apartments,” in IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). IEEE, 2015, pp. 5992–5999.
[6] H. M. Gross, et al., “Living with a mobile companion robot in your own apartment - final implementation and results of a 20-weeks field study with 20 seniors,” in IEEE Int. Conf. on Robotics and Automation (ICRA), Montreal, Canada. IEEE, 2019, pp. 2253–2259.
[7] D. Seichter, et al., “Multi-task deep learning for depth-based person perception in mobile robotics,” in IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). IEEE, 2020, pp. 10 497–10 504.
[8] E. Einhorn and H.-M. Gross, “Generic 2D/3D SLAM with NDT maps for lifelong application,” in Europ. Conf. on Mobile Robots (ECMR), 2013.
[9] C. Hazirbas, et al., “FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture,” in Asian Conference on Computer Vision (ACCV), 2016, pp. 213–228.
[10] J. Jiang, et al., “RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation,” arXiv preprint arXiv:1806.01054, 2018.
[11] X. Hu, et al., “ACNet: Attention Based Network to Exploit Complementary Features for RGBD Semantic Segmentation,” IEEE Int. Conf.on Image Processing (ICIP), 2019.
[12] N. Silberman, et al., “Indoor Segmentation and Support Inference from RGBD Images,” in Europ. Conf. on Computer Vision (ECCV), 2012.
[13] S. Song, et al., “SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 567–576.
[14] M. Cordts, et al., “The Cityscapes Dataset for Semantic Urban Scene Understanding,” IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 3213–3223, 2016.
[15] Y . Zhong, et al., “3D Geometry-Aware Semantic Labeling of Outdoor Street Scenes,” in Int. Conf. on Pattern Recognition (ICPR), 2018, pp.2343–2349.
[16] Y . Xing, et al., “2.5D Convolution for RGB-D Semantic Segmentation,” in IEEE Int. Conf. on Image Processing (ICIP), 2019, pp.1410–1414.
[17] Y . Xing, et al., “Malleable 2.5D Convolution: Learning Receptive Fields along the Depth-axis for RGB-D Scene Parsing,” in Europ.Conf. on Computer Vision (ECCV), 2020, pp. 1–17.
[18] W. Wang and U. Neumann, “Depth-Aware CNN for RGB-D Segmentation,” in Europ. Conf. on Computer Vision (ECCV), 2018, pp.144–161.
[19] L.-Z. Chen, et al., “Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation,” arXiv preprint arXiv:2004.04534, pp. 1–11, 2020.
[20] Y . Chen, et al., “3D Neighborhood Convolution: Learning DepthAware Features for RGB-D and RGB Semantic Segmentation,” in Int.Conf. on 3D Vision (3DV), 2019, pp. 173–182.
[21] Y . Xing, et al., “Coupling Two-Stream RGB-D Semantic Segmentation Network by Idempotent Mappings,” in IEEE Int. Conf. on Image Processing (ICIP), 2019, pp. 1850–1854.
[22] X. Chen, et al., “Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmen-tation,” in Europ. Conf. on Computer Vision (ECCV), 2020, pp. 561–577.
[23] S. Lee, et al., “RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation,” Int. Conference on Computer Vision (ICCV), pp. 4990–4999, 2017.
[24] A. V alada, et al., “Self-supervised model adaptation for multimodal semantic segmentation,” Int. Journal of Computer Vision (IJCV), 2019.
[25] F. Fooladgar and S. Kasaei, “Multi-Modal Attention-based Fusion Model for Semantic Segmentation of RGB-Depth Images,” arXiv preprint arXiv:1912.11691, pp. 1–12, 2019.
[26] E. Romera, et al., “ERFNet: Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation,” IEEE Transactions on Intelligent Transportation Systems (ITS), pp. 263–272, 2018.
[27] Y . Wang, et al., “LEDnet: A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation,” in IEEE Int. Conference on Image Processing (ICIP), 2019, pp. 1860–1864.
[28] G. Li, et al., “DABNet: Depth-wise Asymmetric Bottleneck for Realtime Semantic Segmentation,” British Machine Vision Conference (BMVC), 2019.
[29] S.-Y . Lo, et al., “Efficient dense modules of asymmetric convolution for real-time semantic segmentation,” in ACM Int. Conf. on Multimedia in Asia, 2019, pp. 1–6.
[30] M. Orˇsi´c, et al., “In Defense of Pre-trained ImageNet Architectures for Real-time Semantic Segmentation of Road-driving Images,” IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp.12 607–12 616, 2019.
[31] C. Y u, et al., “BiSeNet: Bilateral segmentation network for real-time semantic segmentation,” in Europ. Conf. on Computer Vision (ECCV), 2018, pp. 325–341.
[32] S. Mehta, et al., “ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 9190– 9200.
[33] H. Zhao, et al., “Pyramid scene parsing network,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 2881– 2890.
[34] A. Paszke, et al., “Pytorch: An imperative style, high-performance deep learning library,” in Advances in Neural Information Processing Systems (NIPS). Curran Associates, Inc., 2019, pp. 8024–8035.
[35] J. Bai, et al., “Onnx: Open neural network exchange,” https://github.com/onnx/onnx, 2019.
[36] K. He, et al., “Deep residual learning for image recognition,” IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 770–778, 2016.
[37] L.-C. Chen, et al., “Rethinking Atrous Convolution for Semantic Image Segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[38] J. Hu, et al., “Squeeze-and-excitation networks,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 7132–7141.
[39] L.-C. Chen, et al., “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation,” in Europ. Conf. on Computer Vision (ECCV), 2018, pp. 801–818.
[40] D. P . Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” in Int. Conf. Learning Representation (ICLR), 2015.
[41] J. Bornschein, et al., “Small Data, Big Decisions: Model Selection in the Small-Data Regime,” in Int. Conf. on Machine Learning (ICML),2020.
[42] D. Eigen and R. Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,”Int. Conf. on Computer Vision (ICCV), pp. 2650–2658, 2015.
[43] J. McCormac, et al., “SceneNet RGB-D: Can 5M Synthetic Images Beat Generic ImageNet Pre-training on Indoor Segmentation?” Int.Conf. on Computer Vision (ICCV), pp. 2697–2706, 2017.
[44] S.-W. Hung, et al., “Incorporating Luminance, Depth and Color Information by a Fusion-Based Network for Semantic Segmentation,”in IEEE Int. Conf. on Image Processing (ICIP), 2019, pp. 2374–2378.
[45] Lingzhu Xiang, et al., “Libfreenect2: Release 0.2,” 2016. [Online].Available: https://zenodo.org/record/50641
[46] F. J. Lawin, et al., “Efficient multi-frequency phase unwrapping using kernel density estimation,” in Europ. Conf. on Computer Vision (ECCV), 2016, pp. 170–185.
