Advertisement

【一文看懂深度补全】Deep Depth Completion from Extremely Sparse Data: A Survey

阅读量:

综述

综述

    • 摘要

    • 1. 引言

      • 贡献概述
    • 2. 基于深度学习的深度补全

      • 2.1 问题表述
      • 2.2 分类方法
    • 3. 无引导深度补全

      • 3.1 稀疏感知 CNN
      • 3.2 归一化 CNN
      • 3.3 使用辅助图像进行训练
      • 3.4 讨论
  • 4. 通过RGB引导实现深度补全

    • 4.1 基于早期融合的模型

    • 4.1.1 编码器-解码器网络作为核心组件

    • 4.1.2 自上而下与自下而上的粗略到细节的预测框架

    • 讨论部分进一步优化模型性能

      • 4.2 晚期融合模型

        • 4.2.1 双编码器网络
        • 4.2.2 双编码器-解码器网络
        • 4.2.3 全局和局部深度预测
        • 4.2.4 讨论
        • 4.3 显式 3D 表示模型
          • 4.3.1 3D 感知卷积
      • 4.3.2 中间表面法线表示

      • 4.3.3 从点云学习

      • 4.3.4 讨论

        • 4.4 残差深度模型
        • 4.4.1 讨论
        • 4.5 基于 SPN 的模型
        • 4.5.1 讨论

模型训练的学习目标
- 深度一致性保持
- 结构化损失函数设计
- 平滑正则化项引入
- 多视图几何约束的引入
- 抗争性损失机制构建

复制代码
* 6\. 数据集和评估指标
* * 6.1 真实世界数据集
  * 6.2 合成数据集
  * 6.4 评估指标

实验分析部分

  • 8. 开放性挑战和未来研究方向
    • 8.1 多模态融合问题
    • 8.2 真实数据的质量问题
    • 8.3 低复杂度网络
    • 8.4 无监督与半监督学习框架
    • 8.5 损失函数设计与性能评估标准
    • 8.6 跨领域适应问题
    • 8.7 Transformer架构设计
    • 8.8 模型可视化与可解释性分析
    • 8.9 不同传感器下的鲁棒性能研究

      • 9. 结论
    • 参考文献:

摘要

深度恢复技术旨在从高度稀疏的深度数据中重建出密集且逐像素精确的深度信息。这种技术在自动驾驶技术、三维重建以及增强现实等应用领域发挥着至关重要的作用。近年来的研究已经取得了显著进展,在该领域的发展中占据了主导地位。本文系统性地梳理了现有研究进展,并为读者提供了深入了解研究热点的清晰指南。本研究通过系统性分析网络架构设计、损失函数优化以及数据集选择等因素,在现有方法的基础上提出了一种创新性的分类策略。为了全面评估模型性能表现,我们选择了室内环境和室外环境两个场景下的典型数据集进行实验验证,并采用了多样化的评估指标来进行量化分析。此外,在深入分析现有解决方案的同时,我们还探讨了其适用性和局限性问题,并提出了若干具有创新性的改进方向供未来研究参考。

1. 引言

准确掌握逐像素场景深度对于自动驾驶[100]、机器人导航[75]、智能农业[23]以及增强现实[19]等技术领域的发展至关重要。由此可见其重要性其在这些高级技术的研发中始终扮演着关键角色。利用单目深度估计算法从单幅图像快速实现场景深度的估算是一种既经济又高效的解决方案[27][32][42][61]。然而这些视觉方法往往难以达到较高的推理精度并存在较好的泛化能力因此在实际应用中容易受到环境变化的影响显得不够稳健。

另一方面, 深度传感器能够提供真实场景中高度准确且稳定的距离测量结果, 因此更适合应用于对安全性和高性能要求较高的场景, 如自动驾驶汽车领域。实际上, 尽管采用 LiDAR 技术进行深度测量仍是最为可靠的方案之一, 但无论是 LiDAR 还是常用的 RGBD 相机(如 Microsoft Kinect)都无法生成高密度的逐像素深度数据。参考图 1 可以看到, Kinect 摄像头捕获的画面存在明显的孔洞问题, 而采用 LiDAR 方法生成的画面则呈现明显的数据缺失现象。因此, 在实际应用中有必要填补这些空缺区域以获得完整的视觉信息。

在这里插入图片描述

各传感器获取的不同深度图像进行对比分析。如图1所示,在中间区域展示的是原始稀疏深度图像,在左侧部分为 Kinect 传感器在室内的图像捕捉结果,在右侧区域则为 LiDAR 传感器在城市街道上的捕捉结果。通过观察可以看出 LiDAR 捕获的数据点更为稀疏;底部区域则展示了基于原始稀疏图像重建后的深度数据分布情况

由于不同传感器捕获的深度图之间存在显著差异,则其深度补全问题及解决方案往往与特定传感器相关联。

近来年

致力于拓展深度补全领域的边界

尽管基于学习的方法展现出显著成果, 但据我们所知, 目前尚无系统性总结. 本文试图通过层次分析法与现有研究分类相结合, 探讨基于学习机制下的深度填充技术发展现状, 并为读者提供对深度补全现象的直观认识. 一般情况下我们会关注以下几个核心问题:

  1. 为了达成高精度深度补全的目标, 先行技术的主要特点体现在哪些方面?
  2. 相较于无引导方案, RGB引导方式有哪些优势以及对应的劣势?
  3. 考虑到现有研究大多依赖于视觉信息与LiDAR数据的结合, 如何构建一个最为高效的多源感知融合机制显得尤为重要.
  4. 当前研究面临的主要挑战在于如何平衡算法效率与检测精度之间的关系

针对这一问题展开分析,在当前时间点上系统性地收集并整理了相关研究资料

在这里插入图片描述

贡献概述

  • 从现有文献来看, 这是第一篇系统性梳理深度补全领域的综述性文章. 作者不仅对无引导与 RGB 引导方法进行了深入分析, 而且还全面总结了相关技术手段.
  • 本研究开发出一种系统性的分类框架, 用于将现有技术手段进行科学化归类, 同时重点解析了各类型方法的核心特征.
  • 文章不仅综述了基于深度学习的深度补全领域最新进展, 并对实验结果进行了对比分析, 最终为读者呈现出了当前领域的最优解决方案.
  • 研究人员通过对各类典型方法的关键性能指标展开深入分析, 包括其准确性与模型复杂度等方面指标, 并对其综合性能特点进行了详实阐述.
  • 本文不仅提出了若干值得进一步探讨的问题, 同时也指出了未来研究工作的新方向.

2. 基于深度学习的深度补全

在当前章节中, 首先明确阐述了深度补全任务的标准描述. 接着介绍了该分类方法的主要框架与特点. 首先观察到多种算法存在相似性后, 在综合分析网络架构与核心技术优势的基础上进行了系统归类.

2.1 问题表述

在填补深度数据的任务中,由参数 W 决定的深度神经网络 N 基于以下公式进行预测:根据给定的稀疏深度图 Y' 进行预测以生成密集的_depth_图 \hat{Y}

\hat{Y} = N(Y'; W)

非引导型深度补全:在方程(1)中,深度补全仅通过稀疏输入完成,并未获得来自不同模态数据的指导信息。因此,在文献中这种方法通常被称作非引导型深度补全技术(non-guided deep completion)。这些方法将在第3节中进行详细讨论和分析。

该方法通过RGB引导深度补全技术,在现有研究中广泛采用的是将具有稀疏性的深度图与其对应的RGB图像作为输入数据,并在此基础上建立相应的模型框架以实现对缺失区域的填补过程描述。在此情境下,则可表述为:

\hat{Y} = N(Y', I; W)

其中 I 代表与 Y' 对齐的 RGB 图像。由方程(2)所定义的任务被称作 RGB 引导深度补全技术,在后续章节中将对此进行详细阐述。

网络 N 的参数 W 通过解决以下优化问题来训练网络:

\hat{W} = \arg\min_W L(\hat{Y}, Y; W)

其中 Y 表示真实深度图的集合,在训练网络 N 时通常由 L 这一损失函数来衡量预测值与真实值之间的差异程度。基于特定的学习策略还需要适当引入其他形式的辅助项或增益项来优化模型性能。第五节将深入探讨学习目标与所采用的损失函数之间的关系及其对模型效果的影响

2.2 分类方法

本文基于网络结构与主要技术贡献的综合考量,构建了一种较为详尽的分类体系。现有的分类方式最初被划分为非引导型或 RGB 引导型两大类。随后又被划分为更为细致的子类群。

表 1 给出了所提出的分类方法的概述,并描述了识别类别的主要因素。

在这里插入图片描述

这是因为尽管这些模型具备各自的独特特性,并且传统上人们并未将早期融合与后期融合的策略同时应用于这些模型的设计中。”

在每个类别中的不同方法上,我们已在相应的章节中探讨了各自的优缺点。大多数情况下而言,在准确性方面表现出色的方法往往会在模型复杂性上显得不足;反之亦然。值得庆幸的是,在经过标准化评估后……


3. 无引导深度补全

给定一个稀疏深度图后,在缺乏指导信息的情况下(即无引导方法),通常会基于深度神经网络模型直接对其进行建模与估计。现有的研究工作主要包含以下三种类型:第一类是基于稀疏感知CNN的方法;第二类是基于归一化CNN的技术;第三类则采用了辅助图像作为补充数据进行训练的方法。

3.1 稀疏感知 CNN

总体见解:在卷积操作过程中采用二元掩模对有效与缺失的深度元素进行识别,在卷积操作过程中。这使得标准CNN更有效地处理稀疏深度输入。

Uhrig 等人 [109] 报道了首个基于深度学习的无引导图像修复方法。他们首先验证了传统卷积网络在处理稀疏输入时易产生马赛克效应的问题,并因此开发了一种新型稀疏卷积操作。随后,他们构建了一个由6层卷积神经网络(CNN)组成的稀疏卷积模块。该稀疏卷积采用二进制有效性掩码区分有效像素与缺失像素,并仅在有效区域执行卷积运算;其中的有效性掩码值依据其局部邻居特征进行计算。实验表明,在性能上该深度学习驱动的方法超越了传统非学习修复方案,在该领域展现出强大的潜力,并由此推动了后续诸多研究探索

然而,在能够充分利用多尺度特征的经典编码器-解码器网络中,并不建议直接应用稀疏卷积操作。黄等人[48]提出了三种与稀疏性保持一致的操作:SI 上采样、SI 平均以及SI 拼接,并在此基础上构建了一个基于编码器-解码器架构的HSMNet模型。通过在HSMNet中增加一个小分支结构,他们进一步展示了该方法在使用RGB输入时的有效性。

Chodosh等人[14]将深度补全表示为一个多层卷积压缩感知问题,并同时提出了端到端多层字典学习算法。通过应用压缩感知方法至深度成分分析(DeepCA)目标[82]的同时,并利用乘法器交替方向法(ADMM)进行优化。利用反向传播算法仅使用少量卷积层来学习过完备字典。

3.2 归一化 CNN

总体看法是建议采用连续的置信度图替代二进制有效性掩码以促进完成性能

稀疏感知方法依赖于有效性掩码来识别缺失值,并用于执行卷积操作。如文献 [22]、[54] 和 [112] 中所述,在 CNN 早期层中存在饱和问题会导致模型性能下降。针对这一问题的解决方案是借鉴归一化卷积 [59] 的理念,在此基础上 Eldesokey 等人 [22] 引入了生成连续不确定性图的归一化卷积神经网络(NCNN)。其核心区别在于 NCNN 输出的特征并非通过二进制有效性掩码而是通过连续的不确定性图进行加权滤波器约束,并采用 SoftPlus 函数 [31] 将其限制为非负值以促进更快收敛速度。

虽然 NCNN仍采用稀疏掩码作为初始输入,在中间层生成连续的置信度分布图来标识有用信息。然而,在实际应用中受LiDAR投影误差影响会出现干扰测量现象。为此研究者Eldesokey等人[21]提出了一种自监督学习方法用于估计连续的置信度分布图并通过神经网络抑制干扰测量的影响实现了更好的数据处理效果NCNN这种方法已在文献[45][112]中成功应用于基于RGB引导的深度填补任务

3.3 使用辅助图像进行训练

总体见解:通过设计深度重建的辅助模块来实现对RGB信息的智能且隐式的无引导深度补全。

为了针对语义线索的不足,Lu 等人 [73] 在其研究框架中引入了一个辅助学习分支。通过引入一个辅助学习分支后,并非直接以图像作为输入的形式存在;相反地,则是以稀疏深度图作为输入的形式存在,并且同时能够预测出重建图像以及密集深度图两种结果。值得注意的是,在这一过程中,RGB 图像仅仅是在训练阶段被用作学习目标的一种形式;而其他的研究工作如 [133] 则采用了更为综合的方式,在利用RGB数据的同时也结合了法线信息来进行辅助训练。此外,在 [113] 的研究中,则是通过设计一种自动编码器来生成潜在空间中的RGB数据,并以此为基础进行最终深度预测的过程。这种方法属于无监督学习范畴,在预测最终深度时表现不如前者的相关工作(如[73])。尽管这些基于RGB引导的方法在一定程度上仍然保留了引导信息的特点;但它们的主要目的却是为了能够在推理过程中完成无引导式的深度填补任务。因此,在分类方法学上将其归类为无引导型的解决方案较为贴切

3.4 讨论

作为早期探索深度补全问题的研究工作之一,在准确率方面相对标准卷积有所提升的是稀疏感知方法 [109]。然而尽管如此,在与后续研究者 [21, 48, 73] 的成果相比整体表现略逊于他们。这种较低的表现主要归因于两个原因:首先,在该研究中所采用的有效性遮罩存在空间尺度上的局限性(即无法适应不同尺度的空间特征),因此仅能适用于仅集成少量卷积层的网络架构(这在一定程度上限制了模型的能力)。其次,在网络中从遮罩中提取的有效性信息通常会随着多层卷积操作逐渐消失(导致信息损失)。

扩展工作 [48] 使得 SI(稀疏性不变)上的上采样、平均/求和以及拼接特征图的操作成为可能,并从而使得分层编码器-解码器网络的应用成为现实。相较于 [109] 的方法,在此方案中实现了高达 41.5% 的 RMSE 提升效果。与现有研究中的其他方法不同(如 [48] 和 [109]),本方法通过将其表示为一种字典学习问题来实现深度补全表述,并其优势在于所需模型参数最少

归一化卷积神经网络 [21]、[22] 主要关注于通过二进制有效性掩码来减少有效性的损失问题。归一化的卷积操作 [22]带来了显著的性能提升(约 19.5%),而进一步去除了输入稀疏深度图中的异常值 [21] ,这带来了明显的性能提升(40.0%)。相比之下,在 HSMNet 的基础上进行优化的方案中 [48] ,[21] 的方法通过仅使用 670,000 个可训练参数就达到了与之相当的效果。

借助辅助图像的技术,在 RGB 生成任务中引入了额外的深度。

4. RGB 引导深度补全

无引导的方法通常在性能上不及 RGB 引导法,并易产生模糊效应及物界变形。这种较差的表现源于对自然场景中的先验知识掌握不足。如[46]所述,在自然场景中将深度图像分解为平滑表面和平面间的锐利不连续性;后者在深度图像中形成了阶梯边缘。然而, 当深度图极度稀疏时, 如邻近物体与锐边等关键先验信息显著缺失; 因此即便借助于CNNs恢复完整的深度图也面临着巨大挑战.

因此,在引入RGB信息作为额外输入方面具备直接合理性的依据。由于RGB图像能够提供场景结构的关键细节——如纹理、线条与边缘——从而弥补了稀疏深度图所缺乏的重要线索,并促使平滑区域内部呈现深浅连续性的同时也强化了边界处存在的不连续性特征;此外,在这种单一视角下还包含了一些单目视觉上的提示因素(如消失点[43]),这些因素能够辅助实现更为精确的深度估计;综上所述,在这一层面而言这类方法的优势不仅体现在填补数据不足方面更能显著提升整体估计精度

相较于无引导的方法而言,RGB引导方法通常具有以下三个显著的优势:i) 它们通常在准确度方面优于未辅以引导的方法;ii) 它们对于不同的稀疏度水平表现出更高的鲁棒性;iii) 它们所生成的深度图从感知效果上更为准确

图 3. 无引导和 RGB 引导深度补全在 KITTI 数据集上的 RMSE。来源 [77]。

在这里插入图片描述

图 4. 无辅助引导与 RGB 引导深度填补的定性对比实验中, MS 和 SO 分别代表多尺度结构与稀疏不变操作, 来源为文献 [48]。

目前为止已提出不同类型的若干方法, 它们主要包含以下几大类别: 第一类为早期融合型, 第二类为后期融合型, 第三类是具有明显三维表示的, 第四类为基于残差深度的, 第五类基于空间传播网络(SPN)。

4.1 早期融合模型

早期融合方法需在深度模型接收稀疏深度图与RGB图像之前通过特定机制完成特征整合 [17,77,88];另一种主要方式则是在模型初始卷积层阶段统一处理多模态信息 [51,70,123]。基于融合策略的早期探索可大致划分为两大类:一类基于编码器-解码器架构设计,在此框架下构建了系列特征提取与重建模型;另一类则采取分步预测模式,在粗粒度至细粒度预测流程中实现多模态信息的有效传递与重构

4.1.1 编码器-解码器网络

总体见解:主要依赖于编码器-解码器网络(EDN)的早期融合方法具有显著优势,在模型简洁性的表现上较为出色;然而,在准确性方面的效果则不甚理想

此类方法基于传统的编码器-解码器架构(EDN)来实现逐像素回归任务。早期研究可参考文献 [77] 中的 Ma 等人工作。为此他们将 RGB 图像与对应的稀疏深度图融合并输入到一个由 ResNet-50 网络 [38] 构建的编码器-解码器架构中。进一步表明在不同采样率条件下带 RGB 引导的深度填补优于无引导方法。

为了确保预测结果与测量值的一致性,Q 等人[89]将模型的最后一层卷积操作替换为最小二乘拟合模块。在该架构中,倒数第二层提取的所有特征被看作一组基底,这些基底的权重通过将有效像素深度进行最小二乘拟合来确定。参考文献[89]指出,由于缺乏足够的深度点进行监督学习,此方法难以有效处理高度稀疏的数据输入。

受到空间自适应去归一化(SPADE)[87] 的启发,Dmitry 等人 [96] 开发了一个用于学习归一化特征中空间依赖比例和偏差的方法.他们开发了一种新型解码器,该解码器由多个经过调制的SPADE模块组合而成.该解码器中的调制分支采用了有效性掩码作为输入信号,并预测了不同尺度的调制信号.这些调制信号被分配到解码器中的各个SPADE模块处理,从而更新特征.该方法在室内深度增强和室外深度补全任务中均取得了显著效果.

而非仅限于简单拼接,若干现有方法 [51], [76], [135] 采用了分立的卷积模块分别从 RGB 和深度输入源中提取特征,并将这些特征作为该网络编码器-解码器模块的第一层输入单元提供给后续处理流程。在此基础上,通过将获取的所有多模态特征进行整合处理,并将其传递至网络后续各层以生成完整的深度信息图谱。

4.1.2 粗略到细化预测

整体看法指出,在分两个阶段的从粗等到精细的方法中,其性能在很大程度上受到在第一阶段对深度图进行初步估计的过程中所涉及的质量的影响。

一些方法基于两阶段的粗略到细化预测(C2RP)框架来提升深度估计的准确性。这些方法首先通过粗略预测阶段生成一个初步的深度图,在此基础上结合RGB图像应用细化预测过程以获得更精确的结果。例如,Dimitrievski等[17]将可学习形态学操作符(包括两个谐均值滤波层[79])整合进基于U-Net[91]的架构中进行优化;在形态学处理后,利用U-Net结构对粗略深度图与RGB图像进行二次优化以获得精细输出同样地,Hambarde等[36]提出的S2DNet架构由双金字塔网络构成:S2DCNet负责初始粗略预测,S2DFNet则用于后续的精细化调整

与前述方法不同

如[70]所述,在该研究中将深度补全分解为两个主要问题:相对深度估计与尺度恢复。第一阶段中并未预测具有实际尺寸的真实_depth_图像(即粗略_depth_),而是通过排除绝对_depth_影响的方法仅基于单个RGB图像推导出比例恒定的relative_depth_图像;在此基础上,在第二步中利用relative_depth_图像、sparse_mask以及RGB图像共同构建scale recovered网络以完成scale estimation任务;最终得到的结果是将relative_depth_与scale factor相乘得到完整的depth_map;值得注意的是这种方法相较于现有工作在处理sparsity方面更具鲁棒性

基于对初始粗略预测的调整这一思路在后续研究中得到了广泛应用。具体而言,在SPNs以及残差深度学习框架基础上的研究均对此进行了拓展

4.1.3 讨论

早期融合在简洁性上展现出明显的优势,并且其特性使得在相同网络架构下构建EDN并不会明显提升模型复杂度。然而,在当前环境下相比起来较为简单的早期融合方法显得略显不足:由于多模态数据的融合仅限于输入层,并且其特征提取过程完全依赖于黑盒式的CNN架构(Convolutional Neural Networks),因此这类方法难以捕获深层领域特性和相关特征间的关联性。通过对比实验发现,在这种情况下能够专门学习领域特性和相关特征的后期融合方法往往表现出更好的性能。

C₂RP 是对 EDN 技术的一种优化升级。该系统通过引入一个编码器-解码器网络来实现预测细化过程,并在此过程中权衡了计算效率这一重要指标。经过对比分析后发现,在现有研究中 S₂DNet 研究者们取得了更为优异的表现。然而,在这些研究中存在一些不足之处:尽管一些基于 C₂RP 的方法采用了形态学操作符 [17]、最近邻插值 [10, 39] 以及双三次插值 [39] 等手段来进行粗略预测工作以提高效率,但这种做法导致预密化的深度图质量较为低下主要是由于输入数据稀疏性较高的缘故。相比之下,在现有研究中 S₂DNet 研究者们在这方面表现更为突出:他们不仅充分运用了编码器-解码器网络来实现粗略预测工作更能在第一阶段就学习到更加准确的深度图从而显著提升了最终的细化性能值得进一步探讨的是在现有研究中这些模型仍存在一定的局限性

基于这些分析结果

4.2 晚期融合模型

晚期融合模型主要采用两个分支结构来获取特征信息:一个是基于 RGB 图像的 RGB 编码器网络;另一个是基于稀疏深度输入的深度编码器网络。其融合操作位于两个分支结构的中间层。传统的晚期融合方法主要基于双编码器架构设计。具体而言,它们大致可分为以下三种形式:第一类为双编码器架构;第二类为双编码器与解码器并行设计;第三类则统一采用了全局与局部深度预测方案。

4.2.1 双编码器网络

总体见解:双编码器网络(DENs)基于分而治之的方法分别从 RGB 图像和稀疏深度图中利用两个独立的编码器学习领域特定的特征表示。然后将提取出的特征进行融合以生成关联特征表示,并通过解码器输出这些关联特征表示。

采用双编码器网络(DEN)的方法主要利用RGB编码器与深度编码器来获取多模态特性信息随后将这些特性进行融合后传递给解码模块

最近的研究者们致力于开发更为复杂的融合策略。Fu 等人 [25] 对于RGB与深度特征的直接连接进行了优化,并借鉴了条件神经过程[30]中的整合模型来进行归纳融合。Zhong等人的工作[141]则强调了RGB与深度信息间的关联性。基于此提出了CFCNet框架,在应用深度典型相关分析[128]的基础上成功提取了最具有语义意义的特征——即为稀疏深度点与其对应的RGB图像像素之间的关联。

上述方法主要局限于单一空间尺度上的RGB与深度分支输出特性的融合。然而没有考虑到RGB与深度特性在多个空间尺度上的有效结合这一重要性。多模态特征求取通过浅层高分辨率特性尽量减少结构信息丢失的同时能够借助深层低分辨率特性来提高预测效果。多项研究 [78], [142] 已经证实了多模态特征求取对于密集预测任务的重要性。为此Zhang等人[137]提出了一个多模态适应性联合网络MAFN该网络的核心贡献在于自适应性的跨模态联合机制它能够整合来自不同模态(如RGB与深度)的关键信息并传递给邻域注意模块从而增强了模型对局部关系的关注。

在这里插入图片描述

图 5 是多尺度适应融合网络(MAFN)的示意图。该框架由两个编码器构成,在分别从 RGB 编码器与深度编码器提取特征的基础上,在多尺度上通过适应性融合模块(AFM)进行整合与优化。来源 [137]

Li 等人 [63] 提出了一个高效的级联沙漏网络架构,在该框架中包含一个图像编码器分支和三个并行支路分别负责在1/4、1/2和1倍尺度上提取深度信息。各尺度上的特征图通过跳跃连接模块与对应的深度特征图进行融合,并将真实深度值经过下采样处理后,在各个分辨率级别上施加监督信号。该设计有效降低了模型计算复杂度的同时显著提升了推理效率。

为了更有效地解决数据稀疏问题,在深度学习领域中许多研究致力于通过施加额外约束来引导学习机制的发展。其中一种常用的方法是基于时序相邻帧之间施加对极约束的不同变体[15, 24, 100, 118, 119, 120, 121];或者采用基于立体图像对的不同策略[98, 129]。另一种重要的策略是对抗性损失机制其原理源于生成对抗网络(GAN)[33] 的对抗训练策略。然而这些方法虽能提供无监督学习框架但在实际训练过程中仍需依赖额外的数据输入或其他形式的辅助指导信息

4.2.2 双编码器-解码器网络

总体看法:通过升级双编码器网络并增加了解码器组件以增强模型的性能指标。

如上所述,在DEN架构中整合了RGB编解码模块与深度编解码单元构成主干网络体系

如图6所示展示了其代表性的方法

在这里插入图片描述

图6. GuideNet的架构图显示了一个基于编码器与解码器网络的深度学习框架,在该框架中设计了一种引导卷积模块从RGB特征中提取融合核,并将其应用于深度特征分析以实现目标检测任务的研究工作来源[104]

参考了[104]和[109]的研究成果后

4.2.3 全局和局部深度预测

总体而言:全局和局部深度预测(GLDP)主要运用了整体深度估计网络与分区域深度检测网络,并充分利用了早间融合与晚间融合的优势。

在以往的一些研究工作中,
其中 RGB 与 LiDAR 被视为提供整体空间感知的数据类别,
而其中 LiDAR 被视为聚焦于特定区域细节的信息源,
整体架构基于 GLDP 方法构建了基于 RGB 与稀疏深度融合的整体感知模型,
同时采用基于LiDAR数据的空间细化机制来估计区域内的三维结构,
整合两者的特征提取结果生成了高分辨率的空间感知网格。

基于全局与局部特征的提取,在文献 [110] 中,预测了整体深度图与局部深度图的同时置信度分布。交叉引导用于细化另一个分支预测所生成的深度图。类似的技术已在 [62] 中探讨。他们引入了一个残差空洞空间金字塔模块(RASP),取代传统残差块结构。与 [110] 的方法不同的是,在这里置信度图并非直接通过逐元素相乘来提升深度估计。同样的框架也用于解决从极度稀疏深度补全任务中恢复单线深度图像的问题。

4.2.4 讨论

晚期融合模型在网络架构设计方面的应用以及多模态数据融合过程中相较于早期融合模型更为复杂,并且通常表现出色。

考虑到 RGB 和深度被视为晚期融合模型的独立输入,并且必须使用两个独立的卷积模块来提取特征。基于此观察结果,在现有研究中提出并广泛应用了双编码器网络(DENs)。此外,在此基础上进一步发展出双编码器-解码器网络(DEDNs),这不仅能够显著提升性能,并且也揭示了一个从简单到复杂的发展路径以及探索特征融合策略的过程。具体而言,在这一过程中可以看出:早期的研究主要采用直接拼接[54]或求和[93][98]的方法进行多模态特征融合;而随着研究进展逐渐转向利用语义相关性[141]、注意机制[137]以及空间变化核[104]等方法实现多模态特征融合;同时研究者们还逐步扩展了关注的空间尺度范围:从单一空间尺度[25][54][93][98][141]到更为常见的多尺度框架[63][104][127][137].

对于三种类型的晚期融合模型而言, GLDP 和 DEDN 被视为早期方法在模型设计方面的改进。GLDP 实际上是将早期融合方法与一个额外的网络进行了融合,该网络能够从稀疏深度输入预测出密集深度图;而 DEDN 则是对 DEN 的优化,分别针对 RGB 图像与稀疏深度图采用了独立的编码器-解码器架构。值得注意的是,如果基于相同的骨干网络框架构建,DEDN 在性能上将优于 DEN。另一方面,尽管 DEDN 在基准数据集测试中优于 GLDP 方法,但其通常采用更为复杂的网络结构并配备更多参数,例如 GuideNet 拥有 62.6 百万参数,相比之下如 [110]、[62] 所示的方法仅有 2.5 万至 5.4 万参数。综合来看,在准确率与效率之间取得了最佳平衡的研究成果主要来自 [63] 及相关研究方向

4.3 显式 3D 表示模型

大部分先前的RGB引导深度补全研究采用了隐式的但效果不佳的方式去学习三维几何关系。这种挑战主要源于常规二维卷积网络难以有效提取自稀疏输入样本的三维几何信息,在这种情况下观测到的深度值呈现不规则分布特征。因此另一类先前的方法则采用了显式的三维表征方式(E3DR)。这种方法可大致分为三类:第一类基于三维感知卷积的方法第二类采用中间表面法线表示的技术第三类则侧重于从点云数据中学习几何表示

4.3.1 3D 感知卷积

总体见解:基于深度点与其空间邻居的相关性,在稀疏输入中存在大量不规则分布的缺失样本的情况下,在深度点的空间最近邻区域上施加3D感知卷积能够有效地减少数据丢失带来的负面影响。而非传统的标准卷积架构。

在该网络的2D-3D框架中(...),其RGB分支与深度分支提取的特征通过多个融合模块进行整合,并非简单叠加而是经过特定处理以实现信息的有效结合。每个融合模块采用多尺度设计,在二维网格空间内运用常规卷积提取外观特征;同时,在三维空间中针对中心点的K个最近邻居节点施加两次连续卷积操作以学习三维几何信息。随后的研究大多沿用基于空间邻近关系进行K近邻学习的方法。

基于 ACMNet 研究框架 [140] 的研究中指出,最近邻关系则通过比较节点间的空间差异性来建立,与先前研究 [9] 的区别在于,非网格卷积架构采用图传播机制实现,而非传统网格架构所依赖的空间采样方法。具体而言,该网络框架包含一个自适应深度网络结构 (DEDN),其中编码器由协同注意引导的图传播模块 (CGPMs) 组成;解码器则采用对称门控融合模块 (SGFMs) 作为堆叠结构,其核心设计思想是在图像编码器与深度编码器之间动态平衡特征提取能力与表示学习能力之间的关系,从而实现多模态特征信息的有效融合机制

在这里插入图片描述

图 7 是 ACMNet 的示意图形谱图中所示,在该架构中编码器通过多个协同注意力引导的图传播模块 CGPMs 实现多模态特征提取而解码器则采用多个对称门控融合模块 SGFMs 来完成多模态特征融合

Xiong 等人[122]构建了一个针对深度补全的图模型,并开发出基于图神经网络(GNN)的相关算法。值得注意的是,在文献[9]和[140]中提到的相关3D网格仅限于生成有效点的方法构建。其中一个是旨在用于从具有DEDN架构的基线模型预增强后的密集深度图像中的每个点创建网格的方法。该方法还深入研究并进行了对比分析,在基准数据集NYU-v2上合成稀疏网格的不同取样策略。结果表明,在使用准随机采样的方案下获得的结果显著优于随机采样的方案。这些发现有助于在室内场景中进行不同取样策略下的网格补充任务实验

4.3.2 中间表面法线表示

整体看法:表面法向量通常被用作中间表示,并不仅在室内深度增强方面具有显著效果。从直观上看,在室外深度补全方面是否同样适用呢?

一些工作采用了表面法线作为深度图的中间3D表示,并开发了一种基于表面法线引导的方法来实现深度图的生成。研究表明,[47] [136] 这种中间表示能够有效增强室内场景中的深度感知效果.然而,Qiu 等人[88]指出,在室外场景中从法线重建深度图对噪声和遮挡更具敏感性;如何更好地利用表面法线仍是一个开放的问题.为此,他们提出了一种双分支网络DeepLIDAR,该网络由颜色路径和表面法线路径组成.两个分支均生成密集深度图,最终深度图通过基于注意机制融合两个分支输出获得.在表面法线分支中,表面法线被用作生成深度图的关键中间表示.

在这里插入图片描述

图 8. DeepLIDAR 的流程图,其中表面法线被用作深度图的中间表示。来源 [88]。

如文献[88]所述的方法中

4.3.3 从点云学习

基本观点:我们可以通过直接分析点云数据显式提取3D线条信息,并且该方法基于其作为3D结构可靠先验的特点具有良好的适用性。

近年来一批研究直接采用点云进行几何表示的学习工作

基于参考文献[20]和[55]的研究表明,将点云数据成功整合到深度填补技术中,显著提升了模型的泛化准确度.与先前的方法[55]相比,本研究提出的方法[20]不仅取得了与之竞争的结果,而且其框架更为简洁和高效.

4.3.4 讨论

从性能角度来看,在处理复杂场景时展现出显著优势的E3DR方法,在多数不具备显式三维表示能力的方法中表现更为突出。具体而言,在针对这三种显式的三维模型中——包括EDN、C2RP和DEN等方法——应用基于三维感知卷积(3DAC)的技术(如2D-3D FuseNet[9]以及ACMNet[140])在准确性和计算效率方面均超越了仅利用中间表面法线表示(ISNR)以及基于点云学习(LfPC)的传统方法。这一结果并不令人意外地出现是因为三维感知卷积仅关注空间上接近的有效深度区域,在一定程度上减少了数据缺失所带来的负面影响,并从而降低了冗余信息的比例。

就模型复杂性和准确性而言,在此研究中提出的方法在模型复杂性上具有较高的优势,在准确率方面则表现欠佳。文献[122]中所采用的网络架构主要由DEDN和GNN模块构成。基于这些研究发现, 我们认为所提出的网络架构相比现有的一些方法(如[9],[140])在计算资源需求方面更为高效, 但在准确率上略逊一筹. 通过进一步分析, 我们发现该方法的性能与[123]的研究相仿, 但不如[9],[140}中的研究成果.

一方面,在综合考虑其复杂性和性能后,并未显示出显著的优势。
然而,在监督生成可信的目标法线时,在室外环境中也面临着更高的挑战。
尽管通过在[88]中应用基于注意的掩码或在[123]中建模置信度掩码来减少噪声效应,
但采用中间法线表示本质上将这一难题引入到了深度补全过程中。
即便在室外场景中出现微小的表面法线偏差,
观察到的噪声也会导致较大的距离误差。
值得注意的是,
ISNR的表现与3DAC和LfPC相当,
但由于模型复杂度最高,
因此难以实现实质性的改进。

该方法通过直接从3D点云学习展示了另一种基于3D感知的深度补全技术。

4.4 残差深度模型

基本观点认为:深度图的推断应在整体架构上具备准确性,并且在细节层面具有真实感。因此可以将单阶段预测过程分解为稠密图估计与残差图估计两个环节。

残差深度模型(RDMs)生成深度图及其对应的残差图,并通过这些图像的线性组合实现最终深度估计。基于对残差图的分析,该模型能够进一步优化模糊区域的深度估计,并在物体边界上实现更为精细的结果。

这些方法通常采用类似的方式进行粗略到细化的两阶段预测过程。如文献[64]所示,在该研究中展示了一个简单的应用。其中首先将稀疏深度图补充至稠密深度图,并随后预测残差深度图。最终通过逐元素相加生成最终深度图。如 Gu 等人 [34] 所述,在他们的研究中提出了 DenseLiDAR 方法。在该方法中首先通过形态学操作预测一个伪深度图,并将伪深度图、RGB 图像和稀疏深度输入发送至卷积神经网络(CNN)以预测残差深度图。最后将伪深度图像与残差图像相加以获得最终的深度图像。

在这里插入图片描述

图表 9展示了DenseLiDAR的流程图,在此过程中深度补全被分解为粗略深度图和残差深度图的学习。来源 [34]。

对于其他方法而言,在改进的过程中源自于对粗略深度图与残差深度图估计精度的提升。具体而言,在[67]、[83]等文献中均提出了基于可微分核回归网络的新方法来替代传统的人工插值方法来进行粗略深度预测。此外,在FCFR-Net中[68]则提出了基于能量操作的方法以实现多模态特征融合从而进一步优化残差图学习过程

为了针对数据分布的不均匀性和异常值的处理问题,在深度学习领域中,Zhu 等人 [144] 提出了一个创新性的框架,该框架由两个关键组件构成:首先是一个多尺度深度补全模块,其次是一个基于不确定性原理的注意力机制强化层.与同类基于残差的方法类似,前者负责输出粗略预测结果,而后者则承担着精细调整的任务.该框架通过在初始解码阶段弱化对高度不确定区域的严格约束,从而有效抑制异常值可能带来的过度拟合风险,并在后续编码阶段生成误差图以指导精细调整.为提升模型性能,Zhang 等人 [138] 创新性地将后期特征融合技术与残差学习相结合,提出了一个基于深度估计网络(DEN)的新模型.与现有方法不同之处在于,该模型不仅整合了多源信息,还实现了对误差图的有效建模以优化整体预测精度.

4.4.1 讨论

残差深度模型主要致力于增强深度图的几何保真度。与 C2RP 模型不同,在其细化过程中直接基于预预测得到的粗略图进行操作。该模型利用残差学习来估计并生成一个残留图,并将其作为对稠密目标图像的有效补充作用。首先,在这种机制通常被视为一种结构调节手段,并有效提升图像感知质量。其次,在该机制中发现的主要优势在于:由于远距离区域通常会产生较大的深度估计误差而近距离区域则相对精确,在这种情况下,通过残差学习能够有效补充那些具有较大误差的目标像素点,并保留那些接近零值或已经被准确预估的目标区域像素。

就整体来看,在计算机视觉领域中,残差深度模型展现出良好的性能表现。在KITTI基准数据集挑战赛中,FCFR-net[68]与[144]分别取得了第5名和第9名的成绩。值得注意的是,在保证准确性的前提下,并非仅靠残差学习能够实现效果提升;此外还应结合基于能量的多模态特征融合技术[68]以及具备抗异常样本能力的损失函数设计[144]。因为这些方法的具体参数数量尚不明确,在分析其复杂性时也面临一定的困难。

4.5 基于 SPN 的模型

总体认识:SPN通过以相似性为基础进行细化处理以明确整体点与其邻近点之间存在的空间关联性。

相似度矩阵亦称相似性矩阵,描述了数据点间的相近程度.该方法在视觉任务中通过细化过程生成高精度预测结果.在空间传播网络(SPN)[69]框架内,学习一个相似度矩阵等价于学习一组变换矩阵.基于文献[69][86],SPN中的相似度细化过程可通过下述数学公式进行刻画:

xt_{m,n} = wc_{m,n}x^{t-1}_{m,n} + \sum_{i,j \in N_{m,n}} w_{i,j}^{m,n}x^{t-1}_{i,j}

其中(m,n)与(i,j)分别代表基准像素点及其邻域像素的位置坐标,在此框架下N_{m,n}表示基准点(m,n)所在位置的所有邻域像素集合。t则代表图像细化处理过程中的迭代次数,在此过程中wc_{m,n}w_{i,j}^{m,n}分别作为衡量基准点及其邻域区域与目标区域相似程度的关键指标值;其中wc_{m,n}被定义为1减去该基准点所有邻域像素所对应权重之总和

因为深度点与其邻居之间存在相关性关系,在处理深度回归问题时具有良好的适用性,并且基于这种结构的一些先前研究已经开发出了相关的算法体系。Cheng 等人提出了一种开创性的卷积空间传播网络(CSPN)[13, 111] ,这是目前在深度补全任务中应用最广泛的SPN模型之一。相较于原始 SPN [69] ,CSPN 在功能实现上进行了两项重要改进:第一,在 SPN 模型中每个节点不仅与来自同一行或同一列的三个局部邻居建立直接连接关系,在 CSPN 中则采用了大小为3×3的局部窗口来连接其周围邻居节点;第二,在信息传播机制上,CSPN 利用卷积操作在各个方向上独立地传播并融合局部区域特征信息, 这一机制相较于传统 SPN 的不同之处在于避免了全局池化操作所带来的信息损失风险。在计算最终结果时, 每个深度点的状态值将完全依赖于其周围节点通过相似度矩阵所构建的信息扩散网络

具体而言, 文献[77] 中所提出的网络架构通过引入跳跃连接模块以及新增一个独立的分支结构来生成相似度矩阵参数. 在给定初始预测结果——即粗略估计得到的深度图以及生成好的相似度矩阵的基础上, 将CSPN模块嵌入到该框架中进行进一步精细化的估计过程(如图所示)。这一过程主要涉及两个关键超参数参数的选择: 核大小参数(即每个节点所关注的本地邻居区域大小)以及迭代次数参数. 这两个超参数都需要通过系统化的超参数搜索方法来进行最优配置以达到最佳性能效果

在这里插入图片描述

图 10. 该深度补全框架利用了 CSPN 结构。CSPN 模块被嵌入到网络架构中以通过修正粗略预测的深度信息来提升精度。来源 [111].

为了应对确定核尺寸与迭代次数所带来的挑战, Cheng等人进一步提出了一种改进型CSPN模型[12], 开发出了上下文感知型CSPN(CA-CSPN)与资源感知型CSPN(RA-CSPN)两种版本。在开发CA-CSPN的具体实现方案时, 首先对不同配置下的核尺寸与迭代次数进行了详细设定, 并引入了两个动态调节的超参数以适应不同组合情况下的性能需求, 这一过程导致CA-CSPN在计算资源上消耗较大。针对这一问题, RA-CSPN采用了最小化计算开销的方式, 为每个像素自动选择最优的核尺寸与迭代次数设置。为此, 将计算成本函数整合到优化目标中, 从而实现了在保证模型性能的同时平衡训练效率的问题解决策略

尽管CSPNet与CSPNet++主要聚焦于现有编码器-解码器方法[77]细节的发展部分,而PENet[44]则充分利用了SPNet及其后期融合模式的优势部分.PENet基于DEPN结构设计,其中一个是基于RGB图像信息与稀疏深度数据构建预测模型,另一个则是利用预密化的深度图信息与稀疏深度数据构建另一个预测模块,随后将CSPNet++应用于这些多模态预测结果的整合层中

上述方法在类似领域研究中采用特定的空间传播策略以处理数据特征提取问题。然而,在这一过程中存在一些局限性需要解决。针对这一问题提出了解决方案的是Park等人的工作[86]中提出的非局部位域神经网络模型(Non-Local SPNs)。该模型能够有效地学习具有类似特征的空间信息以及深度置信图的相关表示,并且通过K个可变形卷积层从这些空间区域上执行传播操作以增强特征表达能力。此外,在模型构建过程中还引入了一个置信度融合机制来归一化各子网络之间的相似性得分以整合更多高置信值的信息并减少不可靠深度信息的影响

在文献 [124] 中描述了可变形空间传播网络(DSPN),该模型能够根据每个像素自适应地生成独特的感受野以及相似度矩阵。同样地,在文献 [65] 中提出了基于注意力机制的动态 SPN(DySPN)。通过区分邻近像素的距离特征来自适应性地学习相似度矩阵。这种注意力机制通过递归生成不同层次的注意力图来逐步细化相似度矩阵,并推动深度补全领域采用了最先进的技术路线。目前,在KITTI深度补全基准测试中,DySPN的表现位居榜首 [109].

4.5.1 讨论

第一个 CSPN [13] 基于统一的 3×3 局部区域和固定核尺寸设计。这两个核心问题通常与无关像素相关联,并各自限制了 SPNs 的表示能力,从而引发了过度平滑等负面效果。针对这些问题的研究通过创新性解决方案进行了改进:例如通过引入非局部邻居策略[86]来解决这一问题;或通过动态自适应核分配机制[12]实现性能提升;此外还有一种基于注意力机制的自适应架构[124]能够有效平衡各维度性能。

得益于这些努力,在SPN模型方面取得了显著的优势与与其他方法相比

值得指出的是,在准确性虽有优势的情况下(...),这却会导致模型复杂度上升(...)。基于 SPN 的架构不得不引入额外的卷积模块以实现 SPN 的具体构建过程(...),从而导致模型复杂度上升(...)。此外,在经过多次优化迭代后进行相似度细化的过程往往耗时较长(...)。例如,在 KITTI 基准测试中(...),CSPN 方法仅需一秒完成对稀疏图数据集的处理任务(... ),这一速度比大多数现有方法快了 10 至 100 倍( ... )。对于近期提出的新型两阶段深度估计方法而言( ... ),它们在推理速度方面的表现同样不尽如人意:DySPN 和非局部 SPN 方法分别消耗 0.16 秒和 0.2 秒完成相同任务( ... ),而 FCFR-Net 和 DenseLiDAR 则分别只需 0.1 秒和 0.02 秒便能高效处理同类问题( ... )。


5 模型训练的学习目标

基于深度补全与单目深度估计均旨在预测一致的密集深度图这一共同目标可知它们在学习目标上存在显著的一致性。具体而言包括以下几种关键损失指标:如深度损失、表面法线方向误差以及光度一致性损失等。作为基础模块之一,在这一部分我们将回顾这些关键学习目标并深入探讨其应用前景。

在这里插入图片描述

5.1 深度一致性

给定一个稀疏输入 Y', 通过神经网络模型 N 生成了预测的稠密深度图 \hat{Y}, 并与部分真实深度数据的真实图像 Y 进行比较。许多研究引用文献[54]、[70]、[98]、[108]以及[129]采用了上述方法, 并基于预测深度与真实深度在有效像素点上的L1损失函数进行评估。

l1 = \frac{1}{n} \sum_{i=1}^{n} \|Ŷ_i - Y_i\|_1

其中符号\|\cdot\|_1代表l1范数;符号\hat{Y}_i \in \hat{Y}Y_i \in Y分别表示第i个像素位置上的预测深度值与真实深度值;而n则为来自数据集Y的有效深度点的数量。大多数现有方法[20, 77, 137]主要采用均方根误差(RMSE)作为深度估计的损失函数;具体定义如下:

l2 = \frac{1}{n} \sum_{i=1}^{n} \|Ŷ_i - Y_i\|_2

其中 \|\cdot\|_2 代表 l_2 范数。值得注意的是,在众多研究文献[62, 76, 77, 77, 88]中将 l_2 损失常被称作均方误差(MSE)。由此可见,在本文的研究框架内我们对 RMSE 和 MSE 的应用范畴并不加以区分。

l1 损失平等地对待每个有效像素,而 l2 损失对异常值更敏感,通常更严重地惩罚远距离深度点。为了利用两种损失,一些方法尝试从不同方面组合它们。例如,一些方法 [36], [65] 线性地将它们组合为一个损失函数。Van Gansbeke 等人 [110] 提出了 focal-MSE,其中平均绝对误差作为焦点项用于对深度的 l2 损失加权。此外,一些研究 [89], [112] 使用 Huber 损失 [49],结合 l1l2 以减少大误差的影响。它定义如下:

等于在误差绝对值不超过δ时,

lhuber = \begin{cases} \frac{n^{-1}}{\texttt{} }\sum _{\texttt{i}=1: n}(Y_{i}-x_{i}\beta )^{2}, & 当 |Y_{i}-x_{i}\beta |\leqslant d \\ d^{-1}(y-xβ )^{T}(y-xβ ), & 当 |Y_{i}-x_{i}\beta |>d \end{cases}

其中 |·| 表示绝对值操作符及其常见用途之一,在优化问题中常被设定为 \delta = 1 的基础设置参数。值得注意的是,在实际应用中该参数的选择会影响最终结果的质量表现;少数研究 [71], [112] 针对特定领域优化需求提出了基于 Berhu 损失 [85] 的改进方案;这种设计思路源于将 Huber 损失函数取其反向定义形式以强化鲁棒性特性

lberhu = \begin{cases} \frac{1}{n}\sum_{i=1}^n |Y_i^{\text{hat}} - Y_i|, & 如果误差不超过 \delta \\ \frac{(Y_hat{i}-Y{i})^2 + \delta^2}{2\delta}, & 如果误差超过 \delta 的情况下取值为 \dfrac{(Y_hat{i}-Y{i})^2 + δ^2}{2δ}\end{cases}

图形 11展示了MAE、MSE、Huber和Berhu损失函数在δ=1情况下的对比。从图形中可以看出,在误差小于δ的情况下,Huber范数表现出l2特性;而当误差超过δ时,则表现出l1特性。相比之下,Berhu范数与Huber范数呈现相反的特性:当误差小于δ时,它表现出l1特性;而一旦超过δ,则转为l2特性。

在这里插入图片描述

另一个尝试是以分类的方式来重新表述深度预测任务。与单目深度估计的早期方法不同,在这种情况下(即在基于单幅图像的场景下),我们将连续的深度值划分为若干区间(箱),并通过交叉熵损失函数来衡量预测结果与真实值之间的差异。而针对深度填补任务,在[51]和[67]的研究中采用了这种方法。

除了上述所讨论之外,在处理稀疏输入中的异常值与固有噪声问题时

p(Ŷ_i|σ_i, Y_i) ≈ \frac{1}{\sqrt{2πσ_i}} \exp\left(- \frac{(Ŷ_i - Y_i)^2}{2σ_i^2}\right)

Ŷ_iσ_i 可以通过最大似然估计得到:

Ŷ_i, σ_i = \arg\max_{Ŷ_i,σ_i} \log p(Ŷ_i|σ_i, Y_i) = \arg\max_{Ŷ_i,σ_i} \left(-\frac{1}{2} \log(2π) - \log(σ_i) - \frac{(Ŷ_i - Y_i)^2}{2σ_i^2}\right)

其中 s_i = σ_i^2 代表第 i 个像素的预测不确定性。基于公式(10),基于不确定性的深度损失被定义为进行深度补全的关键指标:

lud = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{(Ŷ_i - Y_i)^2}{s_i} + \log(s_i)\right)

在实践中,一般采用指数型函数来预防训练期间分母为零的情况,并采用以下不确定性的感知作为优化准则。

lud = \frac{1}{n} \sum_{i=1}^{n} (\exp(-s_i(Ŷ_i - Y_i)^2) + s_i).

根据文献中的研究,在深度补全框架中使用了一个额外的分支估计来生成不确定性图 s

5.2 结构化损失函数

先前的工作中出现的一个常见问题是预测的深度图存在模糊效应以及边界区域的失真现象。为了缓解这一问题,在本研究中研究人员提出了采用深度梯度、表面法线以及感知质量相关的损失函数来对场景结构施加正则化约束机制。具体而言,在这一过程中首先通过最小化平均绝对误差的方式实现了梯度损失 l_{grad} 的计算 [34], [67]。而对于表示为 l_{normal} 的表面法线差异,则通常采用负余弦相似度来进行衡量 [88], [123]。从 [42] 的研究结果来看,在梯度损失方面能够有效减少物体边界处出现的预测误差,在表面积分误差方面则能够较好地缓解微小结构上的偏差问题。此外为了保证整体感知质量相关指标的提升研究人员还引入了基于结构相似性指数(SSIM)定义的感知质量损失 l_{ssim} 并对其进行了惩罚性约束处理 [116], [134] 。值得注意的是由于训练数据中难以获取真实深度图信息在实际应用中若要使用基于结构相似性的先前方法则需要预先生成伪真实深度图数据。

在这里插入图片描述

图 12展示了深度、梯度与表面法线损失在抗空间分布差异方面的性能对比。为了便于理解,默认使用实线表示第一幅深度图、虚线表示第二幅。观察到深度损失对边缘偏移与遮挡关系不敏感;另一方面, 梯度与表面法线损失则能够有效处理这些结构差异。参考文献[42]

5.3 平滑正则化

通过抑制噪声以及保证局部深度预测的平滑性来实现平滑正则化的作用。两种常见的学习目标被用来施加深度预测中的平滑特性。其中第一个方法主要应用于文献编号为[76]、[98]、[125]以及[135].其中第一个方法主要应用于文献编号为[76]、[98]、[125]以及[135].其中第一个方法主要应用于文献编号为[76]、[98]、[125]以及[135].其中第一个方法主要应用于文献编号为][76][,][98][,][125][,][135].这种方法的目标是最小化预测深度图中各点二阶导数绝对值之和.

l_{smooth} = \frac{1}{n} \sum_{i=1}^{n} \left(|\partial^2_x Ŷ_i| + |\partial^2_y Ŷ_i|\right)

在以下讨论中,在数学公式部分中涉及到的符号有:\partial_x\partial_y 分别代表密集深度图在水平方向和垂直方向上的梯度变化。这些符号分别对应于以下两个概念:第一种是基于梯度计算的方法;第二种是边缘感知平滑损失(Smoothness Loss with Edge Awareness),它被用来处理边界区域中的深度不连续性问题,并且这一方法已经被广泛应用于多个研究领域,并被引用在以下文献中:[15, 93, 100, 118, 120, 121]。

该平滑损失函数由以下公式定义:l_{smooth}等于样本数量n分之一乘以从i=1n求和;其中每一项由两部分组成:第一部分是x方向偏导数\partial_x Ŷ_i绝对值与x方向图像梯度\partial_x I_i绝对值指数函数之积;第二部分是类似地在y方向上的对应计算

此外,总变差也用于 [14] 中的噪声抑制。

5.4 多视图几何约束

深度补全技术面临的最突出问题之一是缺少可靠数据。除了探索解决这一问题之外,在研究过程中研究人员还试图基于损失函数这一角度进行深入探索。具体而言,在研究过程中研究人员发现:通过从连续图像中提取的时间序列光度损失能够提供一种无监督式的监督机制,并以此指导深度填补过程。

Ma 等人 [76] 是最先将光度损失引入深度补全领域的研究者之一。基于极点几何理论,在预测深度图中进行像素变换至邻帧区域。随后,在对应像素之间的差异程度上施加惩罚机制。具体而言,在给定图像 I_t 和其时序相邻图像 I_s(其中 s ∈ {t - 1, t + 1}),通过以下数学表达式计算像素 p_i 在从 I_sI_t 的空间变换关系:

\hat{p}_i = KT^{s→t}Ŷ(p_i)K^{-1}p_i

其中相机内参矩阵被定义为变量 K, 而变量 T^{s→t} 则被用来表示相机之间的相对姿态关系. 估计深度 \Ŷ(p_i) 被认为是来自图像 I_s 的像素位置 (x, y, 1)^{\top} 对应的预测结果. 点 \hat{p}_i \in I_t \subset \mathbb{P}^2} 对应于原始图像中的点 (x, y, 1)^{\top} \in I_s \subset \mathbb{P}^2}

然后,两幅图像之间的光度损失定义为:

l_{photo} = \frac{1}{m} \sum_{i=1}^{m} \|I_s(p_i) - I_t(\hat{p}_i)\|_1

其中 m 表示变换像素的数量。

研究者通过多维度策略优化现有光度损失指标。该指标对于运动物体具有高度敏感性。为此问题的解决,Chen等人在自监督框架内引入了MaskNet机制,该机制能够有效识别并遮蔽运动物体及其影响区域。为此目的,Wong等人将经由变换后的图像与其原始版本计算得到的SSIM差异[116]纳入该指标体系

进一步研究了多种用于计算光度损失的方法。在文献[53]中采用了光流法来估计相邻帧间的相对位姿;而文献[135]则引入了一个姿态估计网络以达成相同目标。文献[100]中则通过多尺度特征空间计算相对位姿。具体而言,在系统架构中首先将连续帧输入到FeatNet模块进行多尺度特征提取;随后,在每个尺度层上应用高斯牛顿算法(参考文献[5])来计算对应的相对位姿。

Wong 等人对无监督深度补全方法的改进做出了重要贡献。如文献 [119] 所述,在传统应用中,默认的做法是将光度损失视为将每个像素视为同等重要。这种做法在遮挡区域会导致明显的错误。为此,在 [119] 的基础上,他们引入了一种自适应权重函数来解决这一问题。随后,在文献 [120] 中提到的方法中采用了脚手架操作来进行深度估计,并通过编码器-解码器网络进一步细化细节。然而,在 ScaffFusion 方法中(如文献 [118]),他们采用了不同于 [120] 中脚手架的操作方式——增加了空间金字塔池化模块以及编码器-解码器网络结构以提升性能。为了提升模型在不同相机配置下的泛化性能,在文献 [121] 中提出了 KBNet 方法,并将其校准矩阵作为额外输入参数以便更好地适应不同相机环境

除了时间轴上的光度损失之外(Besides temporal photometric loss), 还有一些先前的研究在进行三维配置时致力于深度恢复. 当三维数据可获取时, 可以采用不同的方式导出多视角光度一致性(For instance, when 3D data is available, different approaches can be employed to achieve multi-view photometric consistency). 此外, 为了应对监督学习中的数据不足问题, 立体图像被用来通过文献 [98] 中的方法, 在缺失像素处重建深度信息(Furthermore, to address the issue of limited supervision, 3D images are utilized to reconstruct depth information for missing pixels as described in reference [98]). 尽管如此, 尽管这些方法确实具备优势(Despite these advantages), 但这种配置不可避免地限制了它们在实际应用中的泛化能力(However, this configuration inevitably limits their generalization capability in practical scenarios).

5.5 对抗性损失

若干研究通过抗arial损失来增强深度填补的效果[1, 58, 108, 134].在相关研究中,在从RGB图像及稀疏深度图估计_depth_的过程中,在鉴别预测与真实_depth_图像方面设置了判别器.抗arial损失l_{adv}的定义如下:

l_{adv} = \min_{G} \max_{D} \mathbb{E}[\log D(Y)] + \mathbb{E}[\log (1 - D(G(I, Y')))]

其中 Y 被定义为密集的真实值;它通常通过其他完成算法来获取;而 GD 分别代表生成器和判别器。

6. 数据集和评估指标

在本节内容中,我们对先前工作中使用的标准基准数据集进行了详细介绍,并对相关数据集进行了系统性分析以供参考。

6.1 真实世界数据集

KITTI深度完成数据集[109]:KITTI数据集是一种广泛使用的大型户外数据集,并拥有超过9.3万个半稠密深度图以及相应的稀疏激光雷达扫描和RGB图像。其中训练集、验证集和测试集分别包含了约8.6万个样本、7千个样本以及1千个样本。这些图像的全分辨率可达1216×352像素,并且比大多数现有RGB-D数据集更大尺寸。这些稀疏激光雷达扫描都是通过Velodyne HDL-64E设备捕获的,并通过Uhrig等人采用半全局匹配技术(SGM)对原始数据进行了净化处理后,在此基础上进一步累积了11次激光扫描以生成真实的半稠密深度图。

值得注意的是,在实现先前方法时,真实值的应用存在差异。原始稀疏深度图的稀疏程度约为5%(如图13(b)所示),而KITTI基准提供的稠密真实值比例可达约30%(如图13©所示)。大多数先前的工作采用了更为密集的真实值来实现其方法;一些无监督的方法[118]至[129]假设仅有原始稀疏深度图作为输入;在这种情况下,在这5%的有效像素上应用了深度一致性。

在这里插入图片描述

第13幅 KITTI深度完成数据集(参考文献[109])的示例图像。(a)RGB图像。(b)原始稀疏深度映射。© 真实深度映射

该数据集由 NYU-v2 标注,并包含来自不同室内的场景(共464个),每个场景提供约48万张RGBD图像。这些图像均通过 Microsoft Kinect 摄像头捕获,并设置为640×480像素分辨率。值得注意的是,在这种情况下(即仅使用原始RGBD数据),深度增强技术仍具有效果;然而,在之前的深度恢复研究中,则采用随机采样的策略来补充这些稀疏输入点(如图15(b)和(c)所示)。其中有效像素的比例不超过全部样本中的1%。基于RGB引导的方法占据了主导地位,在后续章节中我们将深入探讨现有技术的关键特性包括网络架构、损失函数以及Reconstruction误差等

在对该数据集进行评估时,在线监督学习方法仅能将深度一致性技术应用于合成稀疏深度输入中的有效深度点。相比之下,在线监督学习方法如[12]、[13]和[77]等通常依赖于官方提供的工具箱预密化的逐像素密集真实深度图。

在这里插入图片描述

图像 14. NYU-v2 数据集 [99] 的示例图像。(A) RGB 图像。(B) 少量深度信息(200 个点)。(C) 密集深度信息(500 个点)。(D) 对应的真实深度信息。

VOID[120]:该数据集由Intel RealSense D435i摄像头通过从室内及室外不同环境场景中采集组成,其中包括总共56个序列。其中一部分(约共47,000帧)被用来进行训练任务,剩余部分则作为测试用例使用。每个图像尺寸为64列×48行,并且每个序列包含了分别具有1,5 hundred、5 hundred和15 point密度级别的样本点集合。该数据集被广泛应用于评估文献[93]、[118]、[119]、[120]以及[121]中的相关方法。

DenseLivox [133] :基于更经济高效的 Livox LiDAR 设备收集生成的 DenseLivox 数据集相较于 KITTI 数据集其深度图密度(88.3%)更为显著。此数据集不仅包含更高密度的空间信息还包括边界遮挡与曲面法向量等额外细节信息且能够用于评估 [133] 中提出的方法。

6.2 合成数据集

SYNTHIA [92]** :SYNTHIA 数据集在一个虚拟城市环境中采集拍摄,并包括了城市的街道、高速公路、郊区以及其他常见的物体。这些场景呈现出与现实世界四季对应的四种不同的外观特征,并通过引入多种光照条件来增加虚拟RGB图像的真实感与多样性。该数据集分为两个互补的子集:前者包含约13400帧视频片段,在城市环境中随机采集;后者则涵盖了约2百万帧来自不同季节切换下的虚拟车辆行驶场景。这些数据用于评估文献[54]和[89]中的相关方法。

Aerial depth [106]:该系统旨在生成无人机工作环境下的外景深度数据集。该集合基于18个虚拟三维模型生成总计83,797张RGB与深度图像样本,在此之中有约三分之二的数据被分配至训练集以期达到最佳性能评估效果,并留余下部分作为验证集进行测试评估。”

Virtual KITTI[29]:该数据集基于KITTI数据集构建而成。KITTI原始视频序列(包含编号为**[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[ [[ [[ [[ [[ [[ [[ [[ [[ [[ [[[[请查看原文获取完整列表/]]]]]]]]]]]]]]])])])])])])])])])])])])]))]))]))]))]))]))))))))))))))))))))))))))))))))))))))))))通过Unity引擎生成。该数据集包含35个虚拟视频片段(总计约17,000帧)。每个生成的虚拟视频片段经过进一步调整以创建7种变体形式。这些变体调整主要涉及物体特征、相机姿态与光环境参数的优化配置。需要注意的是,在这项研究中所使用的数据集被用于评估文献中提到的各种方法和技术方案

SceneNet RGB-D [80] :该数据集包括大量合成轨迹所生成的5,999,976张RGBD室内图像,并具有324×246的高分辨率像素尺寸。每个轨迹包含375帧渲染后的高质量图像序列,并通过光线追踪技术实现了接近现实的照片级视觉效果。这些高质量的数据被用于评估[118]中提出的方法的有效性

6.4 评估指标

深度填补与单目深度估计一般性地基于相同的评价标准。我们列举了以下广泛采用的衡量标准:

RMSE :均方根误差,定义见公式 (6)。

MAE :平均绝对误差,定义见公式 (5)。

iRMSE :逆深度的均方根误差,定义如下:

iRMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left(\frac{1}{Y_i} - \frac{1}{\hat{Y}_i}\right)^2}

iMAE :逆深度的平均绝对误差,定义如下:

iMAE = \frac{1}{n} \sum_{i=1}^{n} \left|\frac{1}{Y_i} - \frac{1}{\hat{Y}_i}\right|

基于 KITTI 基准的这四个指标常被用作评估模型的标准。在这些评估指标中,KITTY 竞赛采用 RMSE 作为排序依据。由此可知,在训练深度学习模型时,许多研究者倾向于使用 RMSE(即 l2 损失)作为优化目标。另外,在某些深度学习框架中也常使用这些指标。

REL :平均相对误差,定义如下:

REL = \frac{1}{n} \sum_{i=1}^{n} \frac{|Y_i - \hat{Y}_i|}{\hat{Y}_i}

δ :阈值准确性,定义如下:

\max\left(\frac{Y_i}{\hat{Y}_i}, \frac{\hat{Y}_i}{Y_i}\right) < \tau

其中 τ 是给定的阈值。

REL 和 δ 通常用于评估室内数据集(如 NYU-v2)上的模型。

评估深度图是一项具有挑战性的任务。现有度量标准难以全面反映重建合成模式(例如物体)的实际质量。基于此,在后续研究中出现了多种新的评估方法。研究者在文献[42]中通过分析深度图中的物体边界来评估其质量。Koch团队在文献[60]中提出了衡量深度边界的两个关键参数:平面平滑度与位置精度。研究者进一步开发出一套包含平面平坦度与直线度两项重要指标的新体系。然而由于现有数据集通常缺乏密集的真实值信息这些新方法仍面临实际应用中的诸多限制

7. 实验分析

在本节中, 我们从多个角度对比现有方法并进行了回顾。具体而言, 我们选取了各个领域具有代表性的相关工作, 并深入探讨了它们的核心特点, 包括网络架构设计、损失函数选择以及学习策略优化等多个方面。表3与表4分别展示了KITTI数据集上无引导与RGB引导方法的对比结果, 其中的RMSE值均来源于公开的KITTI基准或原始论文研究结果;表5则聚焦于RGB引导方法在NYU-v2数据集上的表现;表6进一步对比了相关工作在VOID数据集上的实验结果。值得注意的是, 为了清晰体现不同方法的特点, 我们将监督学习方法标记为S, 纯无监督方法标记为U(未采用深度一致性约束), 而仅适用于稀疏输入的有效深度估计的方法则标记为S&U(部分无监督)。在表3至表6中, RMSE指标被选作主要的性能评估标准以进行横向对比分析。在此基础上, 下文我们将总结本研究的主要发现

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.1 现有方法的主要特征

仅限于有限数量的早期研究选择了直接利用稀疏深度信息来实现目标完成。与之相比,近期工作的大多采用基于RGB的技术,并在深度信息整合阶段采取了更为后期的方式进行融合处理而非依赖于早先依赖于深度信息的融合方式。

该深度学习库以其在深度补全方法中的广泛应用而闻名;许多先前的研究采用了该库来开发其解决方案。

KITTI 常被用作评估基准的参考标准,在许多领域都是不可或缺的重要数据集之一;值得注意的是,在数据集中表现最为突出的是 NYU-v2 数据库;由于 NYU-v2 数据库中的深度信息来源于 Kinect 摄像头获取技术,在先前的研究工作中通常会通过随机采样或均匀采样的方式选取部分像素点来模拟有效的深度测量点;与之相比,在无监督学习领域中也有另一种常用的技术指标是 VOID

最近研发了先进的人工智能神经网络模块以优化深度补全模型的效能。例如,许多方法建议将其纳入其网络架构中。

设定学习目标对于深度补全任务而言具有直观性和相对优化性。例如,这些方法主要通过 (l1) 和 (l2) 损失进行惩罚,并仍能达到良好效果。

7.2 无引导和引导方法

具有两个显著的优点。无引导方法不仅对光线或天气变化的环境表现出更高的鲁棒性(它们仅采用稀疏深度图作为输入),同样地,在计算上更为高效(因为同样的原因)。然而,在缺少语义信息以及深度点分布不规则的情况下(即未利用图像中的额外无监督损失),其性能较弱(如表3所示)。[73]这一最佳方案也采用了RGB图像来进行模型训练。相比之下,在训练与推理阶段均未使用RGB图像的最佳方案是[48](RMSE为937.48)。另一方面(如表4所示),最佳RGB引导方案DySPN表现更为出色(RMSE仅为709.12)。值得注意的是,在所有监督学习条件下使用的RGB引导方案都显著优于HMS-Net(包括除以下几种外的所有其他方案:3coef[51]、EncDec-Net[EF][112]、Morph-Net[17]以及CSPN[13])。这一差异主要源于未利用来自图像中额外的无监督损失所带来的优势。

7.3 RGB 引导方法的比较

对于 RGB 引导方法,从表 4 中可以观察到以下结果:

  • 早期融合模型通常不如其他类型的任何方法在效果上有明显优势。
  • 许多基于双编码器网络(DEN)的方法都面临效率与准确性之间的权衡。
  • 然而,在DEDN架构下实现的改进显著提升了性能水平。
  • 显式的三维表示技术、基于球形神经网络(SPN)的方法以及残差深度学习技术均展现了显著的进步水平,并且普遍优于现有方案。

更具体地说,在KITTI数据集上排名前10的方法中包括:i)四个基于稀精网络(SPN)的架构设计分别为DySPN(参考文献65)、PENet(参考文献44)、NLSPN(参考文献86)以及CSPN++(参考文献12),ii)两个残差深度网络分别为FCFR-Net(参考文献68)及另一项未明确提及的研究(参考文献144),iii)两个以DEDN为基础的后期融合体系分别为RigNet(参考文献127)与GuideNet(参考文献104),iv)两个显式三维表示方法分别为ACMNet(参考文献140)与2D-3D FuseNet(参考文献9)。依据以上分析可知,在早期阶段进行输入特征聚合或在后期阶段采用双编码器网络进行特征连接等方式进行简单的融合策略均无法达到令人满意的性能水平。前十名方法的核心共同点在于它们都采用了较为直接的方式以显式建模深度点之间的几何关系:一方面通过显式的3D感知卷积操作来捕捉三维特征;另一方面则通过残差深度图细化机制或亲和矩阵细化机制来增强对几何关系的理解能力;此外这些方法还通过设计更为复杂的网络结构来学习更为有效的引导核以指导深度特征的加权融合过程。

通过分析NYU-v2数据集的数据发现具有相似效果的结果。参考表5可以看出DySPN和RigNet展示了最佳表现。除此之外GuideNet、ACMNet、FCFR-net以及NLSPN的表现同样超越了其他现有模型。

从直观上讲,在整合上述方法的核心技术组件后

7.4 无监督方法的结果

表 4 的底部列出了采用无监督光度损失的方法。纯无监督方法(未使用深度一致性损失)的结果通过使预测深度图的尺度与真实值对齐来计算。首先考察未采用深度一致性方法的情况:例如 SS-S2D (d) [76] 和 ScaffFusion-U [118] 这类研究均显示纯无监督方法表现欠佳;即便引入了深度一致性损失和额外的光度损失,在性能上仍无法超越监督学习者;如第 6.2 节所述,在 NYU-v2 数据集上经过像素级真实深度训练的传统监督学习者仍具有显著优势;值得注意的是,在这些研究中所使用的稀疏深度图其密度仅为5%,而传统监督学习者的训练数据密度则达30%;值得注意的是 KBNet [121] 和 DFineNet [135] 等模型在性能上较其他现有算法有所提升;类似地,在表 5 中也显示出相同的趋势:即基于像素的真实深度信息仍然能够显著提升模型性能

表 6 给出了在 VOID 数据集上评估的多种方法的实验结果。\n从 VOICED [120] 到 KBNet [121] 的早期版本中可以看出,在 VOID 数据集上的性能持续提升。\nWong 等人在他们的研究中通常会对稀疏深度输入进行预密化处理,并参考了[118]中的学习空间金字塔池化模块(SPP block)。\n正如[121]所述,在SPP模块中,默认的最大池化层可能会导致近距离细节丢失的问题。\n因此,在KBNet的设计中同时采用了最大池化和最小池化的结合策略,默认情况下可以更全面地提取深度特征。\n我们相信这种设计策略对提升KBNet模型的准确度具有重要意义

就准确率而言,在VOID数据集上的无监督学习方案中,KBNet[121]与ScaffFusion[118]分别位居榜首与第二。然而,在监督学习框架下的NLSPN依然表现更为出色。这一发现凸显出当前无监督方法在使用度量损失方面存在明显缺陷。

8. 开放性挑战和未来研究方向

8.1 深度混合问题

深度模糊问题也被称作深度混合问题其根源在于难以准确识别物体边缘附近的像素值这通常会导致图像边缘模糊以及伪影现象出现为此Imran等人(参考文献[52])对遮挡边界区域中的前景与背景进行了区分建模NLSPN(参考文献[86])引导网络学习非局部相对邻居关系采用基于K近邻的方法实现了这一分离过程以提高效率此外为了进一步优化结果还需在经过上述填补流程后加入额外的边界一致性网络模块(参考文献[47][105])以促进预测结果更加清晰然而即便如此该方法仍面临较大的挑战仍需持续深入的研究

8.2 有缺陷的真实值

另一个主要问题是真实深度值中的缺陷。
首先,在语义分割与之不同的关键在于:目前缺乏相关的标准数据集来提供精确的逐像素标注信息;这种缺失源于深度传感器的技术局限性。
尽管许多现有方法通过监督学习的方式进行训练;然而,在大多数像素位置仍无法获得充分的标注信息。
其次,在面对遮挡物以及动态物体等因素的影响下;半稀疏标注的效果并不完全可靠。
为了缓解数据稀缺性问题;一些研究者 [76], [100] 开发了自监督学习框架;旨在弥补这一不足。
为了应对第二种挑战;Zhu 等人 [144] 提出了将深度补全网络中引入不确定性估计的方法;从而有效处理异常值问题。
此外;还有少数研究 [1], [134] 采用了合成数据集进行模型训练;但现实世界与合成数据之间的显著域差异限制了现有方法的实际应用效果。
尽管上述研究已经取得了一定进展;但如何消除不可靠深度估计的影响仍然是一个亟待解决的关键问题;
未来仍存在较大的改进空间。

8.3 轻量级网络

大多数现有方法都呈现出复杂的网络架构并包含大量参数。此外,其中许多方法采用了两阶段预测策略。这导致耗时较长且对硬件要求较高。然而,在自动驾驶与机器人导航等相关领域中计算资源有限且要求实现实时推理功能。尽管其中一些先前研究 [2], [105], [112], [126] 已经部分关注了这一问题,但其性能表现仍然不够理想。此外,现有的网络设计多具有经验性特点。随着单目深度估计技术的进步, 我们有望进一步应用技术手段, 包括知识蒸馏 [40]、网络压缩 [117] 和神经结构搜索 [50] 等方法, 来提升模型性能. 在不牺牲太多准确性的情况下, 开发高效轻量级模型对于实际应用场景具有重要意义. 因此, 这一方向的研究价值与实践意义十分突出, 是未来研究工作的重要探索方向.

8.4 无监督/自监督框架

如前所述,在缺乏真实深度数据的情况下应用无监督/自监督学习框架存在局限性。现有无监督/自监督方法在准确性上仍明显低于有监督方法(如第 7.4 节所述),因为它们仅在稀疏输入的有效深度层应用深度一致性约束(即仅对那些确实在输入中被检测到的有效特征施加约束),而无法像有 supervision 方法那样充分利用丰富的真实深度数据。此外,在预测的深度图与真实值高度相似时才能有效发挥作用的光度损失函数的效果也受到显著影响:一方面该函数对噪声污染、运动物体以及无纹理区域尤为敏感;另一方面它也难以适应复杂的场景变化;因此目前该方法仍存在较大的改进潜力:通过引入更高效的网络架构来执行辅助任务(如姿态估计和异常值剔除)能够进一步提升性能

8.5 损失函数和评估指标

选择合适的损失函数对于达成深度补全这一目标而言至关重要。常用的损失函数通常由 l_2l_1 损失与其他辅助损失(如平滑损失与SSIM损失)按一定权重组合定义。然而,在[51]的研究中指出,l_1l_2两种类型的损失函数各自存在局限性,因此在实际应用中通常需要根据具体数据集的特点进行合理选择。同样地,当前使用的评估指标无法精确量化场景结构的质量。尽管[42],[51],[56],[60]等文献中提出了若干新型评估标准用于衡量深度图质量,但这些方法仍未能得到广泛应用。因此,设计更加高效的损失函数以及更具说服力的评估指标仍然是未来研究的一个潜在方向

8.6 域适应

当前基准数据集存在深度点充足性不足的问题。值得注意的是,在采集这些数据时所采用的理想光照条件仅限于有限的实际场景中。鉴于此,在基于这些数据训练的模型在不同工作条件和领域中的泛化能力仍需进一步验证和提升。特别是在仿真实验环境中进行深度网络的操作是合理的。不仅能够获得每个像素级别的精确信息,在各种不同场景下也可以灵活调节光照和天气状况。此外这一方法还鼓励了在实际应用场景中开发更加先进有效的解决方案。然而目前这一方向的研究仍面临诸多未解难题值得深入探索[1] [71]。

8.7 基于 Transformer 的网络结构

近年来视觉 Transformer(ViT)逐渐受到人们的关注并且在分类 [18] 语义分割 [101] 目标检测 [139] 和单目深度估计 [4] 等多种感知任务中不断取得新的突破性成果。相较于卷积神经网络 CNN ViT采用了一种全新的输入处理方式即接收一组图像划分为互补块的方式并利用自注意力机制实现各层特征之间的相互作用这种做法可能为深度补全提供一种更为高效的方法来整合多模态数据并解决输入稀疏性问题

8.8 可视化和可解释性

一些研究致力于通过视觉化CNN在单目深度估计中的机制进行探讨。如文献[16][41][43]所述,CNN倾向于利用RGB图像中的一些单眼特征来推断深度。进一步地,在文献[132]中发现,CNN其内部生成的特征呈现高度解耦现象,并能激活至多个不同的深度范围.当输入中可获得部分稀疏_depth信息时,这会对depth estimation产生什么影响?深入探究这一问题对于理解基于学习方法的工作原理至关重要,同时也对其泛化能力提升及depth completion技术增强具有重要价值

8.9 对不同传感器的鲁棒性

现有方法主要针对具有较高扫描线数的传感器设计。例如, KITTI 数据集基于 64 线 LiDAR 设备获取数据,而这种方法难以保证现有的方法适用于低扫描线 LiDAR 设备,如 32 线、16 线及单线 LiDAR 等设备。如文献[72-131]所研究的那样,从 64 线到较低扫描线的性能表现存在显著差异,这使得在低扫描线条件下维持与高扫描线条件相当的准确性成为一个具有挑战性的任务。由于高扫描线设备通常比低扫描线设备更为昂贵,因此在实际应用中开发适用于低扫描线传感器的方法仍具挑战性,这也是一个值得深入研究的重要课题

9. 结论

本文系统性地回顾了基于深度学习的深度补全技术。我们的研究工作主要包含以下几个方面:首先进行了系统性的研究;其次全面梳理了现有技术的发展脉络;然后深入探讨了各关键组件的设计理念;接着构建层次化的分类框架;最后通过可视化分析展示了现有方法的关键特性及其性能表现。在此基础上我们对现有工作进行了深入分析并总结出其性能特点相似之处以及存在的差距所在;随后提出了几个具有代表性的开放挑战问题并指出了未来研究方向。通过以上系统的综述与分析工作我们希望能够为后续的研究者提供一个清晰的知识框架以便更好地推动这一领域的发展

参考文献:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~