【深度补全最新综述】Deep Depth Completion from Extremely Sparse Data: A Survey
综述
综述
综述
-
从极度稀疏数据中完成深度的研究综述
-
-
摘要
-
1. 引言
-
- 贡献概述
-
2. 基于深度学习的深度补全
-
- 2.1 问题表述
- 2.2 分类方法
-
3. 无引导深度补全
-
- 3.1 稀疏感知 CNN
- 3.2 归一化 CNN
- 3.3 使用辅助图像进行训练
- 3.4 讨论
-
-
4. RGB 指导深度补全
-
- 4.1 老师融合架构
- 4.1.1 编码器-解码器架构
- 4.1.2 粗等到精细级数的预测
- 4.1.3 探讨
4.2 后期融合模型
* 4.2.1 双编码器架构
* 4.2.2 双编码器解码器架构
* 4.2.3 全局与局部深度预测机制
* 4.2.4 讨论部分
* 4.3 显式的三维表示模型
* 4.3.1 三维感知卷积模块
* 4.3.2 中间表面法向量表达
* 4.3.3 基于点云的学习过程
* 4.3.4 讨论部分
* 4.4 残差深度模型
* 4.4.1 讨论
* 4.5 基于 SPN 的模型
* 4.5.1 讨论
-
5 模型训练的核心目标
-
- 确保深度一致性的实现
-
- 实现具有结构化的损失函数
-
- 引入平滑的正则化技术
-
- 引入多视图几何约束条件
-
-
设计具有对抗性的损失函数
- 6. 数据集和评估指标
-
- 6.1 真实世界数据集
- 6.2 合成数据集
- 6.4 评估指标
-
-
7. 实验评估
-
- 7.1 现有技术的核心特点
- 7.2 非引导型与引导型技术的对比
- 7.3 基于RGB通道的技术对比
- 7.4 非监督学习效果分析
-
8. 开放性挑战和未来研究方向
-
- 8.1 多源融合问题
- 8.2 存在观测误差的测量数据
- 8.3 高效网络结构
- 8.4 无监督框架设计与自监督框架构建
- 8.5 损失函数设计与评价指标体系
- 8.6 跨域适应机制
- 7.7 Transformer架构设计
- 可视化与可解释性分析
- 多传感器鲁棒性研究
-
9. 结论
-
参考文献:
-
从极度稀疏数据中完成深度的研究综述
摘要
深度补全技术旨在从深度传感器(如LiDAR)获取的极其稀疏深度图中推导出高度详细且逐像素精确的深度信息。这种技术在自动驾驶技术、三维重建算法、增强现实系统以及机器人路径规划等多个领域发挥着关键作用。近年来,基于深度学习的方法在该领域取得了显著成效,并引领了该领域的发展方向。本文系统性地梳理了相关研究进展,并为读者提供了深入了解研究动态的基础。我们从网络架构设计、损失函数优化、数据集选择以及学习策略这几个维度展开探讨,并提出了一种创新分类方法以对现有技术进行分类评价。此外,在包括室内环境和室外环境在内的三个典型基准数据集上对模型性能进行了定量评估比较,并对现有技术面临的挑战进行了深入分析。
1. 引言
准确掌握精确的像素级场景深度信息,在自动驾驶[100]、机器人导航[75]以及智能农业[23]等多个技术领域中具有关键作用。这也意味着该技术研究方向自诞生以来就备受关注。基于单目相机的深度估计方法能够从单一图像中直接推算出场景各处的深度信息,并因其成本效益而被广泛采用[27]、[32]、[42]、[61]。然而,传统的视觉方法往往导致计算精度较低且泛化性能不佳,在实际应用中容易出现不可预测的问题。
另一方面,在深度感知技术方面取得突破性进展后,该系统能够提供高精度且可靠的距测数据,并特别适合那些需要安全防护和高性能的应用场景[26]、[76]、[100]等多领域应用。包括但不限于自动驾驶汽车等多领域应用中均能体现出显著优势。事实上,在工业应用领域中使用LiDAR技术测量深度仍是目前获取可靠深度信息最可行的方法之一[26]、[76]、[100]。然而,在现有技术中无论是LiDAR技术还是主流的RGBD相机(如微软Kinect),都无法实现像素级深度信息采集这一目标。由此可见,在实际应用场景中填补这些空缺像素显得尤为重要。

如图1所示,在对不同传感器进行深度图像采集与对比分析中可以看出以下特点:其中展示了原始稀疏深度图像,并将其与实际采集数据进行了对比分析:左侧为Kinect在室内环境中获取的数据右侧则是LiDAR在城市街道环境中获取的数据值得注意的是LiDAR获取的数据更为稀疏底部则展示了基于该原始稀疏数据生成的结果
由于不同传感器所获取的深度图之间呈现出显著的差异,则导致深度补全问题及其解决方案往往与特定传感器特性密切相关。例如,在相关研究领域中, 该类问题常被归类为深度增强(如文献[48,74,97])以及深度修补(如文献[66,81])等技术手段,并结合深度去噪(如文献[28,97])的方法进行处理, 其目标在于从密集的原始数据中推断缺失值并去除异常数据(通常情况下, 数据密度需达到80%以上, 如文献[76]所述)。本文特别关注的是在极度稀疏数据下完成的任务, 其中LiDAR获取的数据具有极高的稀疏度(通常超过95%)。针对这类特殊场景的研究更具挑战性, 因此本文将极度稀疏数据下的深度补全问题特化为一种独立的研究对象
近年来,在这一任务领域中应用的深度学习方法不仅展现出卓越的能力,并且引领了技术发展的主流方向。早期研究指出,在处理缺失深度问题时,复杂的卷积神经网络架构(如拥有多个卷积层的模型)以及相对简单的自编码器架构均表现出良好的效果。结合利用 RGB 信息,则有助于提升深度补全的效果。其中一些典型的双编码器模型分别从稀疏_depth_图及其对应的 RGB 图像中提取特征,并通过解码器模块进行特征整合以完成最终的任务目标
我们拓展了深度补全的边界范围。最近的研究主要采用了高复杂度网络架构配合先进的学习策略以提升模型性能。在特征提取方面他们不仅依赖于传统的多分支架构还结合了其他辅助技术如表面法线参数、亲和矩阵参数以及残差深度图参数来增强模型鲁棒性。此外为了弥补监督像素数据稀缺的问题许多研究工作引入了基于多视图几何约束张量以及对抗性正则化方法来辅助模型收敛与优化。这些创新举措显著提升了深度补全任务的整体性能
虽然以学习为基础的方法已经取得了显著的进步,但据所知目前还缺少全面的综述。本文的目标在于通过层次分析和分类现有方法来展现基于学习的深度补全的特点,并为读者提供对深度补全的直观理解。通常情况下我们会关注以下几个问题:
- 以达成高精度深度补全为目标的研究现有方法有哪些共同特点?
- 对比无引导方式,在RGB引导方案下有哪些优势和劣势?
- 基于通常采用视觉和LiDAR数据的传统做法,在多模态数据融合方面最优策略是怎样的?
- 当前面临的主要困难或障碍有哪些?
考虑到上述问题后, 我们回顾了从 2017 年 1 月到 2022 年 5 月的相关研究(撰写时)。图 2 根据提出的分类法展示了所选方法的时间线, 其中底部和顶部分别体现了无引导与五种类型 RGB 引导方法的表现。通过观察发现, 尽管早期研究多采用无引导方式进行深度补全, 而但从 2020 年开始发表的研究逐渐被 RGB 引导方法所主导。在本文中, 我们从网络架构设计、损失函数优化、学习策略探索以及基准数据集应用四个维度系统回顾了先前的研究工作。我们特别关注并介绍了那些具有创新算法提出或显著性能提升的研究成果, 并通过直观的可视化手段详细阐述了其技术贡献, 进一步加深读者理解。此外, 我们对现有方法在主流基准数据集上的实验结果进行了全面对比分析, 希望通过对这些研究的深入梳理与总结, 能够帮助读者更好地把握深度补全领域的前沿动态。

贡献概述
从我们的了解来看,这是第一份关于深度补全的文章.系统性梳理了基于深度学习技术的各种补全方法,涵盖无引导和RGB引导技术的发展历程.
开发了一种新的分类体系用于分析先前的方法.这种分类体系不仅能够区分不同的研究方向,还能够揭示它们之间的内在联系.
不仅展示了各种技术的表现特点,还提供了详细的对比分析.这种对比框架帮助读者更好地理解不同算法的优势与局限.
通过构建统一的技术评价指标体系,我们得出了结论:不同算法在准确性和复杂度方面各有千秋.
这些问题被指出来后,也为未来的研究方向提供了参考.
2. 基于深度学习的深度补全
在本节中所述内容中, 我们首先阐述了深度补全任务的基本概念及其典型描述. 接着, 我们构建了该领域的分类框架. 关注那些具有相似特性的方法, 根据网络结构以及关键的技术创新点对他们进行系统分类.
2.1 问题表述
针对深度补全问题而言,在带有权重矩阵 W 的深度神经网络模型 N 的基础上,在给定一个稀疏深度图 Y' 的情况下(即属于集合 Y' 中的一个实例),该模型能够通过以下公式生成一个完整的且连续可微的深度估计结果 \hat{Y}:
\hat{Y} = N(Y'; W)
无引导深度补全的概念是在方程(1)中建立的,在该方程中,在进行深度补全时仅依赖于稀疏输入数据,并未获得来自不同模态数据的支持。因此,在学术界这种方法通常被称作无引导深度补全;这些研究方法将在第 3 节中进行详细讨论。
RGB 引导深度补全作为一种关键技术,在现有研究中广泛应用于基于稀疏深度图及其对应 RGB 图像的输入数据。在此场景下,通常采用的方法是基于多通道卷积神经网络(CNN)的重建机制。
\hat{Y} = N(Y', I; W)
其中I被定义为与Y'对齐的RGB图像。由方程(2)所表示的任务则以RGB引导深度补全的方式进行。其详细解释将出现在第4节中。
网络 N 的参数 W 通过解决以下优化问题来训练网络:
\hat{W} = \arg\min_W L(\hat{Y}, Y; W)
其中 Y 被定义为真实深度图的集合,在训练网络 N 的过程中通过反向传播算法对预测值与真实值之间的逐像素差异进行惩罚性计算。损失函数 L 通常用于衡量这种差异程度,并根据特定的学习策略可能结合其他辅助项(如无监督光度损失、对抗性损失或深度图正则化项)以优化网络性能。第 5 节将深入探讨学习目标及所采用的损失函数。
2.2 分类方法
本文综合分析网络结构和主要技术贡献后,阐述了具体细致的分类方案。现有方法首先分为无引导方式或基于RGB引导的方式进行分类。接着该方法进一步划分为更为细分的子类别。
表 1 给出了所提出的分类方法的概述,并描述了识别类别的主要因素。

如表所示,无引导方法分为三个子类别:基于稀疏感知的CNN方法、归一化处理后的CNN方法以及借助辅助图像进行训练的方法。而引导方法则包含五个子类别,在这些分类中有一些更具特定性。对于前两类分类模型——早期融合与晚期融合型——其共同点在于融合策略是分类体系中核心考量因素;而对于后三类模型——显式的三维表示模型、深度残差网络模型以及基于空间传播网络(SPN)的设计——其主要特色并不在于采用何种融合策略这一问题上。因为这些特定类型的模型具有独特属性特征,在现有研究中通常会综合运用早期与后期的融合手段以达到最佳效果
针对各类别的方法,在相关章节中讨论了它们的优缺点。观察到,在大多数方法中存在这样的情况:准确性优势与模型复杂性劣势相互对立。值得庆幸的是,在标准基准数据集上多数方法都提供了定量结果。通过这些研究工作,我们可以更公平地分析和评估各种方法的表现。
3. 无引导深度补全
对于一个稀疏深度图而言,在缺乏指导信息的情况下(即无引导方法),其主要目标是直接利用深度神经网络模型来完成该任务。现有研究大致可分为三类:1)基于稀疏感知CNN的方法;2)采用归一化处理的CNN架构;以及3)借助辅助图像进行训练的策略。
3.1 稀疏感知 CNN
在卷积运算过程中,通过二进制掩码机制区分出有效的数据与缺失的信息,并因此使得常规的 CNN 结构能够更有效地应对稀疏深度输入的情况。
研究者们引用文献[109]报道了首个无需引导的深度学习方法。他们首先验证了普通卷积无法处理稀疏输入的原因在于它们通常会产生马赛克效应,并提出了新的稀疏卷积操作。随后引入了一个由6层CNN组成的稀疏卷积模块。该稀疏卷积采用二进制有效性掩码来区分有效数据与缺失数据,并仅在其有效区域进行运算。这些掩码值通过最大池化计算得到的结果反映其邻域内最活跃的数据特征。这种方法相较于传统非监督方法表现更为出色,并凸显出深度学习在这一任务上的巨大潜力。此外的研究工作也为后续发展奠定了基础
然而, sparse 卷积 不宜直接应用于 能够充分利用多尺度特征的经典编码器-解码器网络.Huang 等人 [48] 提出了三种稀疏性不变(SI)措施,包括 SI 上采样、SI 平均和 SI 拼接,并 开发出了一个 基于编码器-解码器的 HSMNet 模型.通过在 HSMNet 中增加了额外的分支结构,他们实现了应用 RGB 输入的效果.
研究者们 Chodosh 等人 [14] 将深度补全表示为一个多层卷积压缩感知问题,并同时提出了端到端多层字典学习算法。基于此假设,在深度成分分析(DeepCA)目标 [82] 的基础上应用压缩感知技术,并结合乘法器交替方向法(ADMM)进行优化处理。利用反向传播技术,在有限的卷积层中实现了过完备字典的构建。
3.2 归一化 CNN
整体看法是采用连续置信度图替代二进制有效性掩码的方式能够从而提升执行效率
稀疏感知方法依赖于有效性掩码来识别缺失值并执行卷积操作。
虽然 NCNN 仍然采用稀疏掩码作为初始输入,在中间层生成了一个连续性分布图来指示有用信息的位置。然而,在实际操作过程中因 LiDAR 投影误差而导致存在干扰测量。基于这种初始稀疏置信度输入无法完全排除这些噪声数据的影响。针对这一问题提出了解决方案,Eldesokey 等人 [21] 开发了一种自监督学习方法,用于估计连续输入对应的置信度分布,并通过神经网络抑制干扰测量的影响来提升模型性能。此外,NCNN 方法还在 [45, 112] 的研究中被用于基于RGB引导的深度填补任务。
3.3 使用辅助图像进行训练
总体看法:借助深度重构的辅助模块,我们可以智能化且间接地应用 RGB 信息以实现无需指导的深度补全。
为了针对语义线索的不足[73],Lu 等人引入了一个辅助学习分支。他们通过引入稀疏深度图作为输入而非直接使用图像,并同时预测重建图像与密集深度图。在训练阶段仅将RGB图像用作学习目标以促进提取更多的图像特征[133]。类似的方法也见于[133]中,在该研究中将RGB数据与法线信息结合用于辅助训练[113]。该研究采用了一种基于潜在空间的数据生成框架:通过潜在空间生成器来生成RGB数据,并由自动编码器预测最终深度值[73]。值得注意的是,在该框架下所获得的结果相比而言在性能上略逊色于[73](即仅基于RGB引导),然而其目标是实现无需引导的深度填补功能因而被归类为非引导方法
3.4 讨论
作为一种早期探索深度补全技术的努力,稀疏感知方法[109]相较于标准卷积神经网络具有更高的准确度表现。然而,与近期发表的研究成果如[21]、[48]、[73]相比,其性能仍有明显提升空间。造成这种较低准确性的主因有两个方面:首先,该研究中所采用的有效性掩码存在空间尺度上的局限性,因此只能适用于仅结合几个卷积层构建网络的情况,即由于模型容量有限导致其辨别能力不足。其次,网络中从掩码获得的有效信息在经过多层卷积后往往会被削弱甚至消失。
通过扩展工作 [48] 的实施,在保持 SI 稀疏性不变的前提下实现了 SI 上的上采样、平均/求和以及拼接特征图。从而使得分层编码器-解码器架构得以实现。其 RMSE 值较前者提升了约 41.5%。相较于前两者的主要区别在于其将深度补全表述为字典学习问题的同时采用了最少模型参数的设计策略。
归一化 CNNs [21]、[22] 主要针对使用二进制有效性掩码导致的有效性丢失问题。归一化卷积 [22] 带来了显著的性能提升(20.8%),进一步优化了输入稀疏深度图中的异常值处理,则带来了显著提升(40.0%)。相比而言,在[21]中提出的方法的一个显著优势是采用了仅包含^{,}{} 0.67 million 参数的轻量级网络,并仍能获得与之相媲美的性能。
基于辅助图像的方法通过引入额外的深度到RGB生成任务, 将无引导方法的数据引导引入这一过程. RGB信息则被整合到一个共享编码器驱动的深度补全模块中. 相比方法[73], 该方案显著提升了模型准确率, 并被认为是当前无引导方法中的顶尖方案. 此外, 该策略在推理阶段不会增加模型参数数量. 然而, 它采用了基于Inception [103] 的编码器并选择较大的核尺寸以提升网络性能, 导致其参数数量远超其他类似方案(例如: 11.67 million vs 0.67 million). 最后, 增加RGB信息用于模型训练可能会对无引导方法的实际应用效果产生一定影响, 其泛化能力可能因此受到限制
4. RGB 引导深度补全
无引导方法一般而言在性能上比RGB引导方法差劲,并且容易产生模糊效果以及物体边界变形的问题。这种欠佳的表现源于对自然场景先验信息的匮乏性状特征。具体而言如[46]所述自然场景中的深度图像能够被分解为平滑面及其间的清晰不连续面;其中后者会在深度图像中呈现出阶梯式的边缘特征这类结构性质构成了深度图像的关键属性之一然而当深度图像出现极度稀疏状态时邻近物体及其锐边等先验知识将明显缺失从而导致即便使用CNN重建完整的深度图像也将面临极大的困难
因此通过将RGB信息作为额外输入是直接合理的.RGB图像提供了场景结构的相关信息并有助于填补稀疏深度图中的不足.这使得在光滑区域内部实现深度的一致性而在边缘处保持不一致.此外还包含一些单目估计中的线索如消失点等.这些特点增强了sparse depth图的效果.
与无引导方法相比,在准确性、鲁棒性和感知效果等方面 RGB 引导方法普遍表现出色:其一,在准确性方面 RGB 引导方法显著优于无引导方法;其二,在应对不同稀疏性水平时表现更为稳定;其三,在感知效果上 RGB 引导方法展现出明显优势。基于图 3 的实验结果可以看出,在各个稀疏性水平上使用 RGB 数据能够显著提升模型准确率,并且随着深度样本数量减少其准确率下降的速度相对平缓。针对 iii) 图 4 中给出了定性比较的具体示例。从实验结果可以看到,在物体边界处 RGB 引导策略增强了边界处的不连续感并同时保证了物体内部区域的高度平滑度。

图 3. 无引导和 RGB 引导深度补全在 KITTI 数据集上的 RMSE。来源 [77]。

图 4展示了无指导和 RGB 指导深度补全的定性对比, 其中 MS 和 SO 分别代表多尺度结构和稀疏不变操作。来源 [48]。
到目前为止已提出多种不同类型的建模方法 其中这些方法主要可分为五个类别 即1 基于早期特征融合的架构 2 基于后期特征融合的架构 3 显式地利用三维空间信息构建明确的三维表示结构 4 通过深度残差网络构建多级特征映射机制以及5 通过空间传播网络构建全局语义感知框架。
4.1 早期融合模型
该类早期融合方法通常会在深度模型处理前将稀疏深度图与RGB图像进行拼接,并在后续处理中逐步生成完整的深度信息;这类方法主要可分为两大类:一是基于编码器-解码器网络的高层次特征提取方案;二是双阶段预测架构,在第一阶段采用编码器-解码器结构进行高层次抽象,在第二阶段则基于第一阶段的结果进行低层次细节重建。
4.1.1 编码器-解码器网络
总体见解:该编码器-解码器架构(EDN)所采用的早期融合策略具有显著的简化性,在模型简洁性指标上取得了较好的成绩。然而,在准确性这一关键指标上的性能仍有待提升。
此类方法基于传统的编码器-解码器网络(EDN)架构来处理逐像素回归问题。该研究由 Ma 等人于 [77] 提出,并旨在从稀疏深度图及其对应的 RGB 图像中完成深度补全的任务。为此,他们将 RGB 图像与稀疏深度图进行融合,并将其输入至预训练的 ResNet-50 模型构建的编码器-解码器网络中。该研究证实,在不同稀疏度水平上,带RGB引导的深度填补方法较无引导方法表现更为准确且稳定。
以更好地保障预测结果与测量值的一致性, Qu等人[89]采用了将最后一层卷积层替换成最小二乘拟合模块的方法. 在该模型中, 倒数第二层得到的特征被视作一组基, 其权重通过对其有效像素深度进行最小二乘拟合来确定. 如参考文献[89]所述, 因缺少足够的深度点进行监督, 该方法无法处理极度稀疏的输入.
基于空间自适应归一化(SPADE)机制[87]的研究启发下,Dmitry等人[96]提出了一种新型学习框架,旨在实现归一化特征的空间依赖比例与偏差估计.该框架的核心组件包括一种创新性的解码器结构,其由多个带有独立调制分支的SPADE模块构成.每个调制分支均利用有效性掩码作为输入,能够预测不同尺度的空间相关性信号.通过将这些预设的空间相关性信号分配至解码器内的各个SPADE模块处理,从而实现对特征信息的有效更新.该方法已在室内场景深度增强及室外场景深度修复等方面进行了全面验证
除了直接拼接外, 几种相关的方法[51][76][135]采用了两个独立的卷积单元, 分别从RGB和深度输入中提取对应的特征表示作为编码器-解码器网络的第一层输入模块.随后, 这些多模态特征经过拼接操作后发送至网络其余部分, 从而生成完整的深度图.
4.1.2 粗略到细化预测
总体看法:两个阶段的粗略至细化的方法其性能高度依赖于第一阶段对深度图质量的预估。
某些方法通过分阶段的方式从粗略到精细进行深度估计
与前述方法不同,在粗略预测阶段生成多幅图像。例如,Chen 等人 [10] 基于有效性掩码相关的欧氏距离变换生成了一个具有最近邻插值的高密度图像以及一个深度点先验距离图像。其中,高密度图像被用作粗略预测的基础[如同[17]所述],而其则类似于有效性掩码的功能,在SACNN中的作用有所不同。正如[10]所指出的那样,在这种情况下引入距离图像有助于提升训练稳定性。近期的研究者Hedge 等人 [39] 提出了DeepDNet模型。假设CNN更适合从均匀分布而非随机分布的数据中提取特征。因此他们首先通过基于四叉树的预处理将原始稀疏输入转换为网格稀疏深度图。随后分别对网格稀疏图像应用最近邻插值和双三次插值以生成两个初始估计结果(即两个粗略预测图像)。这种由简至繁的过程在合成深度数据集上的实验表明,在NYU-v2数据集上较[10]取得了略微更好的性能表现(如前所述)。然而,在实际场景下如KITTI测试集上其实现效果仍有待进一步验证。
在文献[70]中,深度补全问题被划分为相对深度估计与尺度恢复两个核心环节.具体而言,在第一阶段中,研究者并未从具有真实尺度的真实深度图像入手,而是通过从单个RGB图像中估计出不含绝对尺度信息的相对深度图像.进入第二阶段后,则利用相对深度图像、稀疏图以及RGB图像作为输入来进行尺度预测任务.最终生成的深度图可视为这两部分结果的乘积.文献[70]所阐述的设计理念,通过对完成任务过程在尺度空间中的重新表述,显著提升了对数据稀疏性的处理能力.
基于粗放预测的优化思路在后续的研究中得到了广泛应用。具体而言,在基于SPNs和残差型深度学习架构的研究领域中。
4.1.3 讨论
早期融合在其简单性方面具有明显优势。例如,在基于相同网络构建过程中,EDN在增加模型复杂度程度上不会产生显著提升。然而,在当前情况下,早期融合模型相较于其他类型则显得相对较为简单。这主要由于多模态数据的融合过程主要局限于输入层,并且特征提取完全依赖于预定义架构(即黑盒CNNs)。我们发现,在学习特定领域和相关特征的能力方面而言,相比起来,则是晚期融合模型表现更为突出。
C2RP是对EDN的一种技术改进,在其设计中引入了一个编码器-解码器网络来实现预测细化的过程中需要权衡计算效率这一问题。经过比较分析可知,在现有研究中S2DNet[36]和[70]的表现显著优于单阶段预测方法[51]、[89]以及[112].值得注意的是尽管一些基于C2RP的方法采用了形态学操作符[17]、最近邻插值[10,39]以及双三次插值[39],但这些粗略预测手段由于稀疏输入的高稀疏性而导致输出质量较低.相比之下S2DNet[36,70]采用编码器-解码器网络进行粗略预测的方式能够在第一阶段学习到更为精确的深度图从而有效提升最终的细化性能.然而与基于残差模型和SPN模型等其他应用细化的方法相比在细节刻画上仍显不足.
如上述分析所显示的那样,在将单阶段回归转化为两阶段预测的过程中已经取得了明显的进展。我们观察到,在现有方法中普遍存在着这一趋势:即准确性提升主要得益于模型复杂度的提高或通过减少推理效率来实现。
4.2 晚期融合模型
晚期融合模型主要采用两个子模块获取特征信息:一种是从RGB图像中提取特征的RGB编码器模块以及另一种是从稀疏深度输入中提取特征的深度编码器模块。其融合操作主要集中在两个子模块间的中间层区域。传统方法普遍采用不同组合架构以实现后期融合机制。具体来说,这些方法可分为以下三类:第一类是双编码器架构(Two Encoder),第二类是双编码器与解码器结合型(Two Encoder-Decoder),第三类则基于全局与局部深度预测方案。
4.2.1 双编码器网络
总体观点认为双编码器网络(DENs)采用分而治之的方法,在处理RGB图像与稀疏深度图时分别运用两个独立的编码器提取各自领域的特征信息。随后,在将提取到的相关特征进行融合后使用解码器生成关联特征表示
基于双编码器网络(DEN)的方法主要采用RGB编码器与深度编码器来获取多模态特征。随后将这些特征进行融合并传递给解码器进行处理。在文献[54]中Jaritz等人提出了一种改进型的双分支架构,在这种架构下从各个编码器提取的中间特征被直接结合后送至解码器完成信息重构。值得注意的是Jaritz团队发现对于大型网络而言有效性掩码并非必要要素。而在文献[93]及[98]的研究中研究者们采用了不同的融合策略即通过逐元素求和的方式将RGB与深度编码器提取的特征进行整合以提高信息融合效果。
最近,在研究领域中深入探讨了更为复杂的融合策略。研究者 Fu 等人(参考文献[25])对 RGB 与深度特征的简单连接进行了优化改进。借鉴了条件神经过程模型(参考文献[30])的思想发展出了一种归纳式的融合方法。研究者 Zhong 等人(参考文献[141])提出了一种基于RGB与深度信息之间相关性的分析方法。基于此思路,他们开发出了CFCNet网络架构。采用了一种基于深度典型相关分析的方法(参考文献[128]),提取多模态输入中具有最高度 semantic 相关性的特征,即稀疏深度点与其对应的 RGB 图像像素之间的关系
上述方法仅在单一空间尺度上结合了RGB分支和深度分支的输出特性。它们忽视了多维度空间关系的重要性。通过多维度特征求和实现了各向异性信息的有效捕捉与表征。现有研究表明[78]、[142]等文献证实多维度特征求和对密集预测任务至关重要。为了构建层次化联合表征,Zhang等人[137]提出了多维度适应求合网络(MAFN)。该网络的核心创新在于其自适应求合模块(AFM),该模块能够有效整合来自RGB与深度模态中提取的关键信息,并通过邻域注意力机制强化各区域间的关联性。具体而言,AFM不仅能够实现RGB与深度分支间的信息交互,还能够灵活调节各区域间的关联权重,从而实现全局语义的理解与表征。

图5展示了多尺度适应融合网络(MAFN)的架构示意图。该架构由两个编码器并行构成,在多层次地获取RGB编码器与深度编码器提取的特征信息后经由自适应融合机制(AFAM)进行整合优化。参考文献[137]
Li等人[63]提出了一种级联式沙漏网络结构。该网络由两个主要组件构成:一是负责从输入图像中提取空间信息的主干模块(即图像编码器),二是包含多个细粒度空间位势场生成模块(即三个沙漏分支)。各层提取得到的特征图经跳跃连接模块整合后与对应位置的深度特征图进行融合。输入的真实值经过多级下采样处理后作为监督信号参与各层次的目标估计过程。整体架构的设计不仅降低了模型计算复杂度,并且显著提升了其推理效率
为解决数据稀疏性问题, 许多研究致力于通过引入额外约束条件来优化学习机制. 其中一个典型方案是以应用时序相邻帧的对极约束或立体图像对形式作为基础. 此外还有一种基于对抗训练的方法, 即对抗性损失. 尽管这些方法虽能在一定程度上提供无监督学习的支持, 但通常需要额外输入数据或依赖辅助网络进行训练.
4.2.2 双编码器-解码器网络
总体看法:通过将双编码器架构发展为双编码器-解码器架构显著增强了模型性能水平。
如上所述,在DEN架构中通常整合了RGB编译模块、深度编译模块以及解译模块。这一融合过程发生在两个编译模块之间。为了提升性能,DEN改进型双编译-解译网络(DEDN)被提出。其基本框架包含两个独立编译-解译模块,其中一个是专门接收原始图像输入信号,另一个则是专门接收稀疏深度信息。值得注意的是,这种架构设计中,其中一种被称为引导网络。针对基于DEDN的方法设计,在其方案中,在图像编译模块与深度编译模块之间实现了多尺度上的融合机制
如图 6 所示的一种具有代表性的方法中提出的GuideNet算法[104]旨在实现 RGB 和深度信息的有效融合。该算法借鉴了引导图像滤波[37]和双边滤波[107]的原理,在此基础上引入了一种指导型卷积模块(GCModule)。该模块能够根据图像特征动态生成适应不同区域的空间变化性,并将这种空间变化性直接作用于深度特征提取过程。GCModule设计中特别考虑了多尺度信息的重要性,并将其直接作用于多尺度图像特征以获取全局最优解。在保证模型性能的前提下参考MobileNet-V2的设计思路将GCModule进行了优化分解工作以降低整体计算复杂度。具体而言该模块被设计为先进行通道级别的独立运算然后通过跨通道交互进一步提升各层次之间的表示能力从而达到整体性能提升的目的

图 6展示了GuideNet的架构设计。其结构采用双编码器与解码器相结合的形式。其中引导卷积通过从RGB特征提取融合核,并将其应用于深度特征的处理过程。来源 [104]
基于 [104] 和 [109] 的研究基础之上,Schuster 等人提出了稀疏空间引导传播(SSGP)方法,该技术将图像引导的空间传播与稀疏卷积相结合,不仅适用于深度补全问题,此外还能够应用于其他插值问题,例如光流计算与场景流估计。考虑到其目标是应用于多种视觉任务,SMSGP 在设计上未能对深度补全问题给予特别的关注,因而其性能水平未能达到 GuideNet 的水平。近年来,Yan 等人提出了 RigNet 方法,通过引入一种创新性的重复架构来处理模糊物体边界并提升场景结构恢复效果。在 RigNet 中,用于提取图像特征的部分采用了多个编码器-解码器模块组成的沙漏结构(RHN),而用于提取深度特征的部分则采用了堆叠了多个重复引导模块(RG)的沙漏结构。其中,RG 的作用类似于之前提出的引导卷积([104]),但其构建基础则是动态卷积([8])技术体系。值得注意的是,A series of dynamic convolutions 在执行过程中会导致卷积分解效率下降,A series of dynamic convolutions 这一特点也限制了这一方法的整体性能水平。为此,RigNet 方法采用了一种高效的引导算法,通过全局平均池化操作将通道卷积核尺寸从 3×3 缩减至 1×1,从而实现了计算效率的提升。经过测试,RigNet 方法在 KITTI 深度补全数据集([109])上的表现非常出色,目前处于第二名的位置
4.2.3 全局和局部深度预测
总体看法:基于全局深度预测网络和局部深度估计网络的整体框架(GLDP),能够结合早期融合与晚期融合的优点。
在一些先前的研究中发现,在处理三维数据时,RGB 图像常被视为全球范围内的视觉信息来源(即所谓的"全局信息"),而 LiDAR 数据则主要提供局域空间内的精确几何结构(即所谓的"局部信息")。全球与局部深度预测(GLDP)方法则通过结合全球网络与局域网络的优势,在处理三维数据时展现出独特性能。该方法的具体实现过程包括两个关键步骤:首先利用全局网络从整体视觉特征出发进行深度估计;其次利用局域网络对局域空间中的几何关系进行精细建模,并基于此生成相应的局部分析结果。最后通过对这两个模块的结果进行融合处理即可获得完整的密集度分布图
基于全局与局部特征信息的提取方法中,在文献 [110] 中构建了整体深度与局部细节图,并通过置信度图这一辅助工具实现了对另一分支预测结果的有效细化过程。类似的技术在 [62] 中也有应用,在该研究中Lee及其团队提出了两项主要改进措施:首先,在扩展感受野方面他们采用了新型的空间金字塔模块(RASP),取代了传统的残差结构;其次,在置信度图处理方式上进行了创新性改进,在直接使用逐元素相乘的基础上引入了更为复杂的通道级与像素级注意力机制进行优化处理。值得注意的是这项方法同样适用于极度稀疏深度补全问题,在 [72] 中被成功应用于单线深度图像的重建任务研究中
4.2.4 讨论
相较于早期融合模型,在网络架构的设计与多模态数据的融合方面,晚期融合模型更为复杂。此外,在准确性方面通常表现得更好。
因为RGB和深度被视为晚期融合模型的独立输入,则需采用两个独立的卷积模块进行特征提取。进而采用现有研究中提出的双编码器网络(DENs)显得非常直观。接着自然过渡到:继而发展出双编码器-解码器网络(DEDNs),从而进一步提升性能。经历了从简单到复杂的发展历程,并逐步探索并优化特征融合策略的过程。从早期工作的直接拼接[54]或求和[93][98]到更近工作中应用语义相关性[141]、注意机制[137]及空间变化核[104]等多模态特征融合方法;从单一空间尺度的研究进展[25][54][93][98][141]到更为常见的多尺度研究方向[63][104][127][137}则展开了深入探讨
对于三种类型的晚期融合模型而言,GLDP和DEDN都被认为是早期方法在模型设计上的重要改进。GLDP被构建于一种额外的网络之上,这种网络能够将稀疏深度输入转化为密集深度图;而DEDn是对DEN的一种改进,它分别采用了独立的编码器-解码器架构来处理RGB和稀疏深度图输入。值得注意的是,在同一基础骨架下构建,DEN的表现略逊于DEDn的效果。然而尽管如此,DEN在基准数据集上的表现仍优于GlDp方法,而后者通常采用更为复杂的架构并拥有较大的参数量,例如GuideNet拥有62,600,000个可训练参数(其中包括[110]和[62]的研究),相比之下GlDp仅包含约25百万和约54百万个可训练参数。综合来看,这些研究[63][110]在准确率与计算效率之间找到了良好的平衡点
4.3 显式 3D 表示模型
大多数先前的RGB引导深度补全研究主要通过隐式的但无效的方式进行学习。这种困难源于常规2D卷积未能捕捉来自稀疏输入中的三维几何线索,并且观测到的深度值呈现非规则分布。因此另一种先前的方法促进了显式三维表示(E³DR)。这类方法可划分为三类:第一类采用三维感知卷积的技术;第二类基于中间表面法线表示;第三类则从点云的学习几何表示入手。
4.3.1 3D 感知卷积
总体见解:考虑到深度点与其空间邻居之间存在关联关系,并且稀疏输入中存在大量非规则分布的缺失样本,在这种情况下应用3D感知卷积于深度点的最近邻区域有助于抑制由缺失值所带来的干扰影响,默认情况下则应采用标准卷 convolution作为对比基准。
在 2D-3D FuseNet [9] 建筑物中,RGB 分支与深度分支提取出的特征通过多个二维到三维融合模块进行整合。这些模块协同学习二维与三维表示信息。每个融合模块均基于多尺度的分支采用常规卷积操作来提取图像外观特征,并在三维空间中对中心点处选取其K个最近邻居点,并应用两次连续卷积操作来学习三维几何表示方法。随后的研究普遍采用了从空间上接近的角度出发采用K近邻学习的方法。
例如,在ACMNet[140]中,在评估空间差异的基础上进行类似的特征匹配过程。与文献[9]不同的是,在该研究中非网格卷积采用的是基于图传播而非传统的网络架构设计。如图7所示,在这种架构下,ACMNet包含一个DEHN结构体系,在编码阶段协同注意引导型图传播模块(CGPMs)负责提取图像特征信息,并在此基础上构建深度编码器;而在解码阶段,则采用对称门控融合模块(SGFMs)进行特征重建工作。值得注意的是,在编码过程中CGPM能够根据具体情况自动调整其工作模式并应用于图像与深度编码器中以完成多模态特征提取任务;而在解码阶段则采用对称交叉引导机制使得两个解码模块能够在不同层次上协调工作从而实现多模态特征的有效融合。

图7展示了ACMNet的整体架构,在该框架中编码器通过多组协同注意力机制引导下的图传播过程完成多模态特征的提取工作;而解码器则利用一组对称门控融合机制整合并优化各模态间的特征信息以实现最终输出效果
Xiong 等人 [122] 提出了一个基于图模型的深度补全方法,并引入了基于图神经网络(GNN)的深度补全算法。值得注意的是,在文献 [9] 和 [140] 中提到最近邻的 3D 图仅用于构建有效点;而在 Xiong 等人 [122] 的研究中,则是针对从具有 DEDN 架构的基线模型预增强后的密集深度图中的每个点进行构建。此外值得一提的是,在本研究中还探讨了在基准 NYU-v2 数据集上合成稀疏深度图的不同采样策略。通过对比实验发现:准随机采样方法显著优于纯随机采样方法;这些发现有助于指导室内数据集上的不同采样策略实验
4.3.2 中间表面法线表示
总体见解:个人见解表明,在3D重建任务中,默认情况下表面法向量通常被用作中间变量,并且在室内场景中能显著提升深度还原质量。从直观上看,在实际应用中这种方法是否也能应用于室外场景呢?
一些研究采用表面法线作为深度图的中间三维表示,并提出了一种基于表面法线引导的完成策略。其中相关研究者如[47]和[136]等提出了这一观点,并认为这种表示方式具有合理性,并有助于提升室内场景中的深度重建效果。然而,在实际应用中发现,在室外场景中从表面法线重建深度图像对噪声敏感度和遮挡处理效果更为显著;对于如何有效利用这些信息仍是一个待解决的关键问题。为此他们提出了DeepLIDAR这一创新方法其架构整合了颜色信息路径与表面法线路径两种信息处理方式并形成了完整的数据处理流程。该架构包含两个独立分支每个分支均输出高密度的深度图并最终通过注意力机制加权融合了两者的输出结果从而实现了更优的空间分辨率表现

图 8. DeepLIDAR 的流程图,其中表面法线被用作深度图的中间表示。来源 [88]。
在[88]所述的方法中, surface normals的应用极为直接. 如[123]所述, depth与surface normals之间的关系可通过 camera coordinate system中的切平面方程得以建立. 根据这一直观想法,Xu 等人[123]提出了平面原点距离的概念,旨在通过确保depth与surface normals的一致性来减少噪声影响,并应用细化网络以提升性能. 相较于[88], 该方法还引入了基于Laplace分布的confidence map,并通过精细网络进一步优化. 基于depth与surface normals的一致性这一前提,他们实现了相较于[88], 在parameter数量上减少了约50%,但依然能保持与原有方法相当的性能水平.
4.3.3 从点云学习
总体见解:通过基于点云的数据进行显式地提取 3D 线索可以实现其作为 3D 结构可靠先验的本质特性。
近年来的研究开始关注基于点云的几何表示方法。例如,在这一领域内的一些创新性工作如 Du 等人[20]所提出的方法中,在点云数据中提取几何感知嵌入时采用了边缘卷积技术[115]。随后采用深度估计网络(DEN)从 RGB 图像和几何嵌入数据中进行深度补全。Jeon等人[55]进一步将点云数据作为主要输入源之一采用,并在他们的研究中,在双边卷积框架[102]的基础上引入注意力机制设计了一种新型的 ABCL 编码器:这种编码器不仅能够有效提取三维空间中的关键特征信息,并且还能够对二维空间中的视觉信息进行精细建模与融合处理。他们构建的框架内集成了一种双模特征融合机制:一方面利用点云编码器提取三维空间中的关键特征;另一方面结合图像编码器从 RGB 图像和稀疏深度信息中提取二维特征描述
基于[20]和[55]的研究成果表明,在不同环境下的泛化准确性得到了显著提高。与先前的方法相比,在实现效果方面达到了与现有方法相当的结果,并且其实现更加简洁高效。
4.3.4 讨论
就性能而言而言
总体而言,在模型复杂性方面表现出色的 2D-3D FuseNet 相较于 ACMNet,在准确性上则未达理想状态。如文献 [122] 所述, 该网络架构由 DEDN 和 GNN 组成模块化设计. 我们推测其计算复杂度高于 [9, 140] 的相关方法. 然而由于缺乏关键实现细节(如参数数量和官方 KITTI 测试集性能等),我们无法进行深入比较. 尽管如此, 如文献 [122] 所示, 我们发现该方法的表现类似于文献 [123], 但与其相比仍略逊于前者的成果.
另一方面,在性能上与 3DAC 和 LfPC 接近的同时, 模型复杂度达到了最大值。这主要是由于即使在室外场景中出现微小的表面法线误差, 观测到的噪声也会导致较大的距离误差。尽管通过在 [88] 中应用基于注意机制的掩码或者在 [123] 中建模置信度掩码来减少噪声的影响, 但采用中间法线表示的方式实际上将这一困难引入到了深度填补的过程中。此外, 监督生成可信的目标法线并在室外环境中实现这一目标同样面临更大的挑战。就目前而言, 在综合考虑复杂性和性能的基础上, 该方法尚未展现出显著的优势。未来仍需进一步探索如何利用表面法线这一特性来提升表现。例如, 可参考 [130] 中提出的更具抗噪性的虚拟法线损失函数来进行场景重建优化。
该系统通过直接从三维点云数据中学习实现了另一种基于三维感知的深度填补方法。点云作为关键的三维先验信息源,在表征物体几何特征方面具有显著的优势。该算法在不同光照条件下的泛化性能表现优于现有方法如ISNR[88]和E3DR[140]所报告的结果。尽管针对单色图像(RGB)以及稀疏深度输入已提出多种网络架构方案,但针对复杂场景中的三维点云进行深度估计的方法仍相对简单,并且在复杂场景下表现欠佳。例如[55,20]的研究均采用了基于DEN框架的改进方案
4.4 残差深度模型
总体见解:推导出的深度图应在整体架构上具有较高的准确性,在局部细节上应真实可靠。因此,建议将单一阶段的预测流程拆分为稠密图和残差图两个部分来进行估计。
残差深度模型(RDMs)生成并结合深度图与残差图的信息,并通过其线性融合得到最终深度估计值。该模型能够通过对残差图进行精确估计来改善模糊区域的深度预测效果,并在此基础上进一步优化物体边界处细节信息提取能力。
这些方法通常采用类似的方式进行两阶段的粗略至细化预测过程。如文献[64]所示,该方法首先将稀疏深度图补充至稠密深度图,并随后预测残差深度图。最后通过逐元素相加得到最终的深度图。Gu等人[34]提出了一种名为DenseLiDAR的方法,在如图9所示的框架中实现了类似的流程:在DenseLiDAR中,首先利用形态学操作预估一个伪深度图像。然后将该伪深度图像、RGB图像以及稀疏深度输入传递至CNN网络以预测残差图像。随后将该伪深度图像与残差图像相结合从而获得更精确的最终结果。

如图 9所示的 DenseLiDAR 流程示意图中所示,在进行深度补全时将之划分为粗化后的深度估计与残差部分的精细估计两个阶段。参考文献 [34]。
相比其他方法而言,在估计粗略深度图和残差深度图方面取得的进步更为显著。例如,在文献[67][83]中提出了一个可微分的核回归网络,该网络成功地替代了传统的人工插值手段来实现对稀疏输入的粗略深度预测。此外,FCFR-Net通过引入一种基于能量的操作实现了创新,并专注于多模态特征融合运算以进一步提升残差图学习的效果。
为了针对数据分布的不均匀性以及异常值的处理问题,在研究领域中出现了多种改进型算法以提高模型鲁棒性
4.4.1 讨论
该模型着重强调了对深度图几何保真度的提升。相比于C2RP方法而言,在细化阶段直接采用了预预测的粗略图作为输入源。通过应用残差学习技术来推导出残差图,并将其视为对稠密深度图的一种补充修正。首先,在结构上进行优化以改善感知效果;其次,在远处区域通常会观察到较大的深度估计误差,在近处区域则相对较小。这种技术不仅能够修复那些深度估计存在较大偏差的像素点,在近处区域或接近零值的位置则会选择保留原本较为准确或完整的预测结果。
总体而言,残差深度模型展现出优异的性能表现。FCFR-net [68, 144] 在 KITTI 数据集挑战赛中分别取得第5名和第9名的成绩。值得注意的是,在提升模型准确性方面,并非仅依赖于残差学习技术;此外还融合了基于能量的多模态特征提取方法 [68] 以及具备抗异常值能力的有效损失函数设计 [144]。由于这些方法所包含的参数数量尚不明确,在评估其复杂性时存在一定困难。
4.5 基于 SPN 的模型
总体看法认为:SPN通过利用相似度信息进行细化处理来加强各深度层节点与其邻接节点的空间关联程度。
similarity matrix 也可称为 similarity-based matrix 用来衡量数据点间的接近程度或相似性水平 在视觉任务中它有助于实现对细节特征的精细化生成 在空间传播网络(SPN)[69] 中 learning similarity matrix 实际上是指学习一系列转换矩阵 按照 [69][86]的观点 SPN 的具体实现则由以下数学公式所描述
xt_{m,n} = wc_{m,n}x^{t-1}_{m,n} + \sum_{i,j \in N_{m,n}} w_{i,j}^{m,n}x^{t-1}_{i,j}
其中(m, n)与(i, j)分别代表参考像素及其邻居像素的位置坐标,在(m, n)处的所有邻居像素构成集合N_{(m, n)}。t则代表细化过程中的迭代次数,在此过程中不断更新图像细节信息直至达到终止条件。在这里面,
wc_(m, n)与w_(i, j)^{(m, n)}分别表示了参考像素自身的匹配程度以及位置(m, n)与(i, j)$之间的匹配程度,
而前者被定义为后者所有元素之和的补集:
wc_({ m}, {n}) = 1 - \sum_{{ i}, {j}\in N_{{ m}, {n}}} w_{{ i}, {j}}^{{( m}, {n})}
考虑到深度点与其邻近点之间存在相关性关系,在处理复杂空间数据时具有显著优势。因此,在解决深度回归问题方面,SPN(Sum-Product Networks)自然适用于这一领域,并推动了一系列基于其构建的算法发展。其中,Cheng等人首次提出了开创性的卷积空间传播网络(CSPN)[13], [111]这一创新性模型架构。相较于传统SPN [69]而言,CSPN带来了两大显著改进:第一,在传统的SPN架构中,默认情况下一个节点与来自同一行或同一列的三个局部邻居建立连接关系;而CSPN则采用了3×3的空间窗口机制进行局部邻居筛选;第二,在信息传播机制上,C SP N采用卷积操作实现多方向信息传播并融合,这与传统 SP N在不同传播方向上分别处理并结合最大池化机制的方式存在本质区别。此外, 深度点最终取值由其局部邻近区域间的相似性加权决定,这一过程可视为一种扩散传播机制的应用.具体而言,文献[77]中提出的网络框架通过巧妙设计跳跃连接机制及新增一个辅助输出层来生成相似度矩阵.在此基础上,当提供预判粗略估计的深度图及相似度矩阵后,C SP N模块被成功嵌入到原始网络架构中用于精确预测,如图10所示.值得注意的是,该模型的关键超参数配置包括核尺寸参数(即局部邻居区域大小)以及迭代次数等都需要通过超参数优化方法进行系统调参以获得最佳性能表现.

图 10. 深度补全框架基于 CSPN 模块构建。该模块被纳入网络架构中用于修正粗略预测所得的深度图。参考文献[111]
为了应对确定核大小与迭代次数这一挑战性问题,在Cheng等人的基础上进一步提出了一种改进型模型CSPN++ [12]。这种模型不仅具备传统的上下文感知能力(CA-CSPN),还增添了资源感知能力(RA-CSPN)。在CA-CSPN的设计中,我们首先定义了核大小与迭代次数的不同配置,并引入了两个额外的超参数来动态平衡不同核大小与迭代次数之间的关系。然而这种设计导致计算资源消耗过高。为此我们开发了一种新的模型RA-CSPN,在这种模型中我们通过将计算资源消耗最小化到每个像素的选择中实现了对最佳核大小与迭代次数的选择。具体而言我们把计算成本函数整合到优化目标中从而实现了在保证准确性的前提下缩短训练时间的目的
尽管 CSPN 和 CSPNet++ 主要聚焦于现有编码器-解码架构 [77] 的细节部分,并未深入拓展其他相关技术路径。然而, PENet [44] 突出了对 SPNet 结构及其后期融合模块的充分利用优势。基于 DEDN 架构设计, PENet 搭建了一个双分支预测网络,其中一个是基于 RGB 图像信息与稀疏深度数据构建的预测模块,另一个则是整合了稀疏深度信息与预处理的深度特征的分支模块。接着,在融合后的多尺度特征基础上应用 CSPNet++ 进行进一步优化。
上述方法在相似度学习过程中采用了单一区域的信息传播。然而,在这种情况下会不可避免地引入与之无关区域的数据。为了解决这一问题,Park 等人提出了一种非局部SPN [86] ,该方法研究了具有相似性特征的非局部区域以及深度置信网络,并利用K个可变形卷积完成了信息传递过程。同时开发了一种基于置信度融合的归一化机制,旨在通过这种方法来鼓励更多有效的深度组合并抑制不可靠的信息影响。
在文献 [124] 中提出了一种称为可变形空间传播网络(DSPN)的方法;该方法能够根据每个像素自适应地生成其独特感受野以及相应的相似度矩阵。此外,在文献 [65] 中引入了基于注意力机制的动态 SPN 模型(DySPN),该模型能够通过分析邻近像素之间的距离差异来自主构建适合的相似性矩阵;值得注意的是,在这一过程中;该模型中的注意力机制能够通过递归过程生成一系列细致化的注意力图谱,并逐步优化相似性矩阵;最终这种方法不仅提升了深度补全的效果;而且在 KITTI 深度补全基准测试中取得了目前最优的表现记录[109].
4.5.1 讨论
第一个 CSPN [13] 采用了固定设置下的 3×3 邻域结构及其相应的尺寸参数。
由于这些努力... 在准确性方面展现了显著的优势。此外,不仅归因于在深度空间中显式地应用了几何约束条件,而且还能应用于现有的任何模型。
然而
5 模型训练的学习目标
基于相同的最终目标——即预测密集深度图——深度补全和单目深度估计采用了相同的优化方向。在此节中我们回顾了相关研究中的优化方向设定方法,并对这些方法进行了简明扼�地介绍。其中表 2 给出了一个简明扼�的概述,在后续部分我们将深入探讨这些常用的目标及其特性分析。

5.1 深度一致性
假设输入样本 Y' 为稀疏形式。生成的稠密重建图 \hat{Y} = N(Y', W) 和部分稠密的真实深度图像 Y 的对比是许多研究工作关注的重点。具体而言,多个研究工作基于预测深度图像与真实_depth_image 在有效区域的 L1 损失函数进行评估。
l1 = \frac{1}{n} \sum_{i=1}^{n} \|Ŷ_i - Y_i\|_1
其中范数||·||₁代表l1范数;预测深度和真实深度分别由符号Ŷ_i和Y_i表示;n为用于计算的有效深度点总数;大多数现有方法[20],[77],[137]采用l2损失(即均方根误差RMSE),其计算公式如下所示:
l2 = \frac{1}{n} \sum_{i=1}^{n} \|Ŷ_i - Y_i\|_2
其中 \|\cdot\|_2 表示为 l_2 范数。在许多文献中 [62, 76, 77, 88] ,l_2 损失被称作 MSE(均方误差)。因此,在本文研究中,当它们被用作损失函数时,在技术层面上我们不加区分地使用 RMSE 和 MSE。
对于每个有效像素均被l1损失进行等价处理,在面对异常值时则表现出更为敏感的特点;通常情况下会对那些远距离的深度点施以更为剧烈的惩罚。为了整合这两种损失函数的优势,在现有研究中出现了多种组合策略;例如将两者简单相加以形成新的综合模型;此外还有一些创新性的改进方案如[ Van Gansbeke等人提出了focal-MSE作为一种改进方案 ];该方法通过将平均绝对误差设定为主导项来增强l2损失在深度估计中的表现;同时还有其他研究者如[89, 112]引入了Huber损失以平衡两种模型的优势并减少大误差的影响;最终这一系列方法都可以通过以下数学表达式进行描述:
lhuber = \begin{cases} \textstyle{\frac{1}{n}} \sum_{i=1,\ldots,n}\textstyle{\frac{1}{2}} (ŷ_{i}-y_{i})^{2}, & 当误差值|ŷ_{i}-y_{i}|不超过阈值δ时, \\ \textstyle{\frac{1}{n}} \sum_{i=1,\ldots,n}\delta (|ŷ_{i}-y_{i}|-\textstyle{\frac{1}{2}}\delta), & 当误差值|ŷ_{i}-y_{i}|超过阈值δ时 \end{cases}
其中符号 |·| 代表绝对值运算符,在机器学习算法中被广泛应用。
定义为:
lberhu = \begin{cases} \frac{1}{n}\sum_{i=1}^{n}|Ŷ_{i}-Y_{i}|, & 当\;|Ŷ_{i}-Y_{i}| ≤ δ \\ \frac{\frac{1}{n}\sum_{i=1}^{n}\left[(Ŷ_{i}-Y_{i})^2 + δ^2\right]}{2δ}, & 当\;|Ŷ_{i}-Y_{i}| > δ \end{cases}
图 11 直观地展示了 MAE、MSE、Huber 和 Berhu 损失函数在 δ = 1 时的比较关系。从图中可以看出,在误差绝对值小于 δ 时 Huber 范数对应于 L2 范数;否则对应于 L1 范数。与此相反的是 Berhu 范数,在误差绝对值小于 δ 时对应于 L1 范数;否则对应于 L2 范数。

另一种尝试是将深度预测转换为分类任务,并在单目深度估计的早期研究工作中取得了一定成果 [7]。在此情形下,则将深度范围划分为若干区间,并采用交叉熵损失函数作为评估标准。针对填补深度缺失的工作而言,在文献 [51] 和文献 [67] 中均采用了这种方法。
除了之前讨论过的损失函数之外
p(Ŷ_i|σ_i, Y_i) ≈ \frac{1}{\sqrt{2πσ_i}} \exp\left(- \frac{(Ŷ_i - Y_i)^2}{2σ_i^2}\right)
Ŷ_i 和 σ_i 可以通过最大似然估计得到:
Ŷ_i, σ_i = \arg\max_{Ŷ_i,σ_i} \log p(Ŷ_i|σ_i, Y_i) = \arg\max_{Ŷ_i,σ_i} \left(-\frac{1}{2} \log(2π) - \log(σ_i) - \frac{(Ŷ_i - Y_i)^2}{2σ_i^2}\right)
其中, s_i = σ_i^2 代表第 i 个像素的预测不确定性. 基于公式(10), 不确定性的深度损失被用来定义深度补全的具体形式.
lud = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{(Ŷ_i - Y_i)^2}{s_i} + \log(s_i)\right)
在实际应用中常用指数函数来消除训练过程中可能出现的除零问题,并为了实现对不确定性数据的学习目标而设计相应的学习机制
lud = \frac{1}{n} \sum_{i=1}^{n} (\exp(-s_i(Ŷ_i - Y_i)^2) + s_i).
基于相关文献 [21], [144] 中的研究,在深度补全框架内新增了一个分支估计模型。
5.2 结构化损失函数
先前的工作已知存在一个常见问题:预测的深度图表现出模糊效应和边界扭曲现象。针对这一问题,研究人员提出了通过引入深度梯度、表面法线以及感知质量损失函数来施加正则化方法的具体方案。具体而言,在[34]和[67]的基础上,梯度损失 l_{grad} 被设计为通过最小化平均绝对误差实现的一种形式。对于表示为 l_{normal} 的表面法线差异项,则采用了负余弦差异作为衡量标准。有关这两种损失函数的效果研究,在[42]中进行了详细探讨,并如图 12所示那样进行了可视化展示:梯度损失函数能够有效惩罚模型在物体边界处出现的预测误差;而表面法线损失则能够有效地缓解微小结构上的预测误差带来的影响。需要注意的是,在训练数据中若无法获得真实深度信息时(即所谓的"无监督"场景),仅依赖于基于结构相似性指数(SSIM)的方法可能会导致生成结果的质量下降。

图12展示了深度、梯度及表面法向量损失在深度差异下的鲁棒性分析。为了简化说明,默认使用实线与虚线分别代表两个一维深度图。研究发现, 深度损失对边缘偏移及遮挡具有较强的鲁棒性;相比之下, 梯度与表面法向量损失则能够有效应对这些结构性差异。来源[42]。
5.3 平滑正则化
平滑正则化通过抑制噪声干扰并保证局部区域的平滑特性来提升深度预测的质量。一般而言,存在两种主要的学习目标来实现深度预测中的局部光滑。其中第一个学习目标被应用于引用文献[76]、[98]、[125]和[135]中,并旨在最小化预测深度图二阶导数的L1范数。
l_{smooth} = \frac{1}{n} \sum_{i=1}^{n} \left(|\partial^2_x Ŷ_i| + |\partial^2_y Ŷ_i|\right)
其中\partial_x和\partial_y分别表示密集深度图中水平方向与垂直方向上的梯度变化量。第二种方法为边缘感知平滑损失函数,在文献[15]、[93]、[100]、[118]、[120]及[121]的具体应用下,并允许边界区域中存在深度信息的不连续性
取其平均值为各变量及其梯度模与指数函数乘积之累加
此外,总变差也用于 [14] 中的噪声抑制。
5.4 多视图几何约束
在深度补全领域面临诸多困难的问题中,在线面最富挑战性的核心问题在于缺乏足够的高质量真实数据。面对这一难题,在研究人员的努力下进一步尝试基于损失函数的方法来解决这一难题。其中一种解决方案是通过从连续图像中获取时序光度损失来提供一种无监督的监督信号,并以此来指导深度补全过程。
Ma 等人 [76] 是最早采用光度损失在深度补全领域进行研究的团队之一。通过极点几何方法,在预测深度图与邻帧之间建立空间关系。随后,在对应像素之间的差异性问题上施加权重以优化结果。形式化地讲,在给定时间帧t及其邻近帧s ∈ {t - 1, t + 1}中,在每个像素p_i从源帧I_s转换至目标帧I_t遵循以下数学表达式计算:
\hat{p}_i = KT^{s→t}Ŷ(p_i)K^{-1}p_i
在相机参数中, 其中变量 K 代表相机内参矩阵. 在运动参数定义中, 变量 T^{s→t} 被定义为从 s 到 t 的相对位姿. 在深度估计结果中, 变量 Ŷ(p_i) 表示图像 I_s 中像素 p_i 的预测深度. 同时, 对应点 \hat{p}_i 在图像 I_t 中与像素 p_i 对应.
然后,两幅图像之间的光度损失定义为:
l_{photo} = \frac{1}{m} \sum_{i=1}^{m} \|I_s(p_i) - I_t(\hat{p}_i)\|_1
其中 m 表示变换像素的数量。
研究者正试图通过多种方法改善光度损失。由于光度损失对于运动物体具有高度敏感性,研究者们提出了多种解决方案以减少其影响
进一步研究了多种计算光度损失的技术。它们采用了光流技术来估算相邻两帧之间的相对位置,并利用姿态估计网络(如[135])来完成这一目标。它们则通过多尺度特征空间中的计算来确定相对位置。这些连续帧随后被输入到FeatNet模型中进行多尺度特征提取,并且,在每个提取阶段都会应用高斯牛顿算法(如[5])来进行优化计算。
Wong 等人在这方面做出了大量努力来改进无监督深度补全技术。值得注意的是,在文献[119]中提到的传统应用中使用光度损失时,默认将每个像素视为同等重要。然而,在遮挡区域会出现明显的预测误差。对此问题提出了解决方案的方法是引入一种自适应加权函数(参考文献[119]),其形式采用反向sigmoid函数进行建模。具体而言,在训练阶段中初始化每个像素处的光度损失权重值接近于零(而非初始值为近似于 0),当某个像素的位置残差增大时权重值会相应减小以减少其影响效果。类似地,在文献[120]中所描述的方法则采用了脚手架操作(如参考文献[3,6])随后通过边缘检测网络进行细化处理;而ScaffFusion方法则直接使用空间金字塔池化模块与编码器-解码器网络结构取代了前一方案中的无参数脚手架操作设计;最终ScaffFusion系统能够预测不同尺度下的深度图并进行残差补偿以提升细节表现力;为了进一步提高模型泛化能力,KBNet方法引入了校准矩阵作为额外输入信息以便更好地适应不同相机特性
除了时间相关亮度损失之外,在三维成像领域的一些研究者同样关注于深度恢复问题。当三维信息可获取时(例如文献[129]中所展示),可以通过不同的途径实现多视角亮度一致性校准。针对监督数据不足的问题,在现有研究中普遍采用的方式是利用二维视图下的立体图像,在文献[98]的方法中完成对三维空间中缺失像素的真实深度信息重建。尽管上述方法具备诸多优势,在实际应用中的泛化能力却受到了一定限制
5.5 对抗性损失
若干研究[1,58,108,134]还采用对抗性损失机制来提升深度估计效果。这些研究中,生成器基于输入的 RGB 图像和稀疏_depth_map 来推断完整的 depth 意义,而判别器则通过比较生成的预测 depth 信息与实际观测值来判断其准确性。其中,对抗性损失 \mathcal{L}_{\text{adv}} 的计算公式如下:
l_{adv} = \min_{G} \max_{D} \mathbb{E}[\log D(Y)] + \mathbb{E}[\log (1 - D(G(I, Y')))]
其中 Y 表示密集的真实值,在一般情况下可由其他完成算法获取;而 G 和 D 分别表示生成器和判别器。
6. 数据集和评估指标
在本节中,我们对先前工作中常用的基准数据集进行了深入阐述,并同时对相关数据集进行了详尽分析以供参考使用。
6.1 真实世界数据集
KITTI深度完成数据集[109]:KITTI 数据集是一个广泛应用的大型户外数据资源库,在该库中包含了超过 93,000 张半稠密深度图以及相应的稀疏 LiDAR 扫描和 RGB 图像集合。其中包含 86,000 张训练样本、7,000 张验证样本以及 1,000 张测试样本。值得注意的是该数据集中的图像与深度图均达到了完整的 1216 × 352 像素分辨率相比大多数现有 RGBD 数据库而言其规模更大尺寸更为显著。原始 LiDAR 扫描是由 Velodyne HDL-64E 激光雷达设备捕获的在随后的工作中Uhrig 等人[109]通过半全局匹配(SGM)方法对原始数据进行了去噪处理并通过多次激光扫描实现了对稀疏深度图的有效加密以生成高质量的真实深度信息图
需要注意的是,在实现这些先前的方法时,真实值的应用存在差异性。其稀疏深度图的密度约为5%,具体可见于图13(b)所示;相比之下,在KITTI基准中可获得的半稠密真实值约为30%,如图13(c)所示。大多数现有研究倾向于利用更为密集的真实值数据集来推进他们的技术方案;然而,在缺乏完整真实数据的情况下进行研究的一些无监督学习方法[118, 119, 120, 121, 129]通常假设只能获得原始稀疏深度图作为输入数据;此时,在这些有限的有效像素上应用深度一致性约束更为合理。

图 13. KITTI深度完成数据集 [109] 的示例图片。(a) RGB 图片。(b) 原始稀疏化深度图.© 真实深度图.
NYU-v2 [99]:该数据集涵盖464个室内场景中的总计408,000张RGBD图像,并由微软Kinect设备捕获完成,原始分辨率设置为640×480像素。值得注意的是,在这种原始RGBD数据仅限于深度增强技术的应用背景下,在先前的研究中通过随机选取图14(b)中的200个或图14©中的500个深度点(作为稀疏输入)来实现其方法研究的目的时,在这两种情况下所得的有效像素总数均未超过1%。此外,在对NYU-v2数据集进行评估时,默认采用基于RGB图像的方法为主流方案;而在后续部分中我们将详细展示这些现有方法的核心要素及其性能特点等信息
基于该数据集的评估标准下,无监督方法仅能将深度一致性应用于处理合成稀疏深度输入中的那些有限的有效深度点.与之形成对比的,监督方法如[12][13][77]通常通过官方提供的预训练工具箱获取高精度完整_depth_map.]

示例图像集14展示了NYU-v2数据集[99]的样本。(a)该区域呈现RGB颜色特征。(b)在稀疏深度区域中选取了200个采样点。(c)在同样稀疏区域中增加了500个采样点。(d)相应的真实深度分布情况。
VOID [120]**:VOID 数据集由 Intel RealSense D435i 摄像机从室内与室外场景中摄制了共 56 个序列(约 47,00 帧),其中约一半数量(即约 4.7 十万帧)作为训练数据使用其余剩余数量则作为测试用例。每张图像的分辨率统一设定为 64 \times 48 像素单位。每个样本分别对应着三种不同密度级别的点数数据(分别为 1{,}5 十万点、5 十千点及 1{,}5 千点)。该数据集被用来评估文献 \cite{93}, \cite{118}, \cite{119}, \cite{12}及\cite{22}中所述方法的有效性
DenseLivox [133] :基于更经济高效的 Livox LiDAR 设备收集而成的 DenseLivox 数据集,在深度图密度方面表现优异(达到 88.3%),相较于 KITTI 数据集具有显著提升。该数据集不仅提供了丰富的辅助数据(如边界遮挡与法线信息),还被用于评估 [133] 中提出的方法。
6.2 合成数据集
SYNTHIA 数据集(编号为 92)在一个虚拟城市环境中采集
本研究中的aerial depth [106]:本研究中所设计的aerial depth 被定义为一种模拟无人机(UAV)工作环境下外景数据的虚拟三维模型集合。该集合由来自18个不同虚拟三维模型生成了总计83,797张RGB图像和深度图。其中约67.4%的数据用于模型训练,在剩下的约32.6%的数据上进行验证测试。这些图像被用来评估[106]中所述方法的效果
The Virtual KITTI dataset [29] serves as a virtual counterpart to the original KITTI data set. The original KITTI video sequence comprised five specific sequences (namely 0OOS, OOOI, OOOQ, OOPW, and OOPX), which were virtually cloned using the Unity engine. This virtual counterpart consists of approximately thirty-five additional video sequences (about seventeen thousand frames in total). Each of these virtual clones was then further modified to generate seven distinct variants. These modifications involved altering object attributes, camera positions and orientations, as well as illumination conditions. This dataset has been employed to evaluate a variety of methods referenced in works [55], [89], [98], and [118].
SceneNet RGB-D [80] 数据集收集了超过15,000条合成轨迹生成的5,百万张室内外RGBD图像,并采用高分辨率捕捉技术确保画面清晰度。每条轨迹经过精心渲染并分割成39帧预览图以供后续分析。通过光线追踪技术模拟的场景呈现出 photorealistic 级别的视觉效果,并被用来作为基准测试现有的解决方案
6.4 评估指标
深度填补与单目深度估计一般情况下会采用相同的评价标准。下面列举了最常被采用的度量指标
RMSE :均方根误差,定义见公式 (6)。
MAE :平均绝对误差,定义见公式 (5)。
iRMSE :逆深度的均方根误差,定义如下:
iRMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left(\frac{1}{Y_i} - \frac{1}{\hat{Y}_i}\right)^2}
iMAE :逆深度的平均绝对误差,定义如下:
iMAE = \frac{1}{n} \sum_{i=1}^{n} \left|\frac{1}{Y_i} - \frac{1}{\hat{Y}_i}\right|
这四个指标通常作为KITTI基准来评估模型性能。在这些指标中,在KITTI竞赛中采用RMSE排序算法。因此,在训练深度学习模型时, 许多年之前的研究者们就已经选择了RMSE(L2损失)作为损失函数这一事实得到了广泛认可。此外, 这些指标也常被广泛应用于其他深度估计方法, 如:
REL :平均相对误差,定义如下:
REL = \frac{1}{n} \sum_{i=1}^{n} \frac{|Y_i - \hat{Y}_i|}{\hat{Y}_i}
δ :阈值准确性,定义如下:
\max\left(\frac{Y_i}{\hat{Y}_i}, \frac{\hat{Y}_i}{Y_i}\right) < \tau
其中 τ 是给定的阈值。
REL 和 δ 通常用于评估室内数据集(如 NYU-v2)上的模型。
深度图评估的问题具有开放性和挑战性。现有方法难以准确衡量合成模式(如物体)的质量;鉴于此挑战性问题的存在, 研究人员还尝试提出新的评估指标。例如, 在文献[42]中提取了深度图中的物体边界进行测量;而Koch及其团队在文献[60]中提出了平面度误差和位置准确度作为关键指标;Jiang等研究者则开发了两个新指标来量化平面平坦性和直线度;然而目前仍面临获取精确数据的困难, 这些新方法在实际应用中仍面临诸多限制
7. 实验分析
本节中系统性地回顾现有技术方案,在分析现有研究的基础上展开深入探讨。具体而言,在各研究领域中挑选若干具有代表性的研究工作,并重点分析其关键特性:网络架构设计、损失函数选择以及学习策略实施等方面的技术特点与创新点均得到充分阐述。通过对比实验结果(参考表3与表4的数据对比可知),可以看出不同引导方式对模型性能的影响差异明显;进一步观察表5的数据可以看出,在NYU-v2数据集上的RGB引导方案较之其他方式表现出更强的优势;此外还需指出的是,在VOID数据集上的对比实验表明不同场景下模型适应能力存在显著差异;值得注意的是,在上述实验结果统计过程中采用以下分类标准:S代表有监督学习方案,U代表纯无监督学习方案(未采用深度一致性约束),而S&U则表示仅针对稀疏输入中的有效深度点应用深度一致性约束的半监督学习方案;最后归纳总结所得结论并提出未来改进方向




7.1 现有方法的主要特征
仅限于较少的早期工作中,学者们主要选择从稀疏深度输入处理完成任务。而相比之下,基于RGB引导的研究则更为普遍。其中多数方法主要以深度信息为主进行融合。
PyTorch 被视为专为实现深度补全任务而广受欢迎的深度学习库。许多研究采用 PyTorch 开发了各种方法。
KITTI以其作为最常用的数据集而闻名。在该数据集中表现最佳的方法众多。值得注意的是,在数据集中排名第二的是NYU-v2。由于NYU-v2的深度图像来源于Kinect技术,在研究者们的著作中可见一斑:他们通过在200至500个像素范围内随机或均匀采样来估计深度信息。此外,在最近的无监督深度估计研究中也被广泛采用的是VOID基准。
最近构建了更为先进的神经网络组件以显著提升深度补全模型的表现。现有技术普遍采用了将表面法线、亲和矩阵以及残差图集成进其网络架构的做法
为深度补全任务设定的学习目标具有明显的直观性,并且容易进行优化。例如,在许多实际应用中发现,在某些情况下仅仅惩罚深度图的L_1或L_2损失即可获得令人满意的实验结果。
7.2 无引导和引导方法
该段落无引导方法具有显著优势。首先,在应对光线或天气变化环境方面表现更为稳健,这主要得益于它们仅以稀疏深度图作为输入数据源。其次,由于同样的原因,在计算效率上也较其他方法更为出色。然而,在缺乏语义信息以及面临深度点分布不规则等挑战时,其性能仍显不足。具体而言,请参阅表 3 的数据可知[73]:基于无引导的最优算法在KITTI数据集上的RMSE值达到了901.43毫米。值得注意的是[73]同样采用了RGB图像来辅助模型训练过程。而未使用RGB图像进行任何阶段训练和推理的最佳算法为[48]:其RMSE值为937.48毫米。另一方面,请参考表 4的数据对比:基于RGB引导的DySPN算法表现尤为突出其RMSE值仅为709.12毫米远超其他非监督学习方法的表现尤其值得注意的是除了3coef [51] EncDec-Net[EF] [112] Morph-Net [17] 和CSPN [13]外 所有监督学习的RGB引导方法均超越了HMS-Net这一基准性能这凸显了利用RGB信息所带来的显著优势另一关键区别在于无引导方法无法有效利用图像中的无监督损失项例如光度损失这一项特性使得其在某些场景下难以达到与带RGB引导方法相当的效果
7.3 RGB 引导方法的比较
对于 RGB 引导方法,从表 4 中可以观察到以下结果:
- 早期融合模型的性能通常较弱于其他类型的模型。
- 尽管基于双编码器网络(DEN)的许多方法被提出,其中在双编码器-解码器网络(DEDN)架构下进行的研究进一步表明,在双编码器-解码器网络(DEDN)架构下,性能提升更为显著。
- 不仅显式 3D 表示方法、基于 SPN 的方法和残差深度方法展示了更先进的性能,并且这些研究还表明,在这些架构下表现出色的同时也优于其他多数现有方案。
具体而言,在KITTI数据集上排名前十的方法可分为四类:( i )基于SPN的四种模型包括DySPN [65]、PENet [44]、NLSPN [86]以及CSPN++ [12];( ii )残差深度模型包括FCFR-Net [68]和[144];( iii )基于DEDN的后期融合方法包括RigNet [127]和GuideNet [104];以及( iv )显式3D表示模型如ACMNet [140]和2D-3D FuseNet [9]。由此可知,在早期阶段进行输入聚合或在后期阶段采用双编码器连接特征提取等方式所获得的融合策略尚无法达到令人满意的性能水平。前十名方法的核心特征在于它们主要通过显式地应用3D感知卷积(如ACMNet和2D-3D FuseNet)、残差深度图细化(如残差深度模型)以及亲和矩阵细化(如基于SPN的方法)来建模深度点之间的几何关系;或者通过更为复杂的网络架构来学习更为有效的引导机制以加权深度特征(如RigNet和GuideNet)。
在 NYU-v2 数据集的分析中也发现了类似的结论。从表 5 的数据可以看出,在测试集上的最佳性能由 DySPN 和 RigNet 实现。值得注意的是,在所有对比实验中,GuideNet、ACMNet、FCFR 网络和 NLSPN 均展现出超越其他现有方法的优势。
从直观角度来看,在整合上述核心技术和组件的基础上,深度补全的效果可能进一步提升。例如,在模型特征空间内学习三维关系的同时,在输出空间内使用亲和矩阵进行后续细化处理。此外,在构建残差型深度学习架构时可嵌入基于引导核的学习双编码器-解码器网络(DEDN)。尽管这些组合关系较为直接,在实际应用场景中仍可考虑优化以追求更高的准确性
7.4 无监督方法的结果
表 4 的底部列出了采用无监督光度损失的方法。纯无监督方法(未采用深度一致性损失)的结果通过调节预测深度图的比例来获得与真实值匹配的数据。其次,在不采用深度一致性的方法中(如 SS-S2D (d) [76] 和 ScaffFusion-U [118]),我们发现纯无监督方法表现欠佳。再者,在引入深度一致性损失和额外的光度损失后(如 DFineNet [135] 和 KBNet [121]),虽然有所改进但表现仍低于有监督方法(如第 6.2 节所述)。这些有监督模型在 NYU-v2 数据集上使用了高密度的真实深度图(30%),而大部分无监督模型仅基于低密度(5%)稀疏深度图进行训练。值得注意的是,在表 5 中也观察到类似结果:有 supervision 方法显著优于无 supervision 方法
表 6 列出了 VOID 数据集上几种方法评估的结果。值得注意的是,从 VOICED [120] 到 KBNet [121], 性能出现了显著提升。Wong 等人主要针对稀疏深度输入进行了预密化处理,例如他们在 [118] 中采用了基于学习的空间金字塔池化(SPP)块结构。正如 [121] 所述,在 SPP 块中发现的最大池化层往往会导致丢失近距离细节这一问题。因此,在 KBNet 中同时实现了最大池化与最小池化的结合,以确保网络能够提取更为全面的深度特征。我们相信这种设计对提升 KBNet 的准确性起到了关键作用
总体来看,在_VOID 数据集中使用无监督模型时,KBNet [121] 和 ScaffFusion [118] 分别获得了最高的准确率与次高的准确率。然而,在有监督的NLSPN模型下并不占优。这些结果表明当前所采用的光度损失存在一定的局限性。
8. 开放性挑战和未来研究方向
8.1 深度混合问题
基于视觉感知的人工智能系统(Vision-based Intelligent Human Interaction System)[174
8.2 有缺陷的真实值
另一个问题是真实深度数据中的不足之处。首先,在语义分割中并未涉及的是,在现有技术条件下无法获得现有的真实世界数据集来提供每个像素的真实深度信息。这种缺失是由深度传感器的技术局限性所导致的。尽管许多现有方法采用了带有标签的数据进行预训练(supervised learning),然而大多数像素点仍然无法获得充分的监督信号以支持有效的学习过程。其次,在面对遮挡物、动态物体等复杂场景时,半稠密的标注结果在一定程度上不可靠(inaccurate)。为了缓解数据稀疏性所带来的挑战,一些研究者 [76], [100] 开发出了自监督学习框架(self-supervised learning framework),以弥补对真实深度信息的需求不足。针对上述第二个问题,Zhu 等人 [144] 提出了将深度估计中的不确定性纳入模型进行处理的方法(method)。此外,少数研究 [1], [134] 通过利用合成数据集来提升模型性能,然而这种基于合成的数据与实际场景之间存在较大的域间差异(domain discrepancy),这限制了相关技术的实际应用效果(effectiveness)。尽管已有诸多尝试取得了部分成果,但如何有效去除不可靠深度信息的影响仍然是一个待解决的关键问题,仍具有较大的改进空间(space)
8.3 轻量级网络
大多数现有方法都具有复杂的网络架构并拥有大量参数量。此外,在许多情况下它们采用了从粗等到精细预测的两阶段方法这一做法会导致耗时较长且对硬件资源要求较高。然而,在自动驾驶与机器人导航等应用领域中计算资源有限且要求实现实时推理功能这一限制无法绕过尽管少数先前研究 [2] [105] [112] [126] 尝试针对实时推理问题进行了相关探讨但所得结果并不理想此外深度估计领域的网络架构本质上属于经验性质的工作随着单目深度估计技术的进步我们可以进一步应用诸如知识蒸馏 [40] 网络压缩 [117] 和神经结构搜索 [50] 等等技术在保证较高准确度的前提下开发轻量级模型以实现快速推理速度对于实际应用场景具有巨大潜力因此这是未来研究中一个极具价值且具有实用意义的方向
8.4 无监督/自监督框架
如前述,在缺乏密集真实值的场景下,无监督/自监督学习框架通常被采用。参照第7.4节所述的内容,请注意当前无监督/自监督方法在准确性方面仍低于传统监控方法。原因在于它们仅在稀疏输入的有效深度点上应用深度一致性机制,并不能像传统监控方法那样利用大量真实存在的深度数据进行训练。只有当预测的深度图与真实值高度一致时,光度损失才能发挥作用。然而由于光度损失对噪声干扰、快速移动物体以及无纹理区域特别敏感这一挑战依然存在。因此,在动态性和鲁棒性方面仍存在较大的提升空间。由于这种方法对动态物体、远距离区域等不够鲁棒
8.5 损失函数和评估指标
在实现深度补全的满意性能方面,合适的损失函数的选择同样关键. 常见的损失函数通常由 l_2 或 l_1 损失与其他辅助损失(如平滑损失和 SSIM 损失) 的加权组合构成. 但在现有研究中发现, l_1 和 l_2 损失各有其不足之处,具体取决于数据集的特点. 类似地,目前采用的各种评估指标难以精确衡量场景结构的质量. 尽管已有的一些新方法[42],[51],[56],[60]尝试用于评估深度图的质量,但这些方法尚未得到广泛应用. 因此,在未来研究中开发更有效的损失函数及其对应的评价指标仍具重要意义.
8.6 域适应
当前基准数据集面临深度点信息稀缺的问题。此外,在有限场景下的理想光照条件下捕获的数据具有一定的局限性。因此,在训练模型时需要格外谨慎以确保其泛化能力的保障。在模拟环境中操控深度网络具有一定的合理性,并且能够通过这种方法获得逐像素级的精确信息,在不同场景下灵活地调节光照或天气条件。这种探索也鼓励了对更具挑战性的现实世界方法的研究。然而,在将模型从模拟环境推广至真实世界场景时仍面临诸多挑战。目前已有研究尝试通过域适应方法解决这一问题 [1], [71]。但这一领域仍存在诸多未被充分探索的问题值得深入研究和探讨
8.7 基于 Transformer 的网络结构
近年来,在计算机视觉领域取得了显著进展的同时
8.8 可视化和可解释性
一些研究致力于通过可视化CNN在单目深度估计中的机制来深入理解其运作原理。如文献 [16, 41, 43] 中所述,CNN倾向于利用RGB图像中的一些单眼特征来推断深度信息。此外,请参考文献[132]所观察到的,CNN内部生成的特征表现出高度解耦,并且分别激活于不同的深度范围。当输入中包含一些稀疏深度点时进行深度估计会发生什么变化?这一问题的研究对于理解基于学习方法的工作原理具有重要意义,同时也对其泛化能力(例如域适应)以及深度补全方法的鲁棒性改进具有广泛应用价值
8.9 对不同传感器的鲁棒性
现有方法受限于特定类型的传感器应用。例如,默认采用的是最具代表性的 KITTI 数据集这一类高分辨率 LiDAR 采集系统(64 线)。现有技术难以有效支持其他低分辨率传感器的表现能力包括但不限于 32 线、16 线以及单线 LiDAR 等设备。正如文献 [72] [76] [93] [131] 所报道的那样,在从 64 线到低分辨率 LiDAR 采集系统的过渡过程中其性能表现明显退步。因此维持这些较低分辨率传感器的同样精度水平确实面临诸多困难这一问题的重要性在实际应用中不容忽视。因此,在研究领域中提升基于学习算法在不同扫描线数 LiDAR 传感器上的适用性仍是一个极具挑战性和研究价值的方向。
9. 结论
本文对基于深度学习的深度补全方法进行了全面综述。我们的研究工作系统性归纳了相关领域的基本概念和发展脉络,并重点探讨了主流算法的技术框架与创新思路。为了帮助读者更好地理解这些研究进展及相互关联关系,在文献梳理的基础上构建了一种新的分类框架。这种分类框架不仅能够根据网络架构的特点进行细致划分,还能动态反映各算法的核心创新点及其技术演变路径。此外,在系统性归纳现有研究进展及相互关联关系的基础上构建了一种新的分类框架。这种分类框架不仅能够根据网络架构的特点进行细致划分,还能动态反映各算法的核心创新点及其技术演变路径.通过这种双重视角下的分析框架,我们深入探讨了各算法之间的异同特点及其内在逻辑联系.进一步,我们系统展示了现有技术的关键特性及其在常用基准测试集中的定量评估结果.最后,通过对现有算法性能指标进行深入分析,总结出它们的主要优缺点以及彼此间的相似性与差异性.在此基础上,我们提出了若干开放性问题与未来值得深入探索的研究方向.
参考文献:





