Depth Map Prediction from a Single Image using a Multi-Scale Deep Network(基于多尺度深度网络的单幅图像深度图预测)
论文贡献:
本文提出了一种创新性的深度估计方法。通过综合全局与局部信息来近似单图像深度估计,在NYU Depth和KITTI数据集中表现最佳,在评估指标上取得优异成绩。此外,在未来的研究中可将该方法与其它三维坐标信息相结合,并将其扩展至原始分辨率;本文在深度估计领域研究与应用方面提供了重要贡献。
Abstract
在场景三维几何形状分析中,深度估计是一个关键因素。在立体图像处理中,在单幅图像上实现局部对应相对容易些;但要仅凭单幅图像推断深度关系就不那么容易了。这需要整合来自多个信息源的全局和局部特征。此外,在此背景下存在大量不确定性使得这一任务的本质充满模糊性。在本文研究中提出了一种创新的方法来解决这一问题:通过构建两层深度网络模型:第一层基于全局信息完成粗略预测;第二层则聚焦于细化这一预测结果,并采用尺度不变误差作为辅助手段以提高测量精度
Introduction
评估深度在理解场景中的几何关系方面扮演着关键角色。另一方面,在这种复杂性下所获得的关系常被发现能显著提升现有识别任务的性能,并为后续应用提供了基础。这些应用包括但不限于3D建模技术(参考文献:16、6),物理支持建模方法(参考文献:18),机器人学研究(参考文献:4、14),以及潜在的应用领域如closed-loop reasoning(未在现有文献中详细探讨)。
尽管利用立体视觉或运动学方法在深度估计方面已取得大量研究工作[17] ,但基于单一图像的方法尚未得到广泛认可。然而,在实际应用中较为常见:潜在的应用领域包括通过分析大量社交媒体平台上的图片、房地产列表以及网络购物目录来更深入地了解用户行为。这些涵盖了许多室内及室外的实际场景。
存在多个原因可能导致在单一目标下尚未达到与立体声相同的深度估计水平。通过确保精确的图像匹配,在立体情况下可可靠地恢复出物体深度信息[5]。因此,在此背景下可将三维深度估计简化为开发一种可靠的方法来建立图像点对应关系——这往往可以通过利用局部外观特征来进行实现。相比之下,在基于单一视角进行深度估计时,则需依赖于线角度、透视变换、物体尺寸、成像位置以及大气效果等因素作为依据。此外,在整体场景视图中可能需要将这些信息有效地结合起来才能完成推断工作;而基于立体声的方法则仅需依赖于局部之间的差异信息即可实现目标
此外,在生成任务中存在模棱两可的情况,并且是一个技术上不适定的问题:给定一张图像,在现实中可能会导致图像产生多种可能的现实场景。然而,在真实世界的空间中大多数情况是物理上不可能存在的因此深度仍然可以较为精确地推断出物体的存在位置与形状。然而另一个主要问题是全球尺度上的不确定性尽管数据集中不存在极端情况(例如一个普通房间与一个玩具之家)但房间大小与家具尺寸之间存在一定程度的变化范围。除了常规的尺度相关误差外我们采用尺度不变性的方法来解决这一问题。这种方法将注意力集中在场景中的空间关系而不是一般的绝对尺度上特别适合于诸如3D建模这样的应用在后处理过程中模型经常被重新缩放以适应不同的应用场景
本研究介绍了一种基于单幅图像推断深度的新型方法。我们设计了一个包含两个模块的神经网络架构来直接预测深度值: 第一个模块负责估计场景的整体结构特征,第二个模块则利用局部细节信息进行精化处理。整个网络采用损失函数来捕捉像素之间的深度关联,除了逐点误差之外,还特别关注像素间的空间关系。我们的系统不仅达到了NYU Depth和KITTI评估标准中的最佳水平,而且在定性输出方面也表现出色。
2 Related Work
3 Approach
3.1 Model Architecture
该系统由两部分构成(如图1所示)。其中一大规模模块首先在全局范围内估计场景深度(随后,在局部区域使用精细模块进行优化)。这些模块均作用于原始输入数据(此外将额外的第一层图像特征传递给精细模块使用)。这种设计使局域模块能够在全局预测基础上引入更细致的信息(从而实现更高分辨率的结果)。

3.1.1 Global Coarse-Scale Network
粗比例网络的目标在于利用场景的整体视觉信息以推断深度图的整体结构。该网络的设计使得其高层能够全面覆盖整个图像范围。同样地, 低层与中间层通过最大值池运算将来自不同区域的信息浓缩至有限的空间维度,从而实现对全景信息的整合以便准确预测深度。在此情况下,为了有效提取关键线索, 网络必须具备这种能力:即理解和定位消失点的位置、目标的具体坐标以及房间布局等细节信息。然而, 局部视图(常用于立体匹配)难以捕捉这些关键特征
如图1所示, 全局粗尺度网络由五个特征提取层组成, 接着有两个全连接层. 其中, 输入、特征映射及输出尺寸已在图中标明清楚. 相较于输入, 最终输出分辨率降至原始数据集分辨率的一半 (其本身从原始数据集向下采样2倍), 并对应于包含大部分输入区域的一个中心 cropped区域 (如同我们在后文中所述, 由于第一层网络以及图像处理过程中的转换步骤导致了边缘区域信息丢失).
需要注意的是,在卷积神经网络中, 输出的空间维度要比最顶层卷积特征图的空间维度更大. 这种情况通常会带来一些问题: 一方面, 如果我们将输出严格限制在特征映射尺寸, 并且在传递预测至良好网络前依赖于预设化的上采样方案; 另一方面, 我们认为通过让顶层完全连接层能够在NYU深度图(74×55像素)范围内自主学习更适合的数据表示. 这种方法能够避免因固定化采样导致的信息损失; 同时也能使模型更具适应性. 这些预测结果可能会存在模糊性, 但通过自适应地生成更高分辨率(8×6像素)的功能级预测来弥补这一不足. 最终所得的结果样本权重分布如图2所示.

如图2所示,在(a)中采用KITTI数据集,在(b)中采用NYUDepth数据集。其中红色代表正数(对应于距离较远的区域),蓝色代表负数(对应于距离较近的区域);黑色表示零值。权重向量均匀选取,并按其L2范数值从大到小排列展示。KITTI数据集中权重常表现出深度变化特征,在道路两侧均有体现;而NYUDepth数据集中则主要显示出墙的位置及门路区域的显著特征。
除了粗输出层7采用线性结构外,在开发模型过程中发现,在ImageNet分类任务中对粗尺度网络构建完成后的卷积层(编号1至5)进行了预训练工作;随后退出操作应用于完全连接型隐藏层6;研究表明,在ImageNet分类基准测试集上实施预训练初始化策略较随机初始化方法表现出更好的性能水平;其性能提升幅度相对较小
3.1.2 local Fine-Scale Network
3.2 Scale-Invariant Error(尺度不变误差)
在深度预测领域中,确定场景的整体尺度被视为一个基础而模糊的问题。实际上,在采用现有度量方法时所出现的主要误差都可以被合理地归因于对平均深度预测的过度追求。例如,在NYUDepth数据集上进行训练的Make3D模型利用日志空间计算得到了RMSE值为0.41(如表1所示)。然而,在采用Oracle方法的情况下将每个预测的平均对数深度替换为其对应的地面真实值均值后,误差显著下降至0.33,并实现了约20%的相对提升。同样地,在我们系统中所获得的结果分别是0.28和更优的0.22。
在此基础上, 我们采用一种与绝对全局尺度无关的误差度量方法, 用于评估场景中各点之间的相对关系. 对于预测深度映射y以及其对应的地面真实值y*, 每个样本由n个像素通过索引i进行标识, 我们定义一种在对数空间中的尺度不变均方差作为评估标准


α值对应于使得给定(y, y*)误差最小的情况
预测值y与地面真相之间最匹配的比例因子为e^α。无论y取其标量倍数中的哪一个,在缩放比例上均保持一致的效果
该文档提供了另外两种方式来查看此度量。定义 di = log yi - log yi* 为像素点 i 的预测值与地面真值得差

除了尺度不变的误差之外,在本研究中我们采用了基于我们之前工作中提出的一些误差指标来评估我们的方法的性能。具体细节可参考第4节中的讨论。
3.3 Training Loss
3.4 Data Augmentation
4 Experiments
6 Discussion
从单幅图像预测深度估计是一项难度较高的任务。尽管这一技术看似复杂但经过深入研究仍能取得不错的效果。我们的系统通过采用两组深度网络模型实现了这一目标其中一组负责全局深度结构推断另一组则专注于高分辨率区域细节提取。我们成功地将原始数据特征进行了有效整合并因此在NYU Depth和KITTI数据集上实现了卓越成果
未来的工作计划中, 我们旨在优化我们的方法, 以便纳入更多三维几何信息, 包括表面法线。Fouhey等人已经展示了法向地图预测的强大潜力, 并通过将其与深度地图整合显著提升了性能[16]. 我们期待通过反复利用连续更高分辨率的局部网络来扩展深度映射至完整的原始输入分辨率。
