基于单目视觉深度估计的论文研究
单目视觉
From large to small: Multi-scale local planar guidance for monocular depth estimation.
摘要:
在同一个二维投影空间中,无限多种三维场景的映射关系构成了一个复杂的系统,在此基础上从单个图像估计精确的深度仍然面临着巨大的挑战性问题。然而,在深度估计领域中的一项重要突破在于基于卷积神经网络的方法取得了显著的进步成果。传统的深度估计系统通常由两个主要组件构成:用于提取密集特征的编码器模块以及用于预测所需深度信息的关键解码器模块。在编解码方案中采用跳跃式卷积操作与空间聚合层不仅降低了低级特征层的空间分辨率,并且通过多层级反向传播机制有效地恢复到了较高层次的空间细节信息。为了更有效地指导密集编码特征的深度预测过程,在现有系统架构的基础上本研究提出了一种改进型深度估计网络架构。该网络结构采用多阶段局部平面导向机制作为解码阶段的核心指导原则,在此基础之上结合了跳跃连接技术以及多层次反向传播策略以显著提升了模型的整体性能表现。实验结果表明,在具有挑战性的基准测试任务中所提出的改进型网络架构在性能指标上较传统方法实现了明显的优势提升,并且通过系统的消融研究进一步验证了各项核心设计要素的有效性

一 介绍:
二维图像深度估计一直是计算机视觉研究的核心议题,并已在机器人技术、自动驾驶汽车技术、场景理解技术以及三维重建技术等多个领域得到广泛应用。这些应用通常通过从同一场景中获取多实例来进行深度估计:如立体图像配对[39]、来自移动相机捕捉到的多帧视频片段[34]以及在不同光照条件下采集的真实静止图像[2, 3]。基于多观测点深度信息取得显著进展后……
但是从单个图像推断精确深度具挑战性甚至对人类也无法完全实现这是因为多个三维空间可投射到同一二维空间中导致解不唯一的问题这被称为欠定系统问题为此研究者们开发出多种解决方案
随后,在首次基于学习实现单目深度估计的研究中引入后
同时,在DCNNs的应用中通常主要由两部分构成:编码器部分用于密集特征提取以及解码器部分用于期望预测生成。作为密集特征提取模块的一般实现方式,则采用了如Vgg[41]、resnet[18]或densenet[20]等非常强大的深层网络架构。值得注意的是,在这些网络结构中反复应用跨步卷积与空间池化操作会导致过渡输出的空间分辨率有所下降,并可能成为高分辨率下获得精确预测的关键瓶颈因素之一。为此,在当前研究领域中已提出多种解决方案以提升特征图融合效果:例如多尺度网络[29, 11]、跳跃连接[17, 45]或多层反褶积网络[25, 15, 24]等方法均可应用于从更高分辨率输入中整合多级特征图信息以增强表现能力。近年来引入的空间金字塔池化(ASPP)机制[7]已被成功应用于图像语义分割任务中,并通过使用不同膨胀率的稀疏卷积操作能够有效捕获图像中的大规模变化特性。值得注意的是尽管扩展卷积操作本身能够显著增大感受野大小但最近研究工作并未完全消除感受野大小而是在特定条件下通过合理配置仍可维持较高水平的表现能力并在此基础上结合萎缩卷积机制回用预训练权重参数从而进一步提升模型性能表现。
为了更清晰地建立全分辨率阶段之间的关系,在本研究中我们提出了一种基于多阶段解码的网络架构设计。该架构通过在解码的不同阶段引入新的局部平面引导层,在编码-解码方案中实现了特征的有效提取与深度估计。具体而言,在1/8倍率、1/4倍率和1/2倍率的各个解码阶段中,我们分别设置了局部平面引导层,并结合这些层输出的信息来进行深度预测。这种设计方法与现有多尺度网络[11, 12]或图像金字塔[17]方案有何不同呢?首先,在降采样分辨率下处理数据时,并非将来自所提层的输出视为独立估计值而是让各层协同学习四维空间中的平面系数,并以此构建最终输出结果的空间分布模型;其次,在特征提取过程中每个空间单元会根据其所在目标的空间范围或深度程度来显著激活相关路径以获取精确估计值。图2展示了所提方法下各层输出示例图,在具有挑战性的纽约大学深度v2数据集[31]以及kitti数据集[16]上的实验结果表明该方法能够达到当前最优性能水平
除了第一章外, 全文将按照以下结构展开: 第二章概述了相关工作的基础; 第三章详细阐述了本研究的核心技术; 然后, 在第四章中我们将展示实验结果并进行对比分析; 此外, 在烧蚀研究方面, 我们进一步验证了该方法的有效性. 全文结束于第五章.
二、 相关工作
2.1.有监督单目深度估计
在单目深度估计领域中
相关研究工作也值得提及
2.2.半监督单眼深度估计
还在探索半监督或弱监督的学习策略来优化深度估计模型。研究者们开发了一种创新性的新方法,该方法基于相对深度信息并结合了特殊的损失函数,旨在实现无约束环境下的图像深度预测问题解决。最近的研究者们为了克服这一挑战,在高质量depth data获取方面进行了深入探讨,提出了另一种基于稀疏Lidar depth data作为间接 supervision signal的方法,通过结合图像对准损失来提升模型性能
2.3.自监督单目深度估计
自监督方法是一种仅需校正立体图像对以训练深度估计网络的方法。Garg等人[15]与Godard等人[17]各自提出了一种自监督学习方法,成功解决了从直接深度估计到图像重建的关键问题。具体而言,该研究通过精确校正相应的立体图像对,该网络试图利用估算出的差异信息生成另一个视图,并将这两个视图之间的误差设定为主导重建损失目标。值得注意的是,由于该方法仅依赖于高质量校正的立体像对而无需与RGB图像建立紧密关联,因而显著降低了获取标注深度数据集所需的工作量,从而实现了高效的学习过程。然而,与当前最优监督方法相比仍存在一定的精度差距[13]。Garg等人[15]引入了一种编解码架构设计,并通过利用光度重构建误差优化网络参数来改进模型性能;Xie等人[45]则开发出一种新型网络结构,该结构不仅整合了来自另一视角的信息,还利用重建误差的概率分布模型推断每个像素处可能存在的差异;最后,Godard等人[17]进一步完善了这一研究框架,开发出一种能够实现端到端训练的创新网络架构设计。
2.4.基于视频的单目深度估计
另外一种基于序列数据的单目深度估计方法也存在。Yin等人的研究引入了两组生成器网络的联合架构,并通过对抗学习机制协同优化这两组网络的工作模式。他们旨在从周期内各帧中估计视差图,并从这一过程中获得各层间的相互约束关系。Mahjourian等人的工作则提出了一个基于全局几何体的方法,并特别关注整体场景中的三维结构推断问题,在连续帧间强制保证点云和运动估计的一致性。Wang团队则采用了微分位姿预测模块,并在此基础上设计了一个端到端深度估计网络模型。
三、 方法
在此部分中, 我们详细阐述了所提出的单目深度估计网络, 该网络在解码过程中涉及的各个阶段上引入了一个新的局部平面导向层.
3.1.网络体系结构
如图2所示,在遵循一种编码解码方案的情况下(该编码解码方案被采用),我们将特征的分辨率按比例缩放到H/8并随后恢复至原始分辨率H。在此过程中,在生成 H/8 要素提取器之后(密集要素提取器),我们引入了更密集版本 [47] 的空间金字塔池图层 [7] ,这些池图层能够提供具有各种扩张率 r∈{3, 6, 12, 18, 24} 的上下文信息。在解码阶段每个阶段(当内部输出按因子2逐步恢复至全分辨率时),我们采用了所提出的局部平面制导(LPG)层来更有效地连接特征与期望深度估计之间的关联关系。最后将所提出的各层输出依次连接至最终卷积层以得到深度估计d*

3.2.多尺度局部平面制导
在本研究工作中所提出的中心思想在于巧妙地定义内部特征与最终输出之间的更为直接且明确的关系。与现有方法不同的是,在恢复到原始分辨率的基础上采用简单的最近邻上采样层及跳过连接机制从编码阶段引入了新的局部平面导引(LPG)层。该层能够将给定的空间分辨率H/k特征映射映射至全分辨率,并引导相应的4D平面系数以适应每个空间单元所在的k×k块区域。这些4D平面系数被设计用于构建全分辨率上的k x k块结构,并通过最终卷积层将它们连接起来以实现深度估计任务
请注意, 每个 LPG 层并非预设为直接估计相应的全局深度值规模, 因为训练损失仅依据最终深度估计(如第 3.3 节所述)。与其他 LPG 层的输出结合, 每个输出被视为通过最终卷积层进行非线性组合的部分, 并被解释为全局深度。因此, 它们可以具有不同的范围, 并且可以学习在空间位置处的基地或基地间的精确相对补偿(如图1和图3所示)。

在本研究中,在分析k×k区域时
基于局部平面假设来指导特征, 我们通过下面所使用的公式将每个估计的4D平面系数转换为k×k尺寸的局部深度

其中(n1,n2,n3,n4)是估计的平面系数,(ui,vi)分别是像素i的标准化坐标。

它对n的导数是直接的:
然后,反向传播的梯度计算如下:

图4展示了提议层的详细信息。利用1x1卷积进行堆叠,并在信道数量上反复将数量减半直至达到4个通道(假设输入为平方形式且无特殊限制),从而获得(H/k) × (H/k) × 4的特征映射。随后通过两种不同的方法来约束平面系数:一种是将单位法线向量经过tanh激活函数并施加L2归一化操作,另一种是直接采用sigmoid函数进行缩放,并以最大距离C确定平面位置。最后将这些结果串联起来,并运用方程1来进行局部深度估计。这里我们将局部深度视为局部空间内额外增加的深度信息,在精细尺度上可能是小细节,在粗尺度上可能是整体3D布局的一部分。通过对表征学习与合并先验的关系分析[4]可知,在训练过程中网络倾向于学习更高效的表征表示方法。由于在同一空间位置上不同尺度特征共同参与深度预测过程,在表征表达上我们预期全局形状会在较粗粒度尺度下被学习到,而局部细节则会在较细粒度尺度下被提取并表征



四、 实验
为了评估我们的方法的效果,在详细介绍了其实现细节的情况下,我们对两个具有挑战性的基准集进行了系统性实验研究。这些基准集不仅涵盖了室内和室外环境,并且与当前领域的最新研究成果进行了全面对比。
我们支持基于KITTI平台提供的在线数据评估工具。
随后, 我们开展了一项系统性研究来深入探讨所提出的关键技术参数及其对系统性能的影响, 并通过定量分析展示了该方法与现有竞争方案之间的性能差距。
所有代码均为公开源码。
基于密集特征提取机制构建编码器框架,并利用ILSVRC数据集进行预训练以应用于图像分类任务。其中,在基网络结构中固定了dense1和dense2模块以及批处理规范化参数。随后应用指数线性单元作为激活函数,并通过上采样过程采用了最近邻插值方法,并紧接着应用了3×3卷积层以完成后续计算流程。该模型总计拥有约47 million trainable parameters
为了避免过拟合,在输入网络前我们采用随机水平翻转、对比度拉伸以及亮度和色彩调整等措施(具体参数分别为[0.8,1.2]、[0.5,1.5]和[0.8,1.2])对手工增强图像进行处理,并以50%的概率应用相应的技术。同时我们还对图像进行随机旋转处理(范围为[-5,5]度)。经过上述数据增强处理后我们对网络进行了训练其中Kitti数据集的尺寸设置为352×704像素而NYU Depth V2数据集的尺寸设置为416×544像素。
4.2.NYU Depth V2 数据集
NYU Depth V2数据集数据集[31]包含120k rgb和深度对,其大小为480 640,使用一个 Microsoft Kinect从464个室内场景中获取视频序列。我们按照之前的工作,使用249个场景进行训练,215个场景(654个图像)进行测试。从总共120K图像深度对中,由于RGB图像和深度映射之间的异步捕获速率,使用时间戳,我们关联和采样它们通过均匀间距的时间,结果24231图像深度对的训练集。使用原始深度图像和数据集提供的相机投影,我们将图像深度对齐以进行精确的像素的注册。在评估中,我们使用[12]中的一个中心作物,如[13]。
4.3.KITTI
KITTI专门收集了数据集[16]中的61个场景,并将其划分为'城市'类、'住宅'类、'道路'类以及'校园'类四个类别。由于现有的研究大多基于Eigen等人的分割方法开展工作,在进行训练与测试时我们同样遵循这一基准以确保公平比较。通过这种方法我们获得了包含697幅图像在内的29个场景的数据集用于评估性能;而剩下的23488幅图像则按照32个场景的形式用于模型训练工作。在评估过程中我们采用了[15]中所描述的一种中心区域采样策略这与我们之前的研究保持一致以确保结果的一致性与可比性
4.4.评估结果
为了进行评估,我们使用了以前的工作所使用的以下指标:阈值为:


基于KITTI数据集的评估结果表明,在Eigen分割测试集中,仅有45个样本未对应真实标签。值得注意的是,此前研究通常采用原始velodyne扫描数据作为基准进行评估。然而,在实验过程中,我们仅对652个有效样本进行了精确度和召回率指标测试,并结合 velodyne 扫描数据覆盖全部697个样本情况。具体而言,在仅利用官方标注的真实深度图时(共1,108个样本),我们的模型表现优于现有方法;而在综合考虑 velodyne 数据的情况下(涵盖所有1,300多个样本),我们的性能依然显著优于其他方案。这些结果均在KITTY基准服务器上进行了验证,并于提交截止日首次实现在线排行榜首位。

4.5.融合研究
在评估过程中,我们采用了网络变体以考察核心因素对系统性能的影响。基于仅由基本网络构成的基准网络,在此基础上增加了若干模块以研究新增因子对精度提升的作用(如表4所示)。随着核心因子数量的增加整体性能得到显著提升而局部平面导引层则带来了最大的性能优化效果值得注意的是LPG层相较于1×1还原层仅增加了约0.04 million trainable parameters最终改进源自式(5)所定义的训练损失函数

4.6.定性结果
在讨论阶段,我们对比分析了我们的作品与竞品的质量表现.这一观察表明,在图像5和图像6中可以观察到我们的图像呈现出更加清晰的对象边界以及更加平滑的深度渐变.然而,在KITTI实验中发现,在图像顶部区域出现了明显的天空遮挡现象或输出区域出现伪影.

五、 总结
本研究开展了一种监督式单目深度估计网络架构,并实现了最新的模型性能水平。得益于近期深度学习领域的诸多进展,在本研究中我们成功构建并测试了这一创新性网络结构。该网络架构采用创新性的局部平面导向层,在解码器模块中引入了多级别特征融合机制,并能够明确地将内部特征映射关联到目标预测输出上。通过逐步优化编码与解码过程中的关键组件,在实验验证中取得了显著的效果提升:具体而言,在具有挑战性的基准测试上展示了令人满意的实验结果以验证该方法的有效性。然而,在实际应用中发现基于KITTI数据集的性能提升幅度小于NYU V2数据集上的提升效果,并对此进行了深入分析:这与地面真实高度信息分布较为稀疏的特点密切相关。因此,在后续研究计划中我们计划引入光度重建损失项作为监督信号来源:这将有助于进一步提高模型的整体性能表现
原文链接:
