Consistent Video Depth Estimation——视频深度一致估计
文章核心 :
本文提出了一种算法——重构 单眼视频中的所有像素点 的稠密三维几何结构,其利用了传统SFM方法来建立像素点间的几何约束关系。本文采用的学习驱动先验与经典方法不同之处在于:通过训练卷积神经网络来估计单张图像的空间深度信息;在测试阶段针对特定输入视频序列进行微调优化以满足严格的几何约束条件;同时在约束较少的情况下生成看似合理的深度细节。定量实验显示:所提出的方法不仅能够在精度上超越现有方法,在几何一致性方面也表现出了显著优势;从可视化结果来看:该算法能够有效恢复出具有较高稳定性的深度信息;特别适用于处理中等运动速度的手持摄像机场景下的视频重建问题;研究结果表明:该算法已在多个典型应用场景中展现出良好的效果。
介绍:
三维场景重建基于图像序列的研究已经取得了显著成果。最早的研究发现表明,在视频中运动导致场景结构估计不稳定的问题较为突出。这种模型鲁棒性较差的现象主要体现在实验环境下难以获得理想效果。在某些情况下(如仅关注少数孤立点),可能会得到低密度结构的结果。随后的发展得益于高质量开源重建系统的进步以及基于学习技术的新突破。
手机视频是最简单且常见用于3D重建的输入源。其应用极为广泛。若能在这种输入中实现高度密集且精确的重构,则将极大提升其实用性——然而,在实际操作中完成这一目标仍然面临巨大技术挑战。
任何图像重建系统都会面临一系列典型的挑战;例如,在纹理不佳的区域会出现明显的重复图案和遮挡现象;而视频重建则面临更为复杂的问题:更高的噪声水平会严重影响图像质量,并且还会受到振动的影响;此外还会出现运动模糊现象;快门速度变化也会导致画面畸变;同时相邻帧之间的位移量较小可能导致定位误差;这些因素都需要被精确建模并加以解决;另外,在深度图中缺失区域(b)会导致解析困难;此外还有不一致的几何形状以及闪烁(c)等问题。

传统的融合方法采用稀疏单眼法与密集多视角点云相结合的方式进行空间重构,在极线区域特征间的精确配准下能够实现高度精确的空间重构。然而由于计算复杂度带来的挑战, 这种精确配准过程往往会带来数据噪声, 因此为了解决这一问题通常依赖于引入基于平滑性的启发式约束以减少误差影响. 但这种处理策略往往会导致被重建区域产生不规则的空间形态, 从而导致被重建区域出现空缺现象(例如图中所示b1区域).
近年来,在基于学习的单张图像重建技术方面取得了显著进展。这种方法能够摒弃启发式正则化(heuristic regularization),直接利用数据学习场景的先验知识,并从而在传统重建方法中更好地处理先前弱甚至错误的部分 ,从而能够合成可信深度场景。特别值得注意的是,在动态场景重建方面表现出色:由于从单一视角出发时静态物体与动态物体的本质一致性,在单独对每一帧进行处理时虽然仍能获得合理的深度估计结果(即与单张缩放因子的真实深度相关联),但这种估计出的结果往往会出现不规律闪烁的现象,并且不具备度量性(即无法与真实场景中的缩放因子直接对应)。这实际上反映了视频重建过程中存在的几何不一致性问题:物体相对于相机的姿态变化类似于其在真实世界中的运动情况
视频深度估计的方法有哪些呢?
- 该方法利用递归深度学习模型间接解决随着时间的推移空间几何一致性的保持。
- 该系统采用多视图重建技术进行系统性地分析。
但是,解决的主要是静态场景。(静态场景还能算视频???小赵困惑,先留疑)
该系统以视频为基础构建了一个创新的重构框架,并将传统几何约束与学习驱动的方法相结合。在具体实施中,我们首先采用传统方法获取几何约束信息,并通过这一过程实现了深度估计中的精确性和一致性。为了适应不同场景的需求,在训练阶段我们对单个图像进行深度估计网络权重的微调优化,并使其能够根据具体情况生成合理的几何形状描述。此外,在测试过程中我们采用了动态时间 warping算法来平衡各时间段的信息权重分配。此外,在测试过程中我们采用了动态时间 warping算法来平衡各时间段的信息权重分配。此外,在测试过程中我们采用了动态时间 warping算法来平衡各时间段的信息权重分配。
结果: 所获得的深度视频呈现出高度密集且详细的特点,并呈现出明确的物体现状。整体上满足严格的几何一致性要求,从而避免了闪烁现象的发生
- 效果: 静态物体投射到世界空间时表现得非常稳定;该方法不仅能够良好地应对运动缓慢的情况(如图所示),而且在动态环境中仍能维持较好的效果水平。
- 应用: 深度视频的质量和几何一致性有助于催生新的应用领域;通过该技术可以在复杂多维场景中实现内容间的互动体验(如图所示),从而实现全自动视频特效生成的效果提升。

相关工作:
1 Supervised monocular depth estimation——有监督的单眼深度估计
- 早期基于学习的方法通过将局部图像特征映射至深度或离散的几何结构,并随后执行一系列后续处理步骤来实现对目标特征的学习。
基于深度学习的方法已在单张图像_depth_estimation领域取得了显著成效,
然而这些方法在数据获取方面仍面临挑战,
因为它们需要高度精确的真实_gt_depth数据来训练模型。 - 前人的研究工作主要体现在以下几个方面:
- 通过域适应性训练合成的数据集来提升模型泛化能力
- 收集了相对深度信息作为标注数据
- 利用传统的多视图点云算法结合网络级图像与3D影视内容,
从而生成模拟的真实_depth_data以辅助模型训练
本文提出了一种基于单图像深度估计领域的最新研究成果的方法,并带来了视频深度估计的几何一致性水平的显著提升。
2 Self-supervised monocular depth estimation——自监督的单眼深度估计
- 训练数据集规模较大但收集工作较为复杂,在自监督学习框架下可以直接基于原始图像对或单目视频序列进行深度估计学习这一目标的实现。其核心方法基于不同的图像扭曲变换并结合最小化重投影误差这一关键指标展开。
- 最近用于提升模型性能的主要方法包括光流计算、运动物体检测、曲面法线拟合等技术;在立体视觉方面也取得了进展;此外,在网络架构设计和训练损失函数优化方面也提出了许多创新方法;同时,在自监督学习中还发展出了一些基于深度估计的模块;消融研究结果表明:长时间曝光带来的几何约束问题 是当前模型难以完美解决的关键挑战。
- 许多自监督方法确实采用了深度估计中的光度损失作为基础损失函数;然而该方法在实际应用中存在一些局限性:尽管存在几何形状不一致的问题(尤其是在纹理较差的区域),仍然能够满足这些损失函数的基本要求;此外由于较大的外观变化导致该方法难以有效应用于时间跨度较大的场景;而在消融实验中发现:长时曝光带来的几何约束问题 对于模型性能的提升至关重要。
3 Multi-view reconstruction——多视点重建
- 多视点立体算法通过从任意视点获取的多张图像来估计场景深度。最近基于学习的方法采用了传统的基于几何学原则的成熟方法,在多视图重建方面展示了最先进的性能。
- 然而,在静态场景下运行的这些多视图立体声技术存在局限性:当面对动态对象时(如移动的人体),它们要么产生错误估计结果要么导致置信度下降。
相较于而言
4 Depth from video——视频深度
从单眼视频中推导出复杂的深度估计问题是一个具有挑战性的难题。现有的技术主要基于运动分割技术和对场景中显式的动态模型进行建模来处理物体的运动。此外还有其他方法通过利用多帧序列来进行运动估计以及多视图重建从而推断深度信息。目前研究者们倾向于采用一种基于将附近帧扭曲到参考视点构建[cost volume]的方法来实现深度估计回归结果或者预测深度分布。然而该模型并未考虑到动态移动的目标物体的存在
与现有方法相比,在本文中同样采用了多视图几何模型所施加的约束条件的基础上,在微调优化的基础上构建了深度估计网络;然而该网络中的深度参数是从经过微调优化后的单图像深度估计模型中推导得出,并且通过这种设计方式使得网络能够自然地处理动态场景中的对象位置变化问题,并不需要显式的运动分割操作以实现目标
5 Temporal consistency——时间一致性
- 将视频划分为单个连续帧进行独立深度估计,在这种情况下会导致整体视觉效果中出现明显的帧闪烁现象。为此域研究者提出了多种方法以增强时间一致性:包括通过样式转换提取空间相关性、基于图像生成的方法、直接从视频到视频合成的方法以及与特定应用无关的通用后处理技术。
- 主要概念是通过引入‘time consistency loss’框架,在输入视频中估计各时空对应的相似度信息。在此背景下,在视频深度估计任务中明确采用光流一致性损失的方式或者隐式利用递归神经网络模型来表征时间一致性这一特性。
本文工作的核心特点在于其主要任务是从几何一致性良好的视频中生成深度估计数据集。这一特性对于非静态场景尤为重要,在这种情况下,在时间上连续的实际深度值可能会存在差异。
6 Depth-aware visual effects——深度感知视觉效果
- 高密度深度估计有助于实现多样化的视觉效果表现,在图像合成领域主要体现在景物深度合成、新视点合成以及遮挡区域感知的增强现实应用中。
本文工作从随意捕获的视频实现深度一致的估计,能够实现视频特效。
7 Test-time training——测试时间训练
- 基于测试数据的学习已被广泛应用于多个领域:包括视觉跟踪中的实时更新阶段、物体检测机制从静态图像扩展至动态视频领域以及针对特定视频功能进行再识别的研究工作。
与本文最为相关的前驱研究是:通过在线自监督学习方法对预先训练模型进行微调优化以提升单眼深度估计性能。 - 请注意,在线自监督学习方法通常可在测试环境中直接应用。
相比之下,在现有技术中对每一帧的精度表现的关注仍是主要目标。
然而本研究则致力于构建一个能够全局一致地预测深度信息的系统框架。
相较于其他方法而言,我们的方法在更高的一致性下实现了高精度且细致的重建。这对于依赖视频的应用具有重要意义。
除此之外,在技术上与前人方法存在显著差异

总览:
本文的方法基于单目视频作为输入,并计算每个视频帧内的相机姿态以及高密度且空间上高度一致的空间信息(达到比例模糊度)。术语几何一致性不仅意味着深度映射不会随时间发生闪烁现象,并且保证了所有深度映射之间的相互一致性。也就是说,在精确投射像素深度的同时能够实现各帧间的相互关联关系建立。例如,在同一物体的情况下(即静态点),所有观测结果都应该映射到世界坐标系中的同一个三维点位置而不发生漂移现象
当输入视频是随意捕获时(即未经过专业设备采集),其深度估计将面临显著的技术挑战。由于这些视频通常是由未校准的手持摄像头拍摄而成(即相机未经精确对焦),因此在图像处理中会出现典型的运动模糊现象,并伴有滚动快门变形的问题。在复杂的照明条件下(例如强光照射或间接照明),可能会导致图像噪声水平升高,并引入额外的模糊性。此外,在这些视频序列中(通常)会包含大量的动态物体(如人、动物等),这会严重违反用于静态场景重建系统设计的基本假设。
传统方法: 如前所述,在场景中存在缺陷的部分,默认采用传统的重建方法可能会导致孔隙的存在(或者,在不得不给出结果的情况下进行深度估计时会受到较大的噪声污染)。然而,在这些能够充分信任并提供可靠结果的领域里,默认情况下这种方法表现出高度的一致性和准确性,并且由于其强烈的几何约束依赖性而具有很强的表现力。
以学习为基础的方法: 最近以来以学习为基础的方法展现出良好的互补性特征。这类技术在应对上述挑战方面表现出色,并且能够从任意输入图像中推断出可靠的深度映射结果。然而,在处理每个帧时独立进行操作的这类技术会导致空间上的不一致以及时间上的闪烁现象。
本文的核心思路是综合运用这两种方法的独特优势。基于现有的单图像深度估计网络模型,在此基础上经过优化以生成具有可信度但可能存在不一致性的深度信息。通过传统重建技术提取视频中的几何约束条件来进一步优化该网络模型。因此,在特定视频场景下该网络能够生成具有几何一致性深度分布的预测结果。
本文方法分为两个阶段:
预处理:
- 作为提取视频帧间几何约束的基础,首先使用现成的开源软件COLMAP执行传统的动态结构(SfM)重建管道,为了改进动态运动视频的姿态估计,应用MaskR-CNN来获得对人进行分割 并去除这些区域,以便更可靠的关键点提取和匹配,因为在我们的视频中,人占了动态运动的大部分。 这一步提供了 精确的内在和外在摄像机参数以及稀疏点云重建 。同时,还利用光流估计了帧对之间的密集对应关系。相机校准和密集的对应关系,加在一起,进而能够制定本文的几何损失,如下所述。
- SfM重建的第二个作用是提供场景的尺度。由于本文的方法适用于单眼输入,重建在尺度上是模糊的。基于学习的深度估计网络的输出也是尺度不变的。因此,为了限制网络必须改变的数量,调整了SfM重建的尺度,使其在鲁棒平均意义上匹配基于学习的方法。
测试时间训练:
在这一阶段中,我们主要对一个预先训练好的深度估计网络进行微调,使其能够针对特定输入视频生成具有几何一致性深度的地图.在每次迭代过程中,我们通过选取一对连续帧来估算当前深度网络所能推断出的深度图.通过将密集对应关系与当前深度估计得到的重投影结果进行比较,我们可以验证深度图在几何上的一致性.本文提出了两种新的损失函数:空间损失(spatial loss)与视差损失(disparity loss),并通过反向传播算法更新网络权重(这些权重值适用于所有帧数据).随着时间推移,通过对大量帧对进行迭代采样,这些损失函数逐步减小,使得网络能够学习到该视频中物体几何一致的深度信息.同时,该网络也具备在较少约束条件下提供合理正则化能力的能力.
本文所提出的方法生成的深度图不仅在几何上保持一致,而且在整个视频的时间范围内也实现了高度一致的同时,还精确地捕捉了清晰边缘的存在情况.即使面对动态移动物体也是如此.

预处理:
1 Camera registration——相机参数
- 通过结合SFM技术和多视图立体重建软件COLMAP, 我们能够计算N个视频序列中每张帧图像对应的相机内参数矩阵、外参数矩阵, 并生成一个半密集深度图, 同时将未被检测到深度信息的像素值设定为零。
- 在重构过程中存在因动态物体引入而导致结果偏差的风险, 因此我们采用MaskR-CNN算法对每一帧图像进行人体分割, 并阻止这些区域的数据参与特征计算(COLMAP为此功能提供了相应的设置)。值得注意的是, 手机摄像头一般不会有几何畸变, 因此我们采用SIMPLE_PINHOLE相机模型, 并成功解决了各帧间的共用内参数问题, 这一改进使我们展示了比现有技术更快且更可靠的三维重建能力。
- 我们的实现采用了暴力匹配算法, 并结合了启发式引导策略。
2 Scale calibration——尺度校准
基于学习的方法与SfM在标度表现上存在差异的原因在于两者都采用了标度不变化处理。这种差异主要体现在两者的深度图数值范围上。 为了使标度与几何损失兼容 ,可以通过缩放相机坐标系来实现这一目标。(公式细说见文)
3 Frame sampling——帧采样
在后续工作中, 必须计算特定帧对之间的密集光流. 对于视频中的所有帧对而言, 其计算开销极大. 因此, 在此采用分层策略以优化这些帧对集合.
4 Optical flow estimation——光流估计
基于最佳配准策略计算所有帧对之间的密集光流场。为了确保较高的估计精度,在此过程中首先通过以下步骤进行处理...
homography warp对齐帧( 帧间距离可能遥远 ),进而消除两帧之间的自主运动(如,相机旋转),因此利用光流网络计算对齐帧之间的光流。为了考虑移动对象和遮挡/去遮挡(因为它们不满足几何约束或不可靠),应用 前向后一致性检查 ,并删除前向后误差大于1像素的像素,产生一个二进制映射。此外,观察到 帧对很少重叠的光流估计结果是不可靠的 ,因此,我们不考虑重叠面积 占图像面积的20% 的任何帧对。
关于输入视频的测试时间训练:
在测试阶段进行训练阶段,并非单纯为了研究模型本身的行为模式;即通过微调深度网络的方式迫使该模型,在面对特定输入视频时能够生成更为一致的深度估计。首先阐述本文所采用的几何损失函数及其特性;接着详细说明整个优化流程。
1****Geometric loss =spatial loss +disparity loss:
对于固定的一对帧,在光流场中描述了哪些像素对对应于同一个三维空间中的同一点。通过光流场可以验证当前深度估计的几何一致性:如果计算得到的光流位移点与深度重投影点一致,则表明深度估计具有良好的几何一致性。
本文提出的方法核心思想是将其他因素视为一个几何损失项,并通过反向传播机制传递一致性误差信息到网络中以迫使预测结果生成更为一致的深度估计值。
这种几何损失由两部分组成即图像空间中的局部相似性损失以及视差相关的全局一致性约束。
2 Discussion——讨论
基于静态假设的应用中使用深度映射时,在处理动态物体时具有一定的有效性。然而在这种情况下仍然能够实现可靠的_depth_估计_。具体来说:
- 一致运动(如一辆移动中的汽车)通常能够在极线框架下得到合理对齐。
- 但会导致_depth_估计_出现问题。
- 非一致运动可能导致极线框架下的约束冲突难以调和或一致性不足(如挥舞的手)。根据经验,在经过足够多训练后仍能生成可靠结果
3 Optimization——优化
通过应用几何损失函数,并采用标准反向传播算法来优化网络参数。将预训练深度估计模型所得的知识作为初始参数设置在目标网络中,并支持迁移学习过程的有效开展。以便在图像上生成具有可信度的深度信息图。这对于基于几何重建的传统系统而言是一个显著的技术挑战。我们设定一个固定的训练周期(每个实验均设置为20个epoch)来进行微调训练。经过实践验证,在这一简单的微调过程中所观察到的现象表明:网络训练过程不会出现过拟合现象;同时,在实际处理过程中实现了一定数量错误监督信息的有效利用与传递处理效果
4 Implementation details——复现细节
通过实验分析了几种单眼深度估计结构及预训练权重配置。在没有特别说明的情况下,默认使用前人研究中提出的单图像深度估计网络作为基准模型。如所述,在评估过程中采用了其他不同的网络架构作为对比实验。对于输入视频序列而言,每个epoch处理所有连续帧对。在所有的实验中,采用ADAM优化器,并设置其学习率为0.0004。对于一个244帧的视频,在4个NVIDIATesla M40gpu上的训练需要40min。
结果与评价:
1 实验设置
- 数据集:基于自定义立体视频的数据集设计了评估方案。测试集包含了静态场景与动态场景的结合体,并包含运动程度中等的目标物体实例作为研究对象;定量分析采用了以下三个基准数据集作为参考依据:TUM dataset、ScanNet dataset以及KITTI 2015 dataset。
- 评估指标:为了解决这一问题,在本文所设计的自定义立体视频数据集中对单眼视频估计深度的质量进行了量化评估与性能比较研究;为此我们采用了以下三种关键指标:
- 光度误差(Photometric error):通过计算RGB颜色通道间的均方误差来衡量深度估计精度;
- 深度分辨率(Depth resolution):以预测结果的空间尺度准确性作为评价标准;
- 立体视差一致性(Stereo disparity consistency):通过分析左右图像之间的几何关系来验证算法的有效性。
Photometric error这一指标具体而言指的是光度误差,在评估过程中我们是从左视图流中估计出深度值后将其重建投射回右侧图像像素位置并计算两者的RGB差异均方误差值;由于深度图仅能估计出深度信息的空间尺度存在模糊性因此需要将估计得到的深度值与对应的立体视差图进行对齐操作;具体实现方法是通过对每帧图像中的估计流取水平分量来获得对应的立体视差信息;然后利用基于RANSAC算法的线性回归模型来计算每帧图像中的尺度偏移量和平移量;最后将所有帧中的平均尺度偏移量和平移量作为全局级别的参数来进行综合评价。
评估估计深度图在视频中的时间一致性表现如何?通常情况下,在单目视频输入下采用KLT跟踪器以获取可靠的稀疏追踪结果;随后将二维运动轨迹解析为三维空间位置信息;为了确保所有三维运动轨迹收敛至同一空间点从而实现深度重构的一致性;最后通过计算相邻帧间三维点位移的距离度量其稳定度变化情况
Drift - 位移量,在许多情况下,在上面所述的3dtrack对于连续帧数据而言可能显得有些稳定可靠, 但在实际应用中, 由于累积误差会随着时间的推移而逐步积累, 这会导致最终结果出现一定的偏差或漂移现象. 在评估某一特定三维运动轨迹的整体稳定性时, 我们采用了以下方法: 计算生成该三维轨迹运动轨迹的空间变化情况, 并通过分析其空间变化情况来确定其最大本征值. 这一指标实际上衡量的是空间点位随时间的变化范围.
对于静态序列,在评估估计深度时采用全部三个指标。而对于动态序列,则仅测定亮度误差与不稳定性;这是因为用于衡量移动物体的参数不受场景中变动物体的影响。

2 定量分析
比较方法:将本文的结果与目前最先进的三类深度估计算法进行了比较。
Traditional multi-view stereo system : COLMAP
Single-image depth estimation :Mannequin Challenge
- Video-based depth estimation: WSVD and NeuralRGBD

Quantitative comparison:如图表所示各相关指标(包括光度误差、不稳定性及漂移性)与其完整性之间的关系曲线图。在三个关键指标维度中本研究的方法表现明显优于现有算法。特别是在评估不稳定性与漂移性这两个关键指标时结果显示本研究方法的优势尤为显著。具体数据则可见于下表

Visual Comparison Analysis: 如下文所示,在不同类型的深度估计方法间进行定性对比分析。传统的多视图立体技术在高纹理区域表现出高度精确度,在此区域内可实现可靠的匹配效果。这些生成的大孔(即大量缺失数据点或不可见区域),如上文所述,在下幅图像中体现为b区所示的情况。基于学习算法的方法能够在单个视频帧中生成详尽且可靠的深度信息;然而,在长时间连续观测过程中会出现视觉模糊现象导致重建几何一致性问题。受限于时间窗长度的影响,在视频处理中某些动态变化特征可能会被遗漏或误判;而像NeuralRGBD这样的基于视频的方法则能在一定程度上缓解这一问题

3 消融实验
开展消融实验旨在考察所选方案的有效性


研究表明,在采用长期约束的情况下(...),估计深度随时间变化的稳定性得到了显著提升。通过查看下图中的数据分布情况(...),我们进一步分析了两种设计策略的影响范围及其优劣势。实验结果发现,在引入基于长期帧对的约束(...)后(...),生成图像的质量得到了明显改善,并且在时间维度上也表现出更强的一致性与稳定性特征。相比之下,在仅依赖连续帧对进行计算(...)时(...),所得到的结果则呈现出明显的模糊性与不一致现象。

4 对公共基准测试的定量比较
基于三个公开可用的数据集进行了定量分析以评估本文提出的深度估计方法性能表现。在所有测试配置中将输入图像尺寸设定为最大边长384像素并采用相同的测试条件对单目深度估计模型进行了参数微调训练经过20个完整的训练周期后观察到了与立体视频数据集方法一致的效果比较
TUM-RGBD dataset: 我们提出的方法在各项评估指标上均展现出显著的优势,并且相较于现有方法表现出更优的表现能力. 特别地,在测试时间训练方面取得了突破性进展——我们提出的策略显著提升了Li等人所提出的基线模型的性能水平.

ScanNet dataset: 本文方法相比最先进的算法达到了竞争性能;其性能略微逊色于基于扫描网训练集的DeepV2D方法。

KITTI dataset:

基于视频的视觉效果
一致性的视频深度估计带来了引人注目的基于视频的效果。如图所示的是这些效果的一个样本。

缺陷:
所提出的视频深度估计方法存在一些局限性和缺点。
Poses: 该方法目前依赖于COLMAP从单眼视频中估计相机的姿态(poses)。然而,在具有挑战性的场景下(例如有限的平移量与运动模糊),COLMAP可能无法可靠地实现稀疏重建与相机姿态估计(poses)。显著的姿态误差会对本文的结果产生严重影响(poses),这进一步限制了该方法在处理此类视频时的有效性(poses)。
Dynamic movement: 本文所提出的方法仅能够处理那些包含有一定限度内物体运动的视频文件,并不能够处理具有剧烈变化或快速移动物体的情况
Flow: 本文基于FlowNet2构建了几何约束。低质量的光流数据通过前后向一致性的双向验证机制被筛选出来。然而,在此情况下它可能存在系统性的偏差。在此情况下将导致深度估计出现明显误差。为了改进这一问题我们采用了以下策略:一种优化策略是在常规网格上对密集流进行子采样以减少计算负担同时保持准确性。
Speed: 在采用该方法时会遇到无法进行实时处理的问题。例如,在针对包含244帧以及708个采样点对的视频样本进行测试时,在训练阶段所需的时间约为40分钟。未来研究如何实现在线处理与快速变体结合将对实际应用产生重要影响。
总结:
该文提出了一种简明且高效的方案用于从单眼视频中推断一致深度。通过传统多视图重建技术提取出几何约束条件,并将这些条件用于精调单图像深度估计网络。采用测试时程微调策略后,网络在全局视频范围内生成了具有几何一致性的一致深度估计。同时展开了全面的定量与定性评估实验结果表明,所提方案显著优于现有几种先进depth estimation算法.此外,一致性的视频深度推断促进了令人瞩目的基于视频的应用效果
