10倍加速!今年最火的深度估计模型升级:Depth Anything V2 来了!
深度估计领域的一项重要研究改进了单目深度估计模型,提出了Depth Anything V2。该模型通过重新设计训练数据,使用合成图像替代真实图像,解决了真实标签数据的噪声问题。具体而言,作者提出了三个关键改进:1) 使用高质量合成图像训练模型以获得更精确的细节预测;2) 通过伪标签真实图像放大模型的泛化能力;3) 使用未标记真实图像作为桥梁训练模型。实验结果表明,Depth Anything V2在复杂场景、透明物体和反射表面的鲁棒性显著提升,推理速度和深度精度均优于基于Stable Diffusion的模型。此外,作者构建了新的评估基准,展示了模型在多样化场景下的优势。这项研究为单目深度估计模型的进一步优化提供了新的思路。
编辑:计算机视觉工坊
请加入小助理:dddvision,备注方向、学校/公司或公司名称、昵称,拉你进群。最后会附上细分行业的群。
扫描下方二维码,即可加入[3D视觉知识星球]。这个知识星球内部汇聚了丰富的3D视觉实战案例,以及全面的学习资源。具体来说,星球成员可以获得近20门视频课程,这些课程对星球成员免费开放,同时还有最新顶会论文资源、3DGS系列课程、计算机视觉书籍等优质内容。无论是想入门3D视觉,还是进行项目开发或科研攻关,这个平台都能为您提供全方位的支持。欢迎有志于3D视觉领域的朋友扫码加入,共同学习、交流进步!

0. 这篇文章干了啥?
单目深度估计(MDE)因其在基础应用中的重要性而逐渐受到关注。在传统领域中,精确的深度信息具有显著价值,例如在三维重建、自动驾驶和机器人导航等方面发挥着关键作用。而在现代场景中,深度信息的应用范围进一步扩大,涵盖了AI生成的图像、视频和3D场景。因此,近年来出现了许多MDE模型,这些模型均具备处理开放世界图像的能力。从模型架构的角度来看,这些研究工作可划分为两类。一类基于判别模型,代表作包括BEiT和DINOv2;另一类则采用生成模型策略,其中Stable Diffusion(SD)是该类方法的典型代表。在图2中,我们对两类方法中的代表性工作进行了系统比较,包括Depth Anything(判别模型)和Marigold(生成模型)。通过对比可以看出,Marigold在细节建模方面表现更为出色,而Depth Anything在处理复杂场景时展现出更强的鲁棒性。此外,从表1的数据可以看出,Depth Anything在效率和轻量化方面具有优势,同时支持多尺度处理。然而,Depth Anything在对透明物体和反射效果的处理上较为敏感,这正是Marigold所具有的显著优势。


在本研究中,我们综合考虑了各项因素,致力于构建一个基础架构,以达到单目深度估计模型的高能力水平,并实现表1中所列举的所有优势。
为复杂场景模拟可靠的预测结果,涵盖包括但不限于复杂的排列组合、半透膜(如玻璃)以及镜面反射表面(如镜子、显示屏)等具体场景类型。
在深度预测结果中呈现了高度细节,其中涵盖范围包括但不限于细长物体(如椅子腿)以及微小孔洞等细节特征。
支持多样化的[模型规模]和性能水平,以满足多种应用场景的需求。
该方法具备高度通用性,能够良好地支持后续任务的拓展,其中,Depth Anything V1被选为第三届MDEC竞赛中各顶尖团队的统一预训练模型。
MDE的本质是进行判别任务,我们从Depth Anything V1出发,旨在保持其优点的同时克服其缺点。有趣的是,我们将展示,实现这一具有挑战性的目标所需的技术无需过于复杂或花哨。数据是关键,这与V1的数据驱动驱动策略一致,该策略利用大量未标注数据以加速数据扩展并扩大数据覆盖范围。在这项研究中,我们将首先重新评估其标记数据设计,随后将着重强调未标记数据的重要性。
在此,我们将介绍三个关键发现。在接下来的三个部分中,我们将详细阐述它们的发现。
Q1 [第2节]:该方法是否将粗略深度归因于判别模型本身?是否需要基于重扩散的建模方式以获取更精细的细节?
A1:并非高效的判别模型就无法呈现极富细节感的图像。主要的改进在于通过将真实图像样本替换为高精度合成图像,显著提升了模型的细节捕捉能力。
Q2 [第3节]:即使生成图像明显优于真实图像,为何许多先前的研究仍倾向于使用真实图像?
A2:合成图像有其缺点,这在之前的范式中并不易于解决。
Q3 [第4节]:如何避免合成图像的缺点并放大其优势 ?
A3:通过大量真实图像,配以伪标签,作为连接工具,将仅基于合成数据训练的教师模型的性能进行增强,然后用于指导(较小规模)学生模型的训练。
在这些探索的基础上,我们完成了MDE基础模型的构建工作。然而,我们发现当前测试集高度噪声化,未能有效体现MDE模型的真实优势。因此,我们进一步开发了一个具有精确标注和多样场景的通用评估基准,具体内容将在第6节中详细说明。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Depth Anything V2
Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
机构:HKU、TikTok
原文链接:https://arxiv.org/abs/2406.09414
代码链接:https://github.com/DepthAnything/Depth-Anything-V2
官方主页:https://depth-anything-v2.github.io/
2. 摘要
本研究介绍了名为Depth Anything V2的新方法。本研究舍弃了过于花哨的技术细节,转而聚焦于揭示关键的理论发现,为构建强大的单目深度估计模型奠定了基础。通过三个关键的创新实践,该版本实现了深度预测的显著提升,具体包括:1)使用合成图像替代真实图像;2)扩展了教师模型的容量;3)引入了基于大规模伪标签的真实图像的桥梁来训练学生模型。与基于Stable Diffusion的最新模型相比,我们的方法在效率和准确性方面均表现出显著的优势,计算速度提升了十倍以上。我们提供了参数规模从25 million到1.3 billion不等的多个版本模型,以适应各种应用场景的需求。为了确保模型的泛化能力,我们对方法进行了微调,并开发了一个具有高度精确标注和多样场景的通用评估基准,以促进未来研究的进一步发展。
3. 效果展示
Depth Anything V2在抗压性与细节表现方面显著超越了V1。相比基于SD的模型而言,它不仅推理速度更快,参数数量也更少,同时深度精度更高。

4. 重新审视Depth Anything V1
基于MiDaS在零次学习MDE方面的开创性研究,近期的学术探索更倾向于通过构建规模更庞大的训练数据集来提升性能表现。值得注意的是,Depth Anything V1、Metric3D V1和V2以及ZeroDepth分别从多维度收集了150万、800万、1600万和1500万张标注图像用于模型训练。然而,这一趋势的深入探讨却相对不足:如此规模的标注图像是否真的具有优势?

在回答这个问题之前,我们有必要深入分析真实标记图像可能未被充分考虑的潜在问题。真实标记数据的两个主要缺点是其在标注过程中可能存在的不准确性和效率上的不足。
该系统中存在标签不准确性问题,即深度图像中标注的误标信息。由于数据采集过程中的技术限制,真实标注数据不可避免地存在估计误差。这种误标可能源自多个方面,例如深度传感器在捕捉透明物体时的精度不足(如图3a所示)、立体匹配算法对无纹理或重复图案的敏感性(如图3b所示),以及基于结构的建模方法在处理动态对象或异常值时的脆弱性(如图3c所示)。
在深度细节方面存在诸多未被充分考虑的关键细节。真实世界中的数据集往往忽视其深度细节中的某些关键特征,如图4a所示,树和椅子的深度细节呈现明显的粗糙特征。这些数据集在对象边界和细孔区域难以提供精确的监督,这导致深度预测结果过于平滑,如图4c中间区域所示。高度噪声化的标签数据不可靠,这会使得学习到的模型在预测时出现类似的错误(如图3d所示)。例如,在透明表面等挑战任务中,MiDaS和Depth Anything V1分别取得了25.9%和53.5%的较低得分。
为了有效解决上述问题,我们决定更换训练数据,并筛选出标注更精确的图像。我们借鉴了最近基于深度学习(SD)的研究成果,这些研究主要采用带有完整深度信息的合成图像进行训练。我们对合成图像的标注质量进行了全面评估,并发现它们有望缓解上述问题。合成图像的优势主要体现在其深度标签的精确性,具体表现在两个关键方面:
每一个微小的细节,如边界、小孔和小物体,都被精确标注。从图4b可以看出,无论是细密的网格结构还是叶子,都被真实标注了。
我们能够捕获具有挑战性的透明物体和反射表面的实际深度,如图4b所示,花瓶放置在桌子上。简单来说,合成图像的深度值可以被视为真实世界的反映。图4c右侧部分展示了在合成图像上训练的MDE模型的精细预测结果。此外,与真实图像相比,我们可以通过从图形引擎中获取来快速扩大合成训练图像的数量,这不会引起任何隐私或伦理问题。

5. Depth Anything V2
基于以上分析,我们已经明确无误地确定了Depth Anything V2的最终流程(如图7所示)。它由以下三个步骤组成:第一步,完成深度估计任务;第二步,对图像进行修复处理;第三步,完成边缘检测任务。
基于DINOv2-G仅在高质量的合成图像上训练一个可靠的教师模型。
在大规模未标记的真实图像上生成精确的伪深度。
基于伪标记的真实图像训练最终的学生模型,以实现模型的鲁棒泛化能力(我们将在后续内容中说明,合成图像并非此方法的必要条件)。

我们计划发布四个学生模型,分别基于DINOv2的small、base、large和giant版本。如表7所示,我们采用了五个精确合成数据集(共595,000张图像)和八个大规模伪标记的真实数据集(总计62,000,000张图像)进行训练。与V1一致,我们在训练过程中对每个伪标记样本,忽略其损失最大的前n个区域,其中n设定为10%。我们将其视为潜在的噪声伪标签。类似地,我们的模型生成了具有仿射不变性的逆深度。

在标记图像的优化过程中,我们采用了两个损失函数:一个是缩放不变和偏移不变的Lssi,另一个是梯度匹配的Lgm。这些目标函数并非全新设计,它们源自于MiDaS的提出者。值得注意的是,当使用合成图像进行优化时,Lgm在提升深度锐度方面表现出色。在伪标记图像的优化过程中,我们参考了V1的策略,增加了额外的特征对齐损失,以保留来自预训练DINOv2编码器的信息性语义。
6. 实验结果
传统基准测试的性能:基于我们的模型预测了仿射不变逆深度,为了确保公平比较,我们在五个未曾见过的新测试数据集上,将结果与Depth Anything V1和MiDaS V3.1进行了对比。从表2的数据可以看出,我们的方法在性能上优于MiDaS,与V1的表现相当。在两个数据集上,我们的指标略逊于V1。值得注意的是,这些数据集上的简单指标并非本文研究的重点。本版本特别关注于为细薄结构生成高精度预测,并在复杂场景及透明物体等方面实现稳健预测。这些方面的改进在当前的基准测试中未能充分展现。
在我们提出的新基准测试DA-2K中表现如何:如表3所示,我们提出了一种包含多种场景的新基准测试。即使是最小规模的模型,其性能也显著优于基于SD的重型模型,如Marigold和Geowizard。在相对深度判别任务中,我们最强大的模型在准确率上超越了Marigold,高出10.6%。

大规模伪标签真实图像的价值 。如表5所示,通过融合伪标签真实图像,我们的模型在表5的对比实验中展现了显著的提升。与Depth Anything V1不同,我们进一步探索了在训练学生模型时去除合成图像的可能性。我们的实验结果表明,这种方法不仅有效,而且在较小的模型上表现得尤为出色。最终,我们决定仅使用伪标签图像来训练学生模型。这一发现与仅发布其伪标签掩码的SAM表现出相似性。

在真实标签图像上,伪标签与人工标签的对比分析。在图4a中,我们展示了现有标注的真实数据集具有较高的噪声水平。在此基础上,我们进行了系统性的对比实验。通过在DIML数据集上进行实验,我们比较了使用真实图像的原始人工标签与我们生成的伪标签在迁移性能上的表现。实验结果表明,基于伪标签训练的模型在迁移性能上显著优于人工标签模型。这一显著差异凸显了伪标签的优势及其与现有真实数据集中的丰富噪声之间的对比。

7. 总结
在本研究中,我们开发了Depth Anything V2,一个更为强大的单目深度估计基础模型。该模型不仅能够提供稳健且细节丰富的深度预测,还具备灵活的应用能力,支持从25 million到1.3 billion参数规模的多种模型设计。此外,该模型还能够作为有潜力的初始模型,方便地适应下游任务的微调。通过深入分析关键发现,我们为构建强大的MDE模型奠定了坚实的基础。鉴于现有评估集在多样性方面的局限性和噪声数据的丰富性,我们开发了一个综合评估基准DA-2K,该基准集涵盖了具有精确且具有挑战性的稀疏深度标注的多分辨率图像集。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前,我们已建立了多个3D视觉领域的社群平台,涵盖2D计算机视觉技术、工业级3D视觉技术、视觉SLAM技术、自动驾驶技术、三维重建技术以及无人机技术等细分领域,细分社群涵盖:
2D计算机视觉领域涵盖以下内容:包括图像分类与分割、目标检测与跟踪、医学影像分析与处理、生成对抗网络(GAN)应用、字符识别技术(OCR)、二维缺陷检测、遥感与测绘技术、超分辨率重建、人脸检测与识别、行为模式分析、模型量化与剪枝技术、迁移学习方法、人体姿态估计等前沿研究方向。此外,还包括基于深度学习的2D缺陷检测算法研究、遥感图像分析与解译技术、高分辨率图像重建方法、行为识别系统设计、医学影像诊断支持系统等。
大模型:
工业3D视觉:
SLAM:视觉信息SLAM、激光雷达SLAM、语义理解SLAM、滤波技术、多传感器融合技术、多传感器标定技术、动态场景SLAM、目标跟踪SLAM、神经网络SLAM、机器人路径规划等。
自动驾驶技术涵盖以下内容:深度估计技术、Transformer技术、毫米波|激光雷达|视觉摄像头传感器组成的多传感器传感器系统、多传感器标定技术、多传感器融合技术、自动驾驶综合系统、3D目标检测技术、路径规划技术、轨迹预测技术、3D点云分割技术、模型部署技术、车道线检测技术、BEV感知技术、Occupancy检测技术、目标跟踪技术以及端到端自动驾驶系统等。
三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机: 四旋翼建模、无人机飞控等
除了这些之外,还有求职、硬件选型、产品落地、最新论文、3D产品、行业资讯等交流群。
请将小助理加入,备注内容为:研究方向+学校/公司+昵称(如3D点云+清华+小草莓),并邀请你加入群聊。

▲长按扫码添加助理
3D视觉学习知识星球
该平台是国内首个、拥有6000+用户的交流社区,致力于帮助3D视觉学习者快速成长。平台提供丰富多样的学习资源,包括:课程库(近20门课程,总价值超6000元)、项目对接、技术路线总结、顶会论文与代码、最新模组、优质源码、专业书籍、编程基础与工具、实战项目与作业、求职招聘与面经等。欢迎加入,共同进步。

▲长按扫码加入星球
3D视觉课程官网:www.3dcver.com
三维几何建模技术、神经光线 Fields、结构光技术、相位偏移技术、机械臂抓取技术、点云实战技术、Open3D框架、缺陷检测技术、BEV感知技术、occupancy mapping技术、Transformer网络、模型部署技术、三维目标检测技术、深度估计技术、多传感器标定技术、规划与控制技术、无人机仿真技术、三维视觉C++代码、三维视觉Python代码、dToF技术、相机标定技术、ROS2平台、机器人控制规划技术、LeGo-LAOM算法、多模态融合SLAM技术、LOAM-SLAM算法、室内与室外SLAM技术、VINS-Fusion算法、ORB-SLAM3算法、MVSNet三维重建技术、colmap工具、线面结构光技术、硬件结构光扫描仪设备

▲长按扫码学习3D视觉精品课程
