SC-DepthV3:Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes——论文笔记
该研究提出了一种基于伪深度的自监督深度估计方法,在处理运动场景中的物体运动和遮挡问题时表现出色。文章指出传统自监督方法在假设场景静态的情况下存在局限性,在动态环境中预测异常现象较多。为此,作者提出通过引入伪深度作为引导信息,并结合光度重构误差加权掩膜、结构排序损失等改进措施来提升深度估计精度。具体而言,在动态区域细化(DDR)阶段利用伪深度约束并结合全局随机采样策略优化运动目标的深度预测;在局部结构细化(LSR)阶段通过边缘处采样策略进一步优化深度边缘表达。实验结果表明,在数据集DDAD上该方法显著提升了预测性能,并且对比分析表明其对不同场景具有较好的通用适用性。
参考代码:sc_depth_pl
1. 概述
介绍部分
比较文章输出的结果与自监督深度估计方法的输出,并通过图示进行说明。

通过图直观呈现的方法输出结果明显优于其他方案,并且细节描述更为丰富。需要注意的是,在引入伪深度(pseudo-depth)这一技术后才能获得显著提升。与此同时,在实际应用中需借助数据对深度估计模型进行训练,在实际运行过程中会遇到一些常见问题。总体而言,在大多数应用场景下此方法表现良好。
2. 方法设计
2.1 方法设计
文章的方法见下图所示:

通过图可以观察到,在基于自监督的方法上增加了伪深度约束(DRR和LSR)。在自监督框架中处理运动情况时采用了基于版本V1至V2的深度一致性假设。设当前帧和前一帧的预测深度图分别表示为D_a和D_b,则利用估计出的pose信息进行变换后两者的神对差异应较为接近。因此可以建立如下的约束损失函数:
L_G=\frac{1}{|V|}\sum_{p\in V}D_{diff}(p)
在此基础上通过利用深度一致性原理来加权计算光度重构误差部分的损失。其得到的权重掩膜定义为:
M_s=1-D_{diff}
该掩膜将被用于后续场景中的运动目标掩膜计算过程。
2.2 Dynamic Region Refinement(DDR)
对该方法基于深度一致性的光度重构误差计算获得了加权掩膜;从而该掩膜反映了场景中的运动目标;即权重越小表示移动目标的可能性越大;在此研究中选择上述权重中最20%最小的像素来构建运动物体M_{move\_object}。
该研究采用了基于structure-ranking loss的方法进行运动目标深度估计,并根据具体场景需求选择了相应的采样策略以提高估计精度。该文表明,在M_{move\_object}中成像的像素会选择具有相似特征的像素进行配准,并且在整体图像建模过程中还引入了全局随机采样的方法作为进一步约束条件以优化结果质量。
文章采用了pseudo-depth这一指标作为引导工具,在深度值存在显著差异的情况下其可靠性较高(文中得出的相关结论),而那些接近分布的采样点其可靠性则较低。为此建议在计算配对项时忽略那些被判断为近似匹配的配对项(这里设定\tau=0.15以增强对比度):
\phi(p_0,p_1)=\log(1+\exp(-\mathcal{l}(p_0-p_1)))
因此这一部分的深度相似性损失值计算如下:
L_{CDR}=\frac{1}{|\Omega|}\sum_{p\in\Omega}\phi(p)
与现有采样方法相比本文提出的新方案带来了相应的性能改进。

2.3 Local Structure Refinement(LSR)
为提升深度边缘处的表达效果,在现有方法的基础上进一步优化,并借鉴structure ranking loss方法中的采样策略,在深度边缘区域中选取pair图像点,并提取这些点处的表面法线向量n的基础上建立约束关系:
L_{ERN}=\frac{1}{N}\sum_{i=1}^N||n_{A_i}\cdot n_{B_i}-n_{A_i}^{*}\cdot n_{B_i}^{*}||_1
对比实验结果表明:

3. 实验结果
DDAD数据集上的性能表现:

在pesudo-depth与添加自监督深度估计耦合之后带来的性能变化:

