《Self-Supervised Monocular Scene Flow Estimation》论文笔记

阅读量：

1. 概述

介绍：这篇文章介绍了一种自监督单目相机场景流和深度估计方法，单目场景流是需要在单目视频序列中估计出像素的3D空间移动信息，而且在没有标注的情况下完成该任务，因而其需要克服更多的困难。这篇文章的方法是在PWC-Net的基础上进行创新改进而来的，在预测过程中该方法中将3D场景流和深度估计任务组合起来，并在构建的cost-volume上进行解码预测。对于单目的视觉任务是会存在场景scale不准确、目标遮挡等情况的，对此文章引入了双目图像用于解决单目中存在的scale不准确问题，并通过光流映射采用启发式的遮挡掩膜提取机制解决遮挡的问题。在自监督的单目深度估计中一个比较头疼的问题便是场景中的运动物体，这篇文章将单目深度估计和3D场景流组合起来可看作是对该场景的一种解决思路（文章：Unsupervised Monocular Depth Learning in Dynamic Scenes也是一种类似的解决办法）。

在这篇文章中将单目深度估计与3D场景流组合起来进行预测，并将这两个任务互为补充构建约束表达用于监督。通过双目图像对、光流遮挡掩膜计算、3D空间点约束有效处理自监督过程中存在的问题（如scale问题），文章算法的预测效果见下图所示：
在这里插入图片描述

2. 方法设计

2.1 pipeline

文章方法的整体pipeline见下图所示：
在这里插入图片描述
文章的方法的主体架构是来自于双目匹配网络PWC-Net的，不同点是同时估计3D场景流和单目深度信息，并且其中的场景流不是估计的残差而是在每个level都估计完整场景流。另外一个不同点是采用自监督的形式进行约束，因而有了最下面的warp分支。

对于文章的方法为何要将scene flow和depth联合估计，以及共同使用一个解码器去预测，这里直接给出实测的性能比较以进行说明：
在这里插入图片描述

2.2 单目深度估计

在文章的任务中需要估计参考图像 $I_t$ 中像素点 $p=(p_x,p_y)$ 的3D坐标点 $P=(P_x,P_y,P_z)$ ，和该3D点到目标图像 $I_{t+1}$ 对应像素3D点 $P^{'}=(P^{'}_x,P^{'}_y,P^{'}_z)$ 的场景流 $s=(s_x,s_y,s_z)$ 。也就是下图中描绘的对应关系：
在这里插入图片描述
要准确估计场景流 $s=(s_x,s_y,s_z)$ 就需要产生运动变化的3D点准确，但是在单目场景下深度是存在scale上的不确定性，也就是下图中展示的情况（一个3D点其对应的真实深度值是存在多个解的）：

那么怎么去处理这个深度估计scale上的不确定性呢？一个有效的办法便是使用双目系统，在给定相机焦距 $f_{focal}$ ，基线距离为 $b$ ，那么对应的深度就可以描述为： $\hat{d}=\frac{f_{focal}\cdot b}{d}$ ，这样就可以解决scale带来的不确定性问题。

PS： 这里需要注意的是上述提到的双目图像中参与深度估计与3D场景流估计的图像均为双目系统的左视图，右视图主要用于实现对scale的约束和生成遮挡掩膜。而且上述使用双目的过程是在训练的阶段 （也就是在训练过程中右视图用于训练引导），而在测试阶段还是使用的单目视频序列 进行预测。

对于这篇文章方法训练所需的数据是连续的双目视频帧 $\{I_t^l,I_{t+1}^l,I_t^r,I_{t+1}^r\}$ 。在深度估计任务中会使用帧 $\{I_t^l,I_{t+1}^l\}$ 分别估计对应的视差图 $\{d_t^l,d_{t+1}^l\}$ ，以及这两帧图像按照顺序排列不同得到的3D场景流 $\{s_{fw}^l,s_{bw}^l\}$ 。

对于深度估计任务其采用约束是光度一致性，这一点与传统意义上的自监督单目深度估计类似。只不过这里光度一致性是建立在双目系统之上的，通过给定的双目相机标定参数和左视图估计出的视差 $d_t^l$ 将右视图 $I_t^l$ （ $t+1$ 时刻同理，这里只讲 $t$ 时刻）变换到左视图得到左视图的重建结果 $\hat{I}_t^{l,d}$ 。那么就可以在这个重建视图和原视图上进行光度一致性约束：
$\rho(a,b)=\alpha\frac{1-SSIM(a,b)}{2}+(1-\alpha)||a-b||_1$
其中， $\alpha=0.85$ 。但是这里又一个问题需要去解决那就是遮挡的问题，在MonoDepth2中是通过选取最小光度重构误差方式进行处理。而这篇文章中采用的是估计右视图的视差 $d_t^r$ ，之后进行前向映射判断映射之后的值是否满足判定条件来判定是否为遮挡区域（因为遮挡区域映射不过去嘛），这样就可以得到遮挡掩膜 $O_t^{l,disp}\in\{0,1\}$ （其中0代表未遮挡）。其实现代码可以参考该函数：

复制代码

    # losses.py#L85
    def _adaptive_disocc_detection_disp(disp):
    
    # # init
    b, _, h, w, = disp.size()
    mask = torch.ones(b, 1, h, w, dtype=disp.dtype, device=disp.device).float().requires_grad_(False)
    flow = torch.zeros(b, 2, h, w, dtype=disp.dtype, device=disp.device).float().requires_grad_(False)
    flow[:, 0:1, :, : ] = disp * w
    flow = flow.transpose(1, 2).transpose(2, 3)
    
    disocc = torch.clamp(forward_warp()(mask, flow), 0, 1) 
    disocc_map = (disocc > 0.5)
    
    if disocc_map.float().sum() < (b * h * w / 2):
        disocc_map = torch.ones(b, 1, h, w, dtype=torch.bool, device=disp.device).requires_grad_(False)
        
    return disocc_map

那么对于光对一致性的约束添加了遮挡mask之后就可以描述为：
$L_{d\_ph}=\frac{\sum_p(1-O_t^{l,disp}(p))\cdot\rho(I_t^l(p),\hat{I}_t^{l,d}(p))}{\sum_q(1-O_t^{l,disp}(q))}$
此外，对于视差估计的结果也一样添加了平滑约束，不过这里的平滑约束是二阶的形式：
$L_{d\_sm}=\frac{1}{N}\sum_p\sum_{i\in\{x,y\}}|\nabla_i^2d_t^l(p)|\cdot e^{-\beta||\nabla_iI_t^l(p)||_1}$
那么，整体上对于深度估计部分的损失函数描述为：
$L_d=L_{d_ph}+\lambda_{d\_sm}L_{d\_sm}$
其中， $\lambda_{d\_sm}=0.1$ 。

2.3 场景流估计

对于给定的两张不同时刻的左视图 $\{I_t^l,I_{t+1}^l\}$ ，估计出来的前向和后向光流信息 $\{s_{fw}^l,I_{bw}^l\}$ ，估计出的左视图视差 $\{d_t^l,d_{t+1}^l\}$ 。那么在给定 $\{I_{t+1}^l,d_t^l,I_{fw}^l\}$ 的情况下可以重建出 $\hat{I}_t^{l,sf}$ 。那么这个重建的过程可以通过光度重构误差的形式进行约束，也就是下面所示的形式：
$L_{sf\_ph}=\frac{\sum_p(1-O_t^{l,sf}(p))\cdot\rho(I_t^l(p),\hat{I}_t^{l,sf}(p))}{\sum_q(1-O_t^{l,sf}(q))}$
其中，遮挡部分描述掩膜 $O_t^{l,sf}$ 是通过光流 $s_{bw}^l$ 反向映射得到的。除了上述提到的光度重构误差以外，文章还在3D空间对光流和视差估计进行约束，其中对于图像 $I_t^l$ 中的点 $p$ 到图像 $I_{t+1}^l$ 中的一点 $p^{'}$ 的映射关系可以描述为（ $K$ 为内参矩阵）：
$p^{'}=K(\hat{d}_t^l\cdot K^{-1}p+s_{fw}^l(p))$
既然有了这样的关系，结合上述内容中的场景流、视差图就可以通过2D到3D的变换在3D空间维度进行约束，则其在3D空间的约束被描述为：
$L_{sf\_pt}=\frac{\sum_p(1-O_t^{l,sf}(p))\cdot||P_t^{'}-P_{t+1}^{'}||_2}{\sum_q(1-O_t^{l,sf}(q))}$
其中，分别来自图 $\{I_t^l,I_{t+1}^l\}$ 的3D点计算为：
$P_t^{'}=\hat{d}_t^l(p)\cdot K^{-1}p+s_{fw}^l(p)$
$P_{t+1}^{'}=\hat{d}_{t+1}^l(p^{'})\cdot K^{-1}p^{'}$
对于3D空间的约束其实可以使用下图的场景进行描述，目的就是通过3D空间的约束使得视差和场景流估计更加准确。
在这里插入图片描述
同样的也需要对场景流进行平滑约束：
$L_{sf\_sm}=\frac{1}{N}\sum_p\sum_{i\in\{x,y\}}|\nabla_i^2s_{fw}^l(p)|\cdot e^{-\beta||\nabla_iI_t^l(p)||_1}$
那么，场景流部分的整体损失函数描述为：
$L_{sf}=L_{sf\_ph}+\lambda_{sf\_pt}L_{sf\_pt}+\lambda_{sf\_sm}L_{sf\_sm}$
其中， $\lambda_{sf\_pt}=0.2,\lambda_{sf\_sm}=200$ 。则总结上文文章的全部损失函数为：
$L_{total}=L_d+\lambda_{sf}L_{sf}$

上述提到的遮挡检测和3D点约束对性能的影响见下表：
在这里插入图片描述

2.4 数据增广与Cam-Conv

在这篇文章中采用的数据增广包含：random scales、cropping、resizing、horizontal image flip。同时为了避免数据增广之后相机内参改变对深度估计性能带来影响，这里引入Cam-Conv替换原有卷积网络。并将这两个变量消融实验得到下表：
在这里插入图片描述
结合上表可以看到Cam-Conv和scene flow任务是存在一定的冲突的。

3. 实验结果

全部评论 (0)

还没有任何评论哟~

《Self-Supervised Monocular Scene Flow Estimation》论文笔记

参考代码：selfmonosf 1\.概述介绍：这篇文章介绍了一种自监督单目相机场景流和深度估计方法，单目场景流是需要在单目视频序列中估计出像素的3D空间移动信息，而且在没有标注的情况下完成该任务，...

《Revisiting Self-Supervised Monocular Depth Estimation》论文笔记

参考代码：rmd 1\.概述介绍：回顾前几年的一些自监督型深度估计算法，它们都是从不同的角度对自监督深度估计方法进行改进。总结这些算法中对自监督深度估计的改进idea，发现这些算法有的是为了解决场景...

Frequency-Aware Self-Supervised Monocular Depth Estimation——论文笔记

参考代码：freqawaredepth 1\.概述介绍：在自监督深度估计算法中采用光度重构误差作为约束函数，但是这个约束函数却是存在不足的，也就是损失的大小在某些区域不能真实反应深度预测的误差大小，...

《MonoDepth2：Digging Into Self-Supervised Monocular Depth Estimation》论文笔记

参考代码：monodepth2 1\.概述导读：由于图片的准确深度信息获取的代价是比较大的，因而使用带有标注的数据去训练会存在较大的成本。因此近来自监督的方法吸引了较多研究者的注意，本篇文章研究的是...

《HR-Depth：High Resolution Self-Supervised Monocular Depth Estimation》论文笔记

参考代码：HRDepth 1\.概述介绍：这篇文章研究的是如何在自监督场景下预测得到细节更加丰富的深度结果，在现有的自监督深度估计网络中往往是通过增大输入图像尺寸、3D卷积（如，PackNetSFM...

《PackNet：3D Packing for Self-Supervised Monocular Depth Estimation》论文笔记

参考代码：packnetsfm 1\.概述导读：这篇文章提出了一种自监督的深度估计方法，其使用视频序列与运动信息作为输入，用网络去估计深度信息/相机位姿，并用最小重构误差去约束整个训练的过程从而实现...

《MonoIndoor：Towards Good Practice of Self-Supervised Monocular Depth Estimation...》论文笔记

参考代码：[None] 1\.概述介绍：经典的自监督深度估计方法已经在KITTI数据集上取得了较为不错的效果，但是在一些室内或是相机能够自由移动（KITTI场景下相机固定在车上）的场景下，现有的经典...

Just Go with the Flow: Self-Supervised Scene Flow Estimation[CVPR2020 Oral]

[[论文链接]]https://arxiv.org/abs/1912.00497 \qquad现有的估计场景流的方法都需要有标注的场景流数据去使用监督的方法训练网络。

SC-DepthV3：Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes——论文笔记

参考代码：scdepthpl 1\.概述介绍：基于运动恢复的自监督深度估计算法中会假设所处的场景是静止的，但是实际中这样的假设是不现实的，因而运动的物体和遮挡就会违反之前的场景先验假设，从而导致对应...

论文笔记-Self-Supervised Monocular Depth Hints

论文信息论文标题：SelfSupervisedMonocularDepthHints 论文作者：JamieWatson,MichaelFirman,GabrielJ.Brostow,DaniyarT...

是否确定退出登录?

《Self-Supervised Monocular Scene Flow Estimation》论文笔记

1. 概述

2. 方法设计

2.1 pipeline

2.2 单目深度估计

2.3 场景流估计

2.4 数据增广与Cam-Conv

3. 实验结果

全部评论 (0)

相关文章推荐

《Self-Supervised Monocular Scene Flow Estimation》论文笔记

《Revisiting Self-Supervised Monocular Depth Estimation》论文笔记

Frequency-Aware Self-Supervised Monocular Depth Estimation——论文笔记

《MonoDepth2：Digging Into Self-Supervised Monocular Depth Estimation》论文笔记

《HR-Depth：High Resolution Self-Supervised Monocular Depth Estimation》论文笔记

《PackNet：3D Packing for Self-Supervised Monocular Depth Estimation》论文笔记

《MonoIndoor：Towards Good Practice of Self-Supervised Monocular Depth Estimation...》论文笔记

Just Go with the Flow: Self-Supervised Scene Flow Estimation[CVPR2020 Oral]

SC-DepthV3：Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes——论文笔记

论文笔记-Self-Supervised Monocular Depth Hints