Advertisement

UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos论文解读

阅读量:

UnOS: 综合无监督的光学流与立体深度估计方法(基于论文的)解读(个人理解)。

摘要

本文提出了一种UNOS框架。该框架基于光流和深度在刚性场景假设下的内在几何一致性,并由基于无监督学习的卷积神经网络(CNN)对光流和深度进行联合训练。它基于视频中连续的图像对,并由UNOS内部设置的三个并行网络:立体网络(Stere Net)、运动网络(Motion Net)和光流网络(Flow Net),分别用于估计深度图、相机自运动量和光流。利用计算出相机自运动量与深度图之间的关系得到刚性光流,并将此结果与Flow Net估计出的结果进行对比后,在刚性场景下获得满足条件的像素位置。为了增强刚性区域内的光流动与刚性光流动之间的几何一致性,并在此基础上导出了一个具有抗刚性的直接视觉_odometry模块(RDVO)。当然,在UNOS的学习过程中也考虑了物体间的遮挡感知以及流动一致性的因素。

介绍:

复制代码
    本文主要是由无监督的方法来联合学习光流和深度,通过它们之间的几何一致性来训练参数。而许多其他的论文都是分开学习和训练光流和深度的。UNOS的大体结构框架如下图所示:
在这里插入图片描述

在训练阶段中,系统会从视频序列中捕获连续两个图像对组Ls, Rs以及Lt, Rt. UNOS系统将基于Motion Net 、Stereo Net和Flow Net推导出深度图Dt, 相机自运动Tt_s以及光流Ft_s.随后, RDVO算法将在Motion Net之后运行,以进一步优化并更新相机自运动Tt_s参数;接着利用深度图Dt与RDVO更新后的Tt_s参数计算刚性流.值得注意的是,此时所得刚性流仅来源于相机自运动的影响.为实现对该刚性流与之前由Flow Net估计的光流Ft_s的有效对比与整合,系统将生成一个刚性掩模M(即在此掩模区域内消除非刚性影响).每个网络除了独立承担其对应的损失函数外,还通过约束网络实现了刚性区域内的信息一致性传播机制.

方法简介

1.自我监督
(1)找到相应的像素
对于目标图像中的像素Pt可以通过下面3个公式来实现:

在这里插入图片描述

Prs是通过目标图像的像素进行映射得到的结果。Pfs则是由目标像素加上光流计算而来;由于目标图像与源图像之间的差异即为光流的存在。f_B/Dt(Pt)代表的是水平方向上的视差量。在这一过程中,f_B/Dt(Pt)的具体值可以通过右图减去视差所得出,这表明在同一水平方向上左右视图之间存在显著的视差差异。基于上述三个公式,我们能够利用网络估计出的一些关键参数(如姿态、深度及光流等)与图片1上的像素信息共同推导出图片2上的对应像素值。为了验证由图片1计算所得图片2的真实度,我们通常会将真实图片2与计算结果进行对比分析,期望两者的差异尽可能趋近于零以确保计算结果的有效性。这个差异最小化的过程可以用以下公式来表示:

在这里插入图片描述

局部感性软掩模即为该区域内所有像素均满足刚性场景假设的情形。此外亦即之前所提及的掩模M。其计算公式如次所示:其中M = R_t(P_t).

在这里插入图片描述

在 RDVO 框架下。最初已经实现了 Dt、基于光流模型得到的 Ft_s 以及基于 Motion Net 估计出的相机自身运动参数 T_t,s。作者希望通过 RDVO 来引入一种相关的方法对相机自身的运动参数 T_t,s 进行更新细化。其中计算可通过(1)式来进行:

在这里插入图片描述

在pt中采用齐次坐标表示h(t);当进行RDVO处理后相机自身运动完成更新变为\hat{R}_{c}(t),\hat{t}_{c}(t)。随后利用经过RDVO更新后的相机自身运动信息来计算Prs,并将上述结果代入以下公式:

在这里插入图片描述

通过持续不断地更新训练连接,在完成所有迭代后能够生成一个用于区分静态背景与运动物体区域的刚性分割掩模阈值。
RDVO的主要作用体现在:首先更新相机参数(即pose),随后将这些参数反馈回去重新计算Pfs值;继而重新计算R(t)以确定该阈值。
3.损失函数
为了提高两张图片之间相似度的检测能力,并确保网络能够更好地进行训练,在像素匹配过程中采用了以下损失函数。

在这里插入图片描述

对于监督深度,在时间维度上,L t 是来自前一帧(Pss),而空间维度上的特征Vs则通过视差方法进行计算得出。在光流监督任务中,L t源自预测框架中的前向分支(Pfs),而Vf则基于反向光流Fs_t进行计算以获得运动信息;为了实现对连续图像序列中关键点对的实时跟踪能力,L^*t来源于Prs(在RDVO之前),其中Vr代表的是刚性且无遮挡区域;该区域内的特征表示可以通过Prs在RDVO之前的特性确定

在这里插入图片描述

用来分别代表不同的视图合成的Loss.
边缘感知局部Loss是:

在这里插入图片描述

通过深度被用来表示;通过光流也被用来表示。
在RDVO更新得到相机自身的运动参数(pose)之后,在满足刚性场景假设的基础上计算得到的结果具有统一性和一致性;其对应的损失函数L为:

在这里插入图片描述

最后再加入左右一致性,加上前面的这些Loss,那么整个UNOS的Loss为:

在这里插入图片描述

其中,
\text{Lfv} 代表光流在像素级上的匹配损失,
\text{Lfs} 代表光流在边缘感知局部区域上的损失。
相机自运动状态下,
\text{Lrv} 是在 RDVO 之前阶段进行刚性流动中的 pixels 匹配所对应的损失,
而 RDVO 之后阶段则用于计算刚性流动中的 pixels 匹配对应的 Loss。
同样地,
\text{Lsv} \text{Lss} 分别代表深度估计过程中,在 pixels 级别和 edges 感知局部区域上所造成的误差,
\text{Lsc} 则反映左右一致性约束下的误差程度。
此外,
\text{Lfc} 则用于衡量基于 RDVO 更新后的相机参数反向推导所得出 的 刚性流动与原始 光 流之间的一致性程度。

总结

这篇论文的主要创新点在于采用改进型深度回归视觉官能(RDVO)技术将相机自运动、深度信息与光流估计融合在一起进行模型优化。整个优化过程分为三个连续的训练阶段:首先单独对Flow Net进行光流估计以获得基础特征;随后分别对Motion Net和Stereo Net进行网络参数优化以提升空间位姿信息提取能力;在完成前两步的基础之上,在第三个阶段引入RDVO技术实现三者信息的有效融合与协同优化。

就这篇文章而言,它首先使用了Motion Net来估计相机自身的运动参数,并通过 Motion Net进一步得到了深度图。随后利用 RDVO 对相机运动进行细化和更新。接着将细化后的结果与相机运动和深度信息结合计算出刚性流。最后,在刚性掩模框架内使光流场与刚性流场相等。当然,这只是一个重要的约束条件。

全部评论 (0)

还没有任何评论哟~