Advertisement

论文笔记-深度估计(6)-Unsupervised Learning of Depth and Ego-Motion from Video

阅读量:

CVPR2017: An Unsupervised Learning Technique for Scene Depth Estimation and Self-Motion Analysis. This paper reconstructs scene depth and camera pose from a single video sequence, leveraging advanced unsupervised learning techniques to analyze motion dynamics within the visual data.

他被认为是首个在视频中推导 camera pose 的深度学习方案。
该研究采用了两个网络结构(实际上涉及三个网络)来独立地推导单帧深度信息。
这两个网络分别实现了无监督条件下单独的深度和 camera pose 估计。
最终所得结果达到了当前最先进的水平。
其精度表现与ORB-SLAM2...相当。

这里写图片描述

Q1: pose估计是采用什么方法实现的?
A1: Given the depth of the current frame and its poses transformed within a video sequence, I understand that each pixel can be mapped onto other frames. By minimizing the photometric error between corresponding positions, it is possible to determine these poses.

这里写图片描述

Q2:如何获得先验深度预测?
A2:本研究采用深度与姿态联合学习的方法。假设我们分别对深度(depth)和姿态(pose)初始化了初始值,并在此基础上设计了一种协同优化框架。通过同时优化整个网络结构中的各个参数块(block),我们成功实现了深度估计与姿态估计两个目标。尽管如此,在实验中我们确实成功分离出了这两个子任务,并各自形成了完整的模型架构:一个是专门用于深度估计(depth model),另一个则是用于姿态估计(pose model)。

1.简介

所谓无监督学习(Unsupervised Learning),其核心思想是通过相邻的图像帧进行视图合成(View Synthesis)。具体而言,在一个视频序列中,对于某一特定的目标框架I_t来说,在该序列的所有其他剩余框架中提取对应的像素位置信息,并将其映射到该目标框架I_t上。

基于无监督学习的深度估计网络借鉴了DispNet的设计架构,在这种框架下输入为单帧图像It,并输出相应的深度图。值得注意的是,在恢复过程中需要考虑姿态网络所提供的姿态信息。作者通过融合多帧图像信息来进行深度估计(与该论文的方法一致),但实验结果表明这种方法并未带来精度上的提升。

该网络用于估计其输入包括一张目标图片及其周围的多帧图像序列Is(s=t-1,t+1,t-2,t+2,…),并输出该目标相对于各相关帧的姿态信息(包含欧拉角与平移参数等6个自由度)。

基于前面所述的深度信息和姿态数据,将定义在It上的图像块映射至Is,并通过卷积神经网络优化It与Is之间的总光度差值,从而确定最终的姿态参数。

2.价值函数

在视频序列中对单个帧进行深度估计时,在框架中采用基于SLAM直接法的方式进行处理,并以获取帧A与帧B之间的像素灰度差异作为依据。

这里写图片描述

并对映射后的点进行双线性插值来获取灰度值。

基于光度一致性假设的前提条件:即图像内无物体运动;无遮挡现象;且反射为漫反射(diffuse)。

为了消除这种潜在的问题

该架构模仿姿态估计器网络(如图1所示),并借鉴了其中前四层的设计思路

这里写图片描述

为了防止Es最终趋于0而不被优化成功,我们在模型中引入了一个Softmax交叉熵形式的正则项L_{reg}

为了输出深度或视差在图像分布中达到平滑状态(不论是深度还是视差),特别针对低纹理区域或估计值与真实值差距过大的情况提出解决方案。大家通常会有两种思路:一种是通过传播周围的梯度信息来优化当前像素;另一种则是借鉴基于表征平滑性的正则化方法。本文受到SfmNet研究的启发,在这两种方案中选择了后者。研究者采用深度图二阶梯度L1范数作为平滑性指标。

所以最终的代价函数:

这里写图片描述

3.网络实现

深度模型如图所示:每一层均采用了批归一化和ReLU激活函数。采用Adam优化器进行训练。最终的网络架构设计见附图:

这里写图片描述

4.试验结果

最后结果如图:

这里写图片描述

从图中可以看出,在实验对比中, 该网络的表现略逊于 Godard 的 左右一致性检查一文 中的方法. 据作者所述, 这种差距的原因可能源于以下几点: 首先, 在 Godard 的理论基础中, 其左右一致性的定义是基于已知两帧之间的姿态估计; 相比之下, 在当前的研究中,默认假设深度预测依赖于姿态估计中的误差.

值得我们去考虑的是:该方法的深度处于一个中间状态,并且其主要用途是用于姿态估计(pose estimation)。此外,在测试集中的大部分图像都是静态的,并未包含明显的遮挡现象(遮挡现象通常在短时间内消失),然而我们发现该解释网络在预测动态部分方面表现得非常出色。作者进一步指出,在当前研究的基础上还需要从以下几个方面进行改进:

  • 未考虑到实际环境中的物体可能发生运动以及被遮挡的情况。
  • 当然地讲, 作者建议可以借鉴运动分割技术的相关成果, 同时这也是上次组会导师所提出的参考方向。
  • 目前仍需内参已知。
  • 如果利用大量可获取的视频数据来进行估计(但前提是已知内参)?
  • 采用更为先进的深度预测方法(这确实也是姿态估计中的关键问题之一。拥有更精确的三维点位能够显著减少重投影误差),例如采用体素分割技术。

全部评论 (0)

还没有任何评论哟~