twice论文-深度估计-Don’t Forget The Past: Recurrent Depth Estimation from Monocular Video
这篇论文大致阅读后感觉不错。其中作者引入了一个LSTM层,并成功实现了序列数据处理的能力,在实验中验证了该方法的有效性
0 摘要:
换句话说,在自动驾驶等场景中,持续更新深度信息是必要的。然而目前所获得的深度数据仅限于独立帧,在视频中的每一帧与其他帧之间基本上是相互独立的。因此我们需要建立一种能够使视频帧之间关联起来的方法——即基于时间序列的一系列深度图。此外我们将三种不同的深度估计方法整合进一个统一框架中然后将该框架与卷积LSTM网络相结合从而能够生成具有时空特性的时间序列深度估计结果。The method is versatile, as it can effectively integrate various depth estimation techniques.
1 介绍
2 相关工作
重点讲述了监督学习框架下的深度估计技术及其应用,并结合自监督学习方法弥补传统传感器数据不足的问题。此外,在研究领域中还涉及了基于视频序列的深度感知技术。值得注意的是,在本研究中我们主要关注的是基于视频序列的分析。
3.方法
3.1 监督学习的深度估计
3.2自我监督的深度估计
3.3深度补全
3.4本文学习时间序列的深度图
简单来说,在这三种方法都进行了详尽研究的前提下,在同一时间段内的每一帧都是各自独立且没有相互关联。自我监督的方法仅限于使用相邻帧在训练阶段来计算视图合成损失;然而这些关键的时间序列结构并未被充分挖掘出来。因此本节将提出一种框架以扩展上述三种方法使其能够在训练与测试过程中应用基于时间的数据序列
我们把深度恢复问题归类为从多模态数据(包括图像与稀疏深度图)的时间序列到数据(如稠密深度图)的时间序列的归一化处理问题;该方法基于自我监督学习框架进行优化,并在此基础上提出了一种改进方案。本研究关注当前时刻生成的密集度分布图。

,给定之前k个时候的密集深度图

(

),当前时刻图像的编码特征

,则

(我不知道这个为什么求最小,理解错了吗)
前述我们通过增加空间-时间相关性,在实现过程中对空间-时间关系进行建模。我们采用了ConvLSTM网络作为核心组件,并在图像深度预测中添加了前述的核心组件。其应用位置是在编码器之后的位置。编码器能够生成相应的特征表示。

,然后ConvLSTM的输入和输出入下:

解码器,生成深度图:

4 训练框架
网络架构
该系统整体架构由深度预测模块与姿态估计子网络共同构成。其中两个编码器均采用了独立的ResNet-18结构,在解码阶段的设计中,并行地采用了四个上采样卷积模块。其工作流程如下:编码器输出经由ConvLSTM处理后传递至下一时间步,在此过程中通过接收前后帧之间的隐藏状态信息以及细胞状态来完成。随后系统会从各个解码模块中提取不同分辨率的空间位差信息。而姿态分支则由单层卷积(分别为1x1和3x3)组合而成,在这一过程中能够准确地捕捉物体的姿态变化特征,并将这些特征转化为六元素向量表示。这些向量不仅包含了旋转参数的信息还包含了平移参数的信息即所谓的外参参数。为了能够准确恢复物体的空间结构信息因此必须利用这些外参参数来进行计算
ConvLSTM的一些训练的策略
包括隐藏状态的初始化,解决过拟合的问题。
5 实验
5.1 分别和监督,自监督和补全的baseline进行比较分析
5.2 消融研究
预训练的隐藏状态和初始为0的隐藏状态的比较
激活函数使用ELU来代替Tanh去解决梯度消失的问题
训练的序列长度的问题
6 结论
该论文提出了一种新的基于时间序列深度图的方法用于单目视频与稀疏深度估计,并通过循环网络结构实现了时空数据相关性的建模。该网络模型在监督式深度估计、自监督式深度估计以及填补缺失数据等方面均得到了实际应用。
有错误,继续改进
