Advertisement

论文笔记-深度估计(4) Semi-Supervised Deep Learning for Monocular Depth Map Prediction

阅读量:

CVPR2017_Semi-Supervised Deep Learning for Monocular Depth Map Prediction

这是一篇用双目进行无监督学习估计深度的论文。

利用有 supervision 方法对图像进行深度估计时,受限于采集设备的限制,在图像中并非每个像素都能获得对应的真实值。随后作者建议,在图像具有真实值的位置实施 监督 学习策略,对于其余没有真实 值 的位置,则采用 无 监督 学习方法。经过实验验证,在整体上采用全图 无 监督 学习策略并结合局部区域的 监督 方法取得了最佳效果。这种结合方式,从而使得 无 监督 学习阶段的问题得以较为轻松地解决,并无需设计复杂的价值函数以避免陷入局部最优解;同时显著提升了有 监督 阶段的学习效率

最后作者达到了state of art的效果。

1.介绍

在当前有监督学习的过程中,作者强调该方法过度地依仗真实值作为支撑点,并指出这种做法可能隐藏着潜在的问题

  • 存在测量误差以及噪声干扰;
    • 用于真值采集的雷达等测得的数据点极为稀疏;
    • 需要准确确定图像系统的内外参数配置。
    • 由于相机与雷达未能精确对齐,并且两者的中心定位不够精确,在这种情况下原本位于相机视角之外的真实数据也会被投影到图像中。

2.价值函数

整体流程如图:

这里写图片描述

相较于以往研究,在本研究中作者以估计逆深度作为目标进行建模。由于深度值呈现从近到远递减的长尾特征,在模型中采用逆深度的方式能够更有效地反映深度信息的特性。

这里写图片描述

有时会引发思考的是,在双目视觉系统与深度感知技术之间长期表现出高度的相关性。研究者们在探索如何通过深度估计来构建基于双目视觉系统的能量函数形式E = E_{data} + E_{smooth}

2.1有监督误差

这里写图片描述

作者采用了类似于Huber的一种损失函数来处理深度估计问题中的异常值影响。已知Huber损失函数用于缓解异常值对方程求解的影响,在传统方法中当单个异常值与模型拟合过于偏离时(即残差过大),其损失就会从基于L2范数转换为基于L1范数的方式进行处理。而在本研究中采用该方法的主要原因是其能够迅速抑制较大的深度残差。

这里写图片描述

其中\delta大小为所有“真值-误差”对中差异最大值的0.2倍。

2.2无监督深度误差

这里写图片描述

作者首先对图像实施高斯平滑以去除噪声,在双目系统内参数已知的前提下

2.3 正则项

作者借鉴了文章[1]中所提出的正则化方法,并通过该方法实现了对深度变化的平滑处理;同时该正则化项能够有效维持物体边界深度的不连续性

这里写图片描述

该作者对于每个像素分别在x轴和y轴上计算其对应的梯度值。值得注意的是,在物体边缘处的梯度通常会发生不连续变化。因此,在遇到边缘时(即梯度过大)权重函数会迅速下降(从而不会强行降低边缘上的梯度)。其中部分1代表权重系数而部分2则表示深度图像的空间变化程度。在缺乏真实标签信息且纹理特征较为模糊的区域中,深度估计问题属于欠定问题。通过引入适当的正则化技术,在这一类特殊场景下仍能够获得较为可靠的深度估计结果。

2.网络

这里写图片描述

作者采用现有的主流方法,并基于 encoder-sample 到 decoder-unsample 的架构进行设计。其中 decoder 模块基于 ImageNet 预训练的 ResetNet-50 模型构建,并未包含最终的全连接层。这是因为主要关注于特征提取而非分类任务。其中所有卷积层均采用了随机权重初始化策略。

随后的decoder据说比较复杂,其naive版本如下:

这里写图片描述

与现有的主流方案相似,在本研究中我们引入了一种跳过机制。这种机制的应用始于第二层及以上各层,在各层均采用了编码器中某一特定层级的信息进行融合处理。通过引入跳过机制,在实验结果中发现模型预测精度得到了明显提升,并且这一改进措施并未对系统的收敛性产生任何负面影响

实现细则

在实验中发现,在作者采用了完全随机的参数初始化策略后,在初始阶段预测值(即逆深度)会趋近于零,并且无监督损失函数也会趋近于零;然而有监督损失函数却会急剧增大。针对这一问题,在有监督损失项中引入了一个逐渐减小的fade-in因子be^{-10/t}来加以抑制;同时,在整个网络训练过程中还对其施加了加权衰减项weight decay=5e-4;此外,在训练过程中也需注意合理的应用Dropout技术以防止过拟合。

除了最后一层输出之外,在每层都采用了批归一化技术的基础上建立了神经网络结构。研究者采用RELU激活函数并进行了优化设计。相比之下,在所有像素上实施的无监督学习方案优于仅在缺失真实值区域实施的同类方法;相比于L2损失函数,在训练集上表现更为优异的是BerHu损失函数;然而,在测试集上的应用却出现了问题。值得注意的是,在测试集样本中存在较多的异常数据点(这些异常点相对于训练数据分布而言)。此外,在模型优化过程中采用了高斯模糊技术和长跳连接技术作为辅助手段以提升模型性能

最终表现如下:

这里写图片描述
这里写图片描述

从整体上讲,在性能上无监督与有监督的学习方法仍存在显著差异性。当前阶段而言,在无监督学习领域仍面临着诸多挑战与困境。然而就两者的特性而言各具特色:一种侧重于效率另一种则注重准确性两者相辅相成可能会产生更好的效果综合两者的优点可能会有更好的效果

全部评论 (0)

还没有任何评论哟~