Advertisement

论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation

阅读量:

论文信息

  • 标题:研究场景理解:基于无监督单眼深度估计的语义感知表示
  • 作者:Chen Po-Yi, Alexander H. Liu, Yen-Cheng Liu, Yu-Chiang Frank Wang
  • 机构:台湾国立大学、佐治亚理工学院、人工智能技术与All Vista医疗科技联合研究中心
  • 出处:CVPR 2019

代码链接

复制代码
* None

论文主要贡献

在现有的基于左右一致性无监督单目深度估计任务中可能存在问题。
所提出的SceneNet旨在整合几何结构信息与语义信息,并通过任务一致性、左右语义一致性及视差圆滑性提升深度预测性能。
全连接训练策略使模型能够在多源数据集中实现协同学习,并充分利用双目图像与对应语 识标签的数据对优化网络参数。

论文要点翻译

  • 摘要

    • 单目深度估计通过分析二维图像来推导三维空间中的几何属性,在计算机视觉领域具有重要研究意义。然而,在实际应用场景中往往难以获取充足的 RGB-深度数据对。
    • 传统的诸多方法在建模物体的几何结构方面存在局限性,并且在训练过程中多采用像素级别的目标函数。
    • 为了改进上述不足,我们提出了一种名为SceneNet的新方法。
    • 该模型通过结合语义分割算法提供的语义信息来辅助模型进行结构建模,并在此基础上实现了区域级的深度估计。
    • 实验结果表明该模型具有良好的有效性评价指标表现,并与现有的一些 SOTA 方法取得相似甚至更好的实验效果。
  • 引言

    • 在机器人与自动驾驶领域中,场景理解是一个很关键但也极具挑战性的任务.本文中的场景理解目标在于通过分析二维场景图像来推导三维几何结构信息
    • 前期的研究多是以监督学习的方式,将图像直接映射到深度图上.然而这些方法虽然有效,但也面临数据标注耗时耗力的问题
    • 许多研究尝试使用双目立体图像或视频序列来进行无监督的学习,以提高深度估计的效果
    • 大多数基于几何结构的传统方法依赖于重建场景来获取深度信息.值得注意的是,人类在感知时不仅会利用几何信息,还会考虑语义信息.例如:人们会认为"天空"对应的像素具有无限远的深度;同一分割区域内的像素点通常具有相似且相关的深度值
    • 基于上述直觉观察,研究者们开始探索语义分割与单目深度估计之间的相互促进关系.他们提出了一种利用成对深度图与分割图进行网络训练的方法
    • 然而,现有的双目视差预测模型往往仅依赖单张图像进行推断,导致在测试阶段忽略了另一张图像中的结构性信息.为此我们提出了一种名为SceneNet的新框架
    • 实验结果表明,所提出的SceneNet采用特定训练策略以避免误匹配问题
    • 在具体实现中,我们的模型结合了语义理解的信息提取模块与改进后的深度估计算法(如图1所示)
在这里插入图片描述
  • SceneNet通过学习场景的语义层次结构进一步提升了深度估计性能
  • 其采用了一种基于编码器-解码器架构的设计方案
  • 接收输入的场景图像信息并提取出相应的特征表示信息
  • 解码器部分则作为一个多任务、共享参数的分类模块
  • 能够将提取到的特征表征转换为深度图或语义分割级别的输出结果
  • 实现这一双任务的核心机制是基于条件的任务一致性信息引导解码器进行选择性输出
  • 左右语义一致性机制则用于强化几何信息与语义理解之间的关联性
  • 利用左右一致性和基于语义指导的视差圆滑性原理
  • 两个自监督式的目标函数分别用于优化深度估计与语义标签预测过程
  • 实验表明,在仅使用少量语义标签的情况下
  • 模型不仅能够生成高质量的空间感知效果
  • 还能有效整合几何与语义信息以实现对复杂真实环境的理解

13,20,4,18

方法

复制代码
* SceneNet 的目标在于从单目图像预测致密的深度图;训练阶段,模型利用双目立体图像和RGB-分割图像数据对进行训练,模型不需要双目图像与分割图像成对
* 如图2所示,模型在编码器部分将场景图像 I 转换成特征表示 z,解码器将场景的特征表示 z 和任务一致性( task identity, 下一部分具体描述) 作为输入,得到最终的跨模态输出 Y~\tilde Y
* 为了训练 SceneNet,本文将无监督深度估计和有监督语义分割任务中的目标函数结合,通过两个自监督信号训练网络
* Task Identity 
  * 现有的工作将语义分割与深度估计当成是独立任务进行训练,用过任务具体的分类或者回归自网络得到视差图和分割图,但是这就需要针对不同任务分支对一些网络层数等超参数进行调整,因而限制了模型在不同数据集场景下的实际可用性
  * 为了解决这个局限,本文将跨模态任务进行融合,利用一个统一的解码器模型,在任务一致性 ( task identity) 的指导下。设置深视差图回国任务作为 t=1,语义分割任务作为 t=0,解码器根据输入的场景表示 z 和任务一致性 t,得到跨模态输出 Y~\widetilde Y:Y~=D(δ(z,t))\widetilde Y=D(\delta(z,t)),δ\delta 是拼接操作,D 是跨模态解码器,最后一个网络层没有激活函数层
  * 具体来说,语义分割任务 s (图2中的红线)通过 s=σc(Y~s)s=\sigma_c(\widetilde Y_s) 计算,其中 Y~s=D(δ(z,t=1))\widetilde Y_s=D(\delta(z,t=1)) ,σc\sigma_c 是一个 softmax 函数
  * 是插入估计任务通过 d=σb(fμ(Y~d))d=\sigma_b(f_{\mu}(\widetilde Y_d)) 实现,其中 Y~d=D(δ(z,t=0))\widetilde Y_d=D(\delta(z,t=0)),fμf_\mu 是像素级的平局池化操作,σb\sigma_b 是 sigmoid 函数
  * 这其中预测的输出 Y~\widetilde Y 是依赖于设置的任务量 t 的,所以模型可以通过指定 t 的值进行模型最终输出模态的切换
  * 实现的统一化的解码器使得模型能够充分利用跨模态提供的语义信息和几何结构信息,对两个任务都进行了训练促进,实验结果进一步说明了模型的有效性
  • 无监督深度估计方法主要依赖于基于RGB图像与预测视差图的基础上

  • 通过从一个视角生成另一个视角的具体实现过程

  • 该方法的核心目标在于最小化合成与真实数据之间的差异

  • 其中Lre表示重建损失

  • 具体而言Ldepth由三部分组成:
    Lre表示基础重构误差
    α
    {lr}乘以左右视差一致性项
    以及α_{ds}乘以平滑性项

  • 误匹配问题

    • 该方法通过左图像同时生成左右视差图
    • 尽管如此仍难以确保右图像与其对应的右侧视差图像的空间结构一致性
    • 由于缺乏输入右侧图像的空间结构特征信息
    • 单凭左图像重建右侧视觉位移存在显著挑战性
    • 我们不直接通过单张输入图像生成两个视差图像
    • 而是只输出与输入图像相对应的一张位移估计结果
    • 我们通过水平方向镜像反转处理后的右侧输入图像来推导其对应的位移估计结果
  • 有监督语义分割算法

  • 现有的深度估计方法主要关注单像素级别的深度回归问题,默认将所有像素处的深度视为相同值

  • 这种假设导致在物体边缘区域的视差估计效果较差

  • 我们定义损失函数为真实语义标签与预测语义标签之间交叉熵度量:\mathcal{L}_{seg} = \mathcal{H}(s_{gt}, s)

    • SceneNet 的自监督训练
      • 左右语义一致性
    • 使用左右图一致性作为重建损失,很容易受到左右图光照条件不一致的影响,因此替换使用更高级的语义信息作为一致性判断依据,不容易受到光照条件影响,语义一致性表达为:Llrsc=∥sl−sr→l∥+∥sr−sl→r∥\mathcal{L}_{lrsc}=|sl-s{r \to l}|+|sr-s{l \to r}|
  • 基于语义约束的平滑度

  • 在确保分割区域一致性的前提下,在视差图中引入平滑度作为约束条件;同时,在分割区域内每个像素对应的视差也需满足平滑度要求

  • Lsmooth=∥d−f↦(d)∥⨂(1−∥ψ(s)−f↦(ψ(s))∥)\mathcal L_{smooth}=|d-f_{\mapsto}(d)|\bigotimes(1-|\psi(s)-f_{\mapsto}(\psi(s))|)

  • 其中的 ψ 代表每个通道最大值设置为1(即通道激活),其余值设置为0;⨂ 表示矩阵元素乘;f↦ 表示将输入在水平方向上平移一个像素

  • 最主要的目标旨在实现模型性能的最大化。

  • 通过优化损失函数以提高模型性能。

  • 该种方式通过引入多种辅助项来优化损失函数\mathcal{L}

全部评论 (0)

还没有任何评论哟~