Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields
贡献:
开发了一个专为深度估计而融合了CNN和CRF技术的深度卷积神经网络。基于对数据连续性的考虑,在概率密度模型中使用partition function可被精确推导出。因此,在不依赖任何近似值的情况下进行对数似然优化是可行的。通过反向传播算法,在梯度计算过程中无需引入近似方法。值得注意的是,在处理新的图像时预测其深度并进行最大后验概率估计是一个高效可靠的方法。
通过反向传播算法进行训练,在同一深度卷积神经网络架构内,我们同时在CRF模型中学习单个势能(unary potentials)和相互势能(pairwise potentials)。
3 我们开发出了一个基于全卷积网络和超像素池化方法的快速模型,在相同精度下提升了10倍的速度。该模型采用了DCNF-FCSP(DCNF-深度神经卷积场与FCSP结合),为增强性能设计了一个多层次结构。
我们验证了无论是在室内环境还是室外环境中提出的该方法均处于该领域的前沿水平。
相关工作:
我们的单视图深度估计的方法利用了最近主要的分类、检测和语义分割方面的深度网络
深度估计:
传统的方法将深度估计问题归类为基于马尔科夫随机场(MRF)的学习问题。然而,在精确求解马尔科夫随机场的学习与推断方面面临诸多挑战性问题;大多数现有方法均采用近似策略进行处理;其中一种是多条件学习(MCL),另一种是粒子可信传播(PBP)。与之相比,在预测新图像深度的过程中所消耗的时间效率较低;值得注意的是;现有方法往往依赖于图片水平对齐的前提条件;并且需要训练集具备语义标签信息;这种限制导致缺乏灵活性;近期研究中Liu等人提出了一种基于连续离散条件随机场模型的新框架;该模型考虑了邻近区域的超像素信息;例如遮挡问题的影响;但其仍需借助近似技术来实现学习与最大后验概率(MAP)推断的目标;此外;这些方法还依赖于图像检索技术以获得合理的初始化信息;相比之下;我们提出了一种连续条件随机场模型;能够在无需引入近似假设的情况下直接求解对数似然优化问题;这是因为该模型中配分函数可以直接计算而无需近似形式解的支持;因此在预测新的图像深度时效率非常高地实现了目标;值得注意的是我们并未引入额外的先验知识或其他辅助信息以进一步提升性能;另一方面传统的基于手工特征的方法如texton、GIST、SIFT、PHOG等已被广泛采用作为特征提取工具;而我们的工作仅通过构建CRF场中的unary和pairwise势能来学习深度CNN
最近, Eigen及其团队提出了一个多尺度卷积神经网络(CNN)用于深度估计任务,与我们的工作存在显著差异.然而,与我们的工作不同,我们提出的方法在很大程度上与其不同之处在于:他们将CNN作为黑盒使用,直接对输入图像中的深度图进行卷积回归;而我们采用条件随机场(CRF)来建模相邻超像素之间的关系,并在同一卷积神经网络框架内学习势函数(包括单个势和双势).
最近有关于我们的工作的两篇相关的论文相继发表出来,并且这些研究团队在像素级深度估计方面进行了深入探索。
深度卷积神经场
2.1 概览
研究目标:基于前人工作的基础上,推断单张图像中每个像素对应点的空间深度值.在现有研究的基础上,默认一副图像由多个相似区域构成,其空间深度分布采用超像素节点进行建模.每个超像素的空间深度则由其中心点处的空间深度来表示.令x代表输入图像, y向量表示对应x中超像素的连续深度值.与传统的CRFs相似,在模型中使用密度函数P(y|x)=exp(∑_{c}w_c f_c(x,y)) / Z(x)来描述条件概率分布.
此处有俩公式。
在这里, 由于y(图像中的超像素深度值)具有良好的连续性, 公式1中的积分运算能够在确定的情况下实现计算 (见第2.3章)。
贡献:
该研究提出了一种基于CNN与CRF构建的深度卷积神经场模型用于深度估计任务。该模型设计充分考虑了深度值连续性的性质,在概率密度函数中采用partition function进行分析计算,从而使得在无需近似计算的前提下实现对数似然优化的目标.在反向传播训练过程中,梯度能够精确计算出来.值得注意的是,由于处理相似情况时效率很高,在预测新图像的深度并求解其MAP(最大后验概率)问题时表现出良好的性能.
我们基于反向传播进行训练,并在同一深度卷积神经网络架构中进行学习CRF的一元势与二元势。
我们开发出了一种基于全卷积网络和超分辨率聚类采样技术的高效模型,在保证同等准确率的前提下提升了十倍的速度。该模型借鉴了DCNF-FCSP这一技术体系?为增强性能特点,在网络架构上采用了多层次的设计策略。
本研究无论是在室内场景还是室外场景的数据库中都表现最佳。
相关工作:
我们开发的单视图深度估计方法基于一系列不同领域的技术构建了该方法并对其实现进行了优化目前已有大量研究集中在这一领域并进行了深入探讨
深度估计:
传统的方法将其认为是马尔科夫随机场(MRF)学习问题。通常来说,精确地马尔科夫随机场学习和推断是棘手的,大多数的方法都是采用近似方法,例如多条件学习(MCL),或者partical belief propagation(PBP 粒子可信传播)。预测新图像的深度是效率非常低的,大概4-5秒甚至更长时间。更糟糕的是,这些方法依赖于水平对齐的图片,需要训练集具有语义标签,缺少灵活性。最近liu等提出了连续离散的条件随机场模型将临近的超像素考虑进去,例如遮挡问题。这些也需要使用近似的方法来学习和最大后验概率(MAP)推断。此外,他们的方法依赖于图像检索来获得合理的初始化。相反,我们提出的一个连续CRF模型,可以在没有近似的情况下,求解对数似然优化。因为配分函数能够直接分析计算。因为一个近似形式解的存在,预测一个新的图像深度是非常高效的。此外,我们没有加入仍和图像先验知识或者额外的信息。在另一方面,先前的方法全都使用手工特征,例如texton,GIST,SIFT,PHOG,object bank等。相反,我们只构建CRF场的unary and pairwise potentials来学习深度CNN。
最近的研究者们提出了一个多尺度的卷积神经网络(CNN)方法用于深度估计,并与我们的研究相悖论。然而尽管如此,我们提出的方法在很多方面与他们的工作存在显著差异:他们将CNN网络视为一个黑箱,并直接通过对输入图像中的深度图应用卷积进行回归;襄樊市,则我们利用条件随机场(CRF)模型来精确建模相邻超像素之间的关系,并在同一层CNN架构中学习统一势能函数(包括单个势能项和双势能项)。
近几篇相关的论文指出
深度卷积神经场(DCNF)
2.1 概览
我们的目标是根据单一表现一般场景的一张图像推断每个像素点的空间位置。在构建过程中我们将每幅图像视为由许多超像素构成 并将整个图像模型视为这些节点组成的网络结构 其特征则由各自中心点处的空间位置信息决定 x 表示一个图像 y 向量表示对应于该图像 x 的连续深度向量 类似地 在常见的CRF框架中 我们数据中的条件分布概率密度函数如下:

其中的E是能量函数,Z是配分函数。
