Advertisement

论文笔记-Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

阅读量:

论文信息

  • 标题:Attention-guided structured convolutional neural fields for monocular depth estimation
  • 作者:Dan Xu, Wei Wang, Hao Tang, Hong Liu, Nicu Sebe, Elisa Ricci
  • 机构:University of Trento, Shenzhen Graduate School, Peking University, Fondazione Bruno Kessler

代码链接

复制代码
* https://github.com/danxuhk/StructuredAttentionDepthEstimation

论文主要贡献

  • 新的集成CNN 与多尺度CRF 的端到端单目深度估计模型被提出。
  • 该系统通过融合新型集成卷积神经网络(CNN)与多分辨率特征图(MRF),构建了一个基于全连接架构的深度估计网络。
  • 该系统采用改进型自适应注意力机制,在整合来自多层次的不同表征的基础上实现了层次化的特征表示。
  • 通过一系列精心设计的实验测试,在多个标准基准数据集上进行评估比较后发现,本文提出的方法在保持较低计算开销的前提下显著提升了预测精度。

论文要点翻译

  • 摘要

    • 最近研究表明,在深度学习模型中整合条件随机场(CRF)能够显著提升像素级预测任务的效果,并在此基础上本文提出了一种新型单目深度估计方法
    • 类比于前人研究中将连续CRF应用于从不同网络层提取特征的做法,本文方法将连续条件随机场应用于从CNN前端不同网络层提取的不同尺度特征信息,并通过自适应分配各层次特征的重要性程度来约束其权重分配
    • 所提出的注意力机制能够实现与CRF模块间的无缝协同工作,并通过实验验证该方法在KITTI和NYU Depth v2数据集上的表现具有显著优势
  • 引言

    • 从图像中推导深度信息是计算机视觉领域一个广泛研究的问题,传统方法主要基于多源数据进行操作,包括结合多个相机的数据或不同光照条件下的场景观测结果等,以实现深度信息的推断
    • 最近的研究逐渐放宽了多视图假设,将单目深度估计视为一种监督学习任务来处理,即在大量标注化的深度图数据基础上,depth Estimation essentially entails mapping image RGB pixels to corresponding depth values
    • 受到这些工作的启发,本文尝试利用图模型的灵活性来进行单目深度估计,与以往的方法不同在于,本文强调所提出的方法不仅能够从预测层获得精确度高但受限于网络结构的设计,更进一步地,可以从中间层的CNN特征表示中提取更加丰富的信息
    • 本文设计了一种新型的CRF模型以自动学习鲁棒且高效的多尺度特征表示方式,并在此基础上实现了对多尺度特征的学习与融合
    • 在这一过程中,引入了注意力机制的概念,这种机制使得网络能够自动调节各尺度特征之间的权重分配
    • 注意力机制已经在许多计算机视觉领域展现出良好的适用性与推广价值,尤其在像素级预测任务中取得了较为理想的效果
    • 尤其适用于单目场景下的上下文建模需求
    • 在此框架下,CNN中的各个关注点可以通过CRF联合优化以获得最优的结果
    • 结构化注意力机制则被用来约束相关像素点之间的相互作用及各像素与其所对应的尺度之间的相似性关系
    • 实验结果表明本方法较现有基于CRF及多尺度CRF架构的传统方法在计算效率和精度上均有显著提升
    • 具体而言,NYU-Depth v2和KITTI两个数据集上的测试结果显示本方法达到了当前国际上性能最优(SOTA)水平
  • 相关工作

    • 单目深度估计:人工设计特征、深度学习架构、基于双卷积神经网络(CNN)的设计分别用于粗化深度估计和优化细节深度图;为了提升回归问题的效果,在残差网络中引入 Huber 损失函数将单目深度估计转化为分类任务;近期研究将深度估计与语义分割、相机姿态等多任务联合优化作为新的学习框架;此外还包括无监督学习与半监督学习方法;图神经网络在单目深度估计任务中的应用也取得了显著成果

    • 在CNN中混合多尺度信息:通过多尺度特征融合改进像素级预测性能,在卷积操作中采用多分支架构、跨层连接机制以及深监督策略以增强模型表征能力

      • 方法
        • 单目深度估计的任务在监督学习背景下目的在于:给定有真实值标注的训练集 \mathcal{T}=\{(I_i,D_i)\}_{i=1}^M,其中 I_i \in \mathcal{I} 是 RGB 图像,D_i \in \mathcal{D} 是 RGB 图像对应的深度图,单目深度估计的目标在于学习从 \mathcal{I}\mathcal{D} 的非线性映射关系 \Phi:\mathcal{I} \to \mathcal{D}
        • 本文模型分为前端的 CNN 模型和 CRF 模型,CRF 模型的主要目的是用于组合从 CNN 模型中不同层次获取的多尺度信息,和之前方法不同,本文的 CRF 不仅仅用于优化最终的深度图,本文通过将 S 个不同尺度的特征信息进行组合得到更好的估计结果,即将 S 个多尺度的特征图 X=\{X_s\}_{s=1}^S,X_s=\{x_s^i\}_{i=1}^N, x_s^i \in \mathbb{R}^N
        • 提出的多尺度 CRF 模型用于估计深度图 D,探索了最后一层特征和中间特征表示之间的相互作用,为此,本文提出学习一系列的隐含特征图 Y_s=\{y_s^i\}_{i=1}^N, s=1,...,S,引入的注意力模型 A=\{A_s\}_{s=1}^S,被二元变量 A_s=\{a_s^i\}_{i=1}^N, a_s^i\in \{0,1\} 参数控制,每个注意力量 a_s^i 约束中间尺度 s 和最终尺度 S 在像素 i 上的权重,也就是学习注意力图最终可以用来发现中间哪些特征表示更有助于最终的深度估计任务
        • 为了实现精确的注意力图估计,本文提出结构化注意力模型,具体来说,在估计的注意力变量上加上结构约束,使得注意力变量对应到相关的临界像素上,提出的 CRF 模型联合地推断隐含特征和注意力图
        • 结构化注意力指导的多尺度 CRF:得到多尺度特征图 X 后,为了学习隐含特征表示 Y 和注意力变量 A,本文设计了一个 CRF 模型,通过下述的能量模型进行关联
      • E(Y,A)=\Phi(Y,X)+\Xi(Y,A)+\Psi(A)
      • \Phi(Y,X)=\sum_{s=1}^S\sum_i\phi(y_s^i,x_s^i)=-\sum_{s=1}^S\sum_i\frac{1}{2}\|y_s^i-x_s^i\|^2 表示所有一元的潜在的特征表示与关联的 CNN 特征之间的距离和
      • \Xi(Y,A)=\sum_{s \neq S}\sum_{i,j}\xi(a_s^i,y_s^i.y_S^j) 是高速函数,用于强制约束估计的隐含层特征和对应的 CNN 特征之间的对应性,用于建立最后一个尺度隐含特征和中间的每个尺度特征表示之间的关系映射,\xi(a_s^i,y_s^i.y_S^j)=a_s^i\xi_y(y_s^i,y_S^j)=a_s^iy_s^iK_{i,j}^Sy_S^jK_{i,j}^s \in \mathbb{R}^{C_s\times C_S}C_S 表示尺度 S 的特征图的通道数
      • \Psi(A)=\sum_{s \neq S}\sum_{i,j}\psi(a_s^i,a_s^j)=\sum_{s \neq S}\sum_{i,j}\beta_{i,j}^sa_s^ia_s^j 用于保持一定的计算开销,只考虑相同尺度的注意力变量之间的依赖关系

基于平均场的衍生更新
均值场模型用于隐含特征表示与注意变量构建中,并将 \mathbb{E}_q 表示为q分布的期望值
对于每个状态s和时间点i,在状态s上定义了关于y_si的概率分布$q(y_s^i)$;对于全局状态S,则定义了关于y_Si的概率分布q(y_S^i)
对于每个状态s和时间点i,在状态s上定义了关于y_{s,j}的概率分布q(y_{s,j})
针对每个状态s和时间点j,在全局状态S上定义了关于y_{S,j}的概率分布q(y_{S,j})
针对每个状态s和时间点j,在全局状态S上定义了关于a_{S,j}的概率分布q(a_{S,j})
针对每个状态s和时间点j,在全局状态S上定义了关于a_{S,j}的概率分布q(a_{S,j})

全部评论 (0)

还没有任何评论哟~