论文笔记- AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
发布时间
阅读量:
阅读量
论文信息
* 标题: AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
* 作者:Jogendra Nath Kundu (jogendrak@iisc.ac.in), Phani Krishna Uppala (krishnaphaniiitg@gmail.com), Anuj Pahuja (anujpahuja13@gmail.com), R. Venkatesh Babu (venky@iisc.ac.in)
* 机构:印度帝国理工,视频分析实验室
代码链接
* http://val.cds.iisc.ac.in/adadepth/
论文主要贡献
* 提出 AdaDepth 用于无监督对抗域调整,用于对高维的结构编码表示适应到针对目标任务的输出层
* 通过使用新的特征重建正则网络约束目标 domain 的内容一致性,解决模式崩塌的问题
* 再 NYU Depth 和 KITTI 上的实验结果表明,在弱监督条件下,本文方法取得了较好的性能
论文要点翻译
* 摘要
* 监督学习方法在单目深度估计任务中取得的较好的性能,但是该类方法需要大量的标注数据,由于对噪声不鲁棒,而且准确性仍然可以进一步提高
* 合成场景数据集已经被用于解决这些问题,但是由于 domain shift 的存在,合成场景数据训练的模型难以泛化到真实场景数据
* 最近的用于 domain adaptation 的对抗训练方法已经取得较好的结果,能够一定程度上缓解不同 domain 之间存在的差异,但是这些方法通常都是用于图像分析任务的,不能较好地用于像素级预测的全卷积网络
* 本文工作提出 AdaDepth,用于无监督地将图像进行域适应调整,进而用于深度估计这样的像素级回归任务
* 提出的方法通过对抗训练的方式,显示地利用目标 domain 的特征表示与源域的内容一致性,有效改进之前提出的问题
* 提出的无监督学习方法比其他的方法效果差不多,能够达到半监督条件的 SOTA 性能
* 引言
* DNN 的发展对计算机视觉任务的促进,DNN 方法对于数据的需求,为了解决这个问题,在训练中引入合成场景数据集是常用手段
* 由于类似语义场景理解的问题,真实的标注图像往往难以采集,就需要有效利用合成场景的数据集,虽然合成场景数据与真实数据相似性很高,但是还是有一定的 domain gap,因此在合成场景数据训练的模型难以泛化到真实场景数据
* 从概率分布的角度考虑,网络的输入样本来自特定的源分布,网络只有当测试数据输入与训练数据输入的分布一致时能获得较好的性能,因此,通常的调优方法都是在合成场景数据上训练之后再混合的样本数据上进行模型的调优
* 为了进行深度估计任务,典型的通过传感器采集的数据通常具有噪声,严重影响了监督学习方法的性能,通过人工标注的方式标注的数据往往有较多的局限,这些局限导致了对于干净有效的场景数据的需求,AdaDepth 解决这个问题的主要手段是通过从合成场景的深度图像中学习特征表示并将其适应调整到真实场景
* 单目深度估计本身是一个病态问题,但是弹幕深度估计再图形学、计算摄影学、机器人学等领域都有应用,为了解决对多视图信息的缺乏问题,单目深度估计模型需要有效利用图像的全局语义信息,进而回归得到像素级的深度信息。端到端的 FCN 模型可以有效的提取目标特征,有效用于深度估计任务,这样的目标信息再合成场景和真实场景数据中都具有,因此可以利用合成场景数据学习这种从图像语义到图像像素级深度之间的对应关系
* 之前的域调整方法主要通过学习额外的映射层来减少不同 domain 之间的 gap,或者通过学习不同域图像之间共有的域无关的特征表示用于深度估计任务,和分类任务不同的是,基于分类任务更多地利用更高层次的语义信息,AdaDepth 是第一个用于深度估计这样的空间结构的语义回归任务的无监督对抗训练的域调整方法
* 通常,由于缺乏成对的标注数据,模式崩塌是域调整对抗训练中的一个常见问题,再对抗训练的过程中,由于 FCN 嵌入表示的复杂性,保留输入的空间结构信息是一个较为困难的过程,由于无法获取目标 domain 的深度图,本文主要通过提出内容全等正则方法保留输入的结构信息,提出的方法可以有效用于深度估计,能够很好地适用于目标自然场景数据
* 相关工作
* 监督学习条件的单目深度估计(CNN方法、CRF优化等)
* 无监督/自监督深度估计:利用双目立体图像形成自监督信号,左右一致性监督信号,视频序列的场景合成
* 使用合成场景迁移学习
* 域调整
* 方法
* 考虑 合成场景的图像及其对应的深度图作为源分布 $(x_s,y_s) \in X_s,Y_s$,源分布记为 $p_s(x,y)$,类似的有真实图像 $x_t\in X_t$ 及目标分布 $p_t(x,y)$ ,且有 $p_s \neq p_t$,在此条件下进行深度估计任务
* 将一个 DCNN 模型作为从输入图像到对应的深度图的转换函数,基础的模型可盈分为两个转换,(1)$M_s$ 将图像转换为隐含层的表示信息,而 (2)$T_s$ 将图像的特征表示转换成最终的深度预测结果
* 基础的 CNN 模型首先通过合成场景数据进行监督学习,$\hat{y_s}=T_s(M_t(x_t))$,由于域 shift 问题,直接利用 $X_s$ 训练的网络难以直接用于目标域 $X_t$,导致了隐含层的表示和预测具有差异,即 $M_s(x_t) \neq M_t(x_t)$ 且 $T_s(M_s(x_t)) \neq T_t(M_t(x_t))$,为了能够有效进项域调整,理想的 $M_s$ 和 $T_s$ 应该能够以较好的性能迁移到目标域,考虑到 $X_s$ 和 $X_t$ 只是在感知层次有所不同,这个差异主要是由于图像合成的过程导致的,但是两个场景的数据应当在物体信息、相对的目标的偏移等方法有较强的相似性,因此,只需要将 $M_t$ 进行调整用于目标的分布,为了将从域学习到的特征表示泛化到新的域,首先需要匹配两个隐含层表示 $M_s(X_s)$ 和 $M_t(X_t)$ 使得之后的转换函数 $T$ 对于不同域是一致的,也就是 $T_s = T_t = T$
* 调整的过程中,初始化的 $M_t$ 和 $T_t$ 用监督训练得到的 $M_s$ 和 $T_s$ 作为权重老远,为了将 $M_t$ 的参数调整以适应目标样本 $x_t$,引入两个不同的判别器 $D_F$ 和 $D_Y$,其中 $D_F$ 用于判断特征表示来自哪个域,即区别 $M_s(x_s)$ 和 $M_t(x_t)$ 而 $D_Y$ 用于判断 $Y_s$ 和 $T(M_t(x_t)$ 之间的差异,假设合成场景和真实场景的深度具有相同的分布,即 $p(Y_s=y_s) \approx p(Y_t=y_t)$,推理过程中,推理对应的转换函数 T 的过程对于源域特征表示和目标域特征表示都是一样的
* 方法使用 ResNet-50 作为基本的骨干网络,典型方法的结果显示,在层次网络中,底层特征表示通常和数据分布有关,而高层特征表示则通常和任务相关,这就说明不同的数据域之间的迁移性主要在后面层次中,实验评估过程中选择了 $M_s$ 和 $M_t$ 之间从第一层到最后一层,最终只在Res-5层作为固定(其他层都是可迁移特征)
* 训练目标
* 对抗 loss 主要是预测过程中的 $D_F$ 和 $D_Y$ 使用的对抗目标
* 内容全等
* 实际上,DCNN 能够探索不同模式的复杂输出和特征分布,仅仅依靠对抗目标进行参数更新可能导致模式崩塌,在这个条件下,输出的转换图像即使在对抗目标实现较好的情况下与原输入图像的结构信息可能他并不一致,为了解决这个问题提出了内容全等规范约束
* 域一致性正则(DCR)
* 通过不同域的特征表示的区别对于 L1 范数进行表示
* 残差迁移框架(RTF)
* 从 $M_s$ 到 $M_t$ 的过程,【32】提出将 $M_t$ 表示为 $M_s+\Delta M$,本文类似地使用这个方法,为了维持内容一致性,将 $\Delta M$ 约束为一个较小的只,避免影响基础的 $M_s$ 的激活值,具体如文中图4所示
* 特征一致性框架(FCF)
* 新的保留空间结构和内容与输入之间得一致性的深度估计,因此要求使用特征重建 loss 约束这个内容一致性,将 Res-5 块中的特征一致性形式化,将关注对应的深度估计
全部评论 (0)
还没有任何评论哟~
