Advertisement

论文笔记-T2Net: Synthetic-to-Realistic Translation for Solving Single-Image Depth Estimation Tasks

阅读量:

论文信息

标题:T^2Net: Synthetic-to-Real Translation for Solving Single-Image Depth Estimation Problems
作者:Chuanxia Zheng (chuanxia001@e.ntu.edu.sg), Tat-Jen Cham (astjcham@ntu.edu.sg), and Jianfei Cai (asjfcai@ntu.edu.sg)
机构:新加坡南洋理工大学

代码链接

复制代码
* https://github.com/lyndonzheng/Synthetic2Realistic

论文主要贡献

  • 提出了一种端到端联合架构,该架构将合成图像与真实图像相结合进行转换,并构建了单目深度估计网络的体系结构.在无真实深度图或双目立体图像的前提条件下,该方法可实现单目深度估计网络的有效训练.
  • 采用多模态输入翻译策略,能够将真实图像与合成图像统一处理,将其统一为更具"真实性"特征的图像输出给网络.实验中分别采用了重建损失函数与生成对抗网络损失函数作为优化目标.
  • 实验评估结果表明,所提出的框架在性能上显著优于仅依赖合成数据训练的方法.此外,其性能超越了仅部分利用监督数据训练的方法.

论文要点翻译

摘要

  • 当前单目深度估计主要基于真实的图像-深度数据对或双目图像对
  • 本文所提出的改进方法采用了合成图像-深度数据对以及不成对的真实数据集进行训练
  • 核心思路是通过输入真实或合成的图像来生成具有较高真实度的大尺寸图像
  • 在训练过程中采用重建损失优化真实数据集 并利用GAN判别器损失来提升生成样本的质量
  • 第二个模块则基于生成的合成图像-深度数据对进行深度估计模型的优化
  • 实验结果表明 在端到端联合训练模式下取得了较为理想的效果

3,4,22,23

6,15

复制代码
* 方法 
  * 主要目标:训练图像到深度的转换网络 $f_T$,只输入单张 RGB 图像的情况下能够准确预测相应的深度图
  * 从训练数据的可达性角度,真实世界的没有双目立体图像和深度标注图像的真实 RGB 图像是大量、易采集的,合成的 3D 世界中的合成图像及其对应的合成深度图像也是易于获取的
  * 从神经网络的角度出发,应当是直接训练从 $x_S$ 到 $d_S$ 的映射或者从 $x_R$ 到 $d_R$ 的映射,本文不同,由于合成数据与真实数据并不完全相似,本文将加一个前置的图像翻译网络 $G_{S \to R}$ 将输入数据转换为更加真实的风格,但是,现有的图像翻译网络不能保证翻译的图像和原有图像有足够的几何关系约束,导致深度图的预测并不准确,这要求比较好的损失函数进行规范正则
  * 本文的关键在于:不直接训练 $G_{S \to R}$ 成为有效的但是窄范围的谱转换网络,将其训练为广谱的图像翻译网络,输入不仅有合成图像,也有真实场景的图像,网络的最终目的在于显示地学习将图像“真实化”需要的最少操作,在尽量不改变图像几何特征的情况下,将图像变得“更像真实图像”,使得图像在保存图像的几何约束的基础上能够保存形状语义信息用于深度预测
  * 为了实现上述的网络,本文使用相同的两个 twin 训练流水线,$T_2Net$ 强调将图像转换 (T) 和任务网络 (T) 组合,对合成数据对以及单张的真实数据分别进行上图所示的上半部分和下半部分的操作,两个部分的 G 网络权值相同,$f_T$ 网络权值也相同: 
* (1)对于真实图像,G 作为自编码器,对图像操作较少,使用重建 Loss 进行训练
* (2)对于合成图像,G 将图像“真实化”,使用 GAN loss 训练网络
* 转换后的“更真实”的图像输入到深度估计网络 $f_T$ 中,该网络的训练根据合成数据提供的监督信号进行
* 此外,$f_T$ 中对于真实图像和合成转换的真实图像提取的特征应当保持一致的分布规律,英雌通过基于特征的 GAN 提供对抗 loss 训练网络 **(读者注:实际上,这个步骤可以扩充到真实网络与合成网络?)** * $G_{S \to R}$ 和 $f_T$ 权重应当同时更新,一起进行优化训练
  • 主要目标是围绕重建问题展开研究其对应的对抗损失函数

  • 相较于传统方法基于颜色和纹理特征的差异性分析研究者们更关注语义层面的一致性构建能够较好地保持两者语义关联性的模型

  • 为了最小化生成图像与真实图像之间的差异理想中的转换网络应输出与真实图像高度接近的结果这一过程可通过对抗学习机制实现使得生成器与判别器形成博弈最终达到平衡状态从而生成逼真的数据样本

  • 虽然传统的GAN模型在风格迁移方面表现突出但其难以有效保留原始几何特性为此可采用正则化输入的方式扩大输入范围使模型能够同时处理不同域的数据并最终输出高质量的真实样例

  • 任务相关的损失项

  • 基于合成数据或真实数据生成风格一致的图像后,在网络中使用生成深度图计算像素级绝对值差异作为L1损失进行训练

  • 因为真实深度图在训练期间无法获得,则可采用局部平滑化的L2损失以实现更为合理的深度估计效果

  • 根据此特性构建GAN对抗过程中的损失函数:即基于内部真实特征与生成转移后的特征分布一致性原则构建GAN对抗过程中的损失函数

10

该系统采用了先进的网络架构体系结构,在图像处理领域表现突出。
该图像转换模块基于ResNet设计,并模仿SimGAN的设计模式。
其判别器模块采用PatchGAN结构。
该任务网络预测与文献[10]中的方法具有相似性,并通过多级尺度特征提取实现多尺度信息融合。
该方法通过多组扩张卷积层逐步增强特征提取能力。

全部评论 (0)

还没有任何评论哟~