Advertisement

论文笔记-Unsupervised Sketch-to-Photo Synthesis

阅读量:

论文信息

无监督的素描至照片合成
作者:刘Runtao、于千 Yukai、苏诗琪
机构:北京大学;北航;UCB;ICSI
出处:ECCV 2020

代码链接

复制代码
* None

论文主要贡献

  • 开发一个双阶段无监督模型,并使其能够模仿手绘草图生成不同且风格真实的图像。
  • 采用自监督学习目标和注意力机制来处理草图中的抽象元素及风格差异。
  • 模型不仅能够增强基于草图的图像重建能力,并可作为辅助工具进行自动草图生成(除了边缘图外),从而捕捉人类视觉感知信息。

论文要点翻译

  • 摘要

    • 当人类面对一张未配空间与几何信息、也缺乏颜色与视觉细节的手绘物体框架草图时
    • 本文致力于探索无监督条件下从草图生成真实图像的技术
    • 在传统数据集中仅提供单模态数据的情况下
    • 当今研究主要聚焦于如何通过不成对的草图与真实图像数据集进行训练
    • 而现有方法主要集中在处理分割变化以及空间上的分解变化
    • 它们通常基于边缘对齐的线图进行合成对应图像
    • 或者仅针对同一模态的数据进行形状转换操作
    • 而本文则将无监督的草图到完整图像的填充过程视为一个两阶段翻译任务:首先是从草图生成灰度图;其次则是恢复灰度图的颜色细节信息
    • 同时本文还引入了自监督去噪目标,并整合了注意力机制来处理抽象风格的变化
    • 实验结果表明所合成的图像不仅与原始草图高度吻合,并且具有真实的图像特征
    • 在实际应用中可以将其用于基于手绘草图的图像重建任务
    • 此外该方法还展现出其他潜在效果 可以作为一个通用且具前景的手绘图形生成工具 借助于该工具不仅可以捕获边缘图形以外的人类视觉感知信息 还能在一定程度上辅助其他相关技术实现更高效的图像获取过程
  • 引言

    • 草图作为一种直观且有效的视觉表达形式,在图像识别、图像分割等方面已有相关研究[1-3]。本文聚焦于在给定草图的前提下生成真实细节图像的问题:输入为不成对的草图与真实图像数据集
    • 草图到图像合成面临两大主要挑战:首先,在合成过程中由于草图通常由非专业人员绘制存在不对应性及空间几何变形问题;其次由于草图为单色缺乏细节信息一般仅包含物体边缘及内部关键标志信息因此需要在草图中适当补充阴影纹理色彩等细节信息以合成具有真实感的图像
    • 实际合成过程中变形校正并非易事因为线条仅表示形状位置信息颜色纹理等细节因实例不同而有所差异不仅在整体比例上存在差异而且局部细节如颜色标志等也可能不同此外单纯补充颜色细节同样具有难度因为一张草图可能对应多种彩色图像而合成出的图像需各自独特且具有真实性
    • 当前工作中针对上述两个挑战多是从单一角度出发即要么处理形状变换信息要么处理颜色变换信息但未能兼顾两者共同作用的影响机制本文将基于草图的真实图像转换任务分解为两个独立阶段:首先通过几何映射将草图转换为灰度图像接着基于灰度信息进行色彩细节填充(1)形状映射阶段输入原始草图将其映射至灰度图像训练数据包括不成对的草图数据集与真实图像数据集通过这一阶段可有效减少几何形变;(2)色彩填充阶段主要学习如何将灰度信息扩展为丰富色彩细节包括增加纹理阴影等元素通常该阶段可选配参考图片以辅助生成
    • 所提出的模型能够直接应用于基于草图的图像获取系统同时该模型还具备将普通图像转为草图的功能所得自动提取的关键线条信息可被广泛应用于高级计算机视觉交互设备中
  • 相关工作

  • 图像合成技术基于草图分析:包含三种主要方法——第一种是利用深度学习实现的草图至图像合成技术(名为SketchyGAN),第二种是针对不完整的边缘信息或部分轮廓线展开的研究;第三种则聚焦于多分类场景下的图像生成

  • GAN技术包括CycleGAN模型、UNIT模型以及MUNIT模型

  • 方法(两阶段流程:草图至图像合成)

    • 该方法采用两阶段流程将草图转换为图像:第一阶段将变形后的草图转换为灰度图像;第二阶段通过填充纹理和阴影信息将灰度图像转为彩色图像
    • 无监督学习基于两个数据集:一组包含n张草图\{S_1,...,S_n\}及其对应的灰度版本\{G_1,...,G_n\};另一组包含m张彩色图像\{I_1,...,I_m\}
    • 形状转换模型:S \to G
  • 目标:实现草图形状校正过程;该过程面临以下挑战:

    • 数据配对难:成对数据采集困难
    • 形状对齐问题:由于草图与真实图像间形状差异较大
  • 模型训练机制:

    • 使用循环一致性约束S \approx T^{'}(T(S))G \approx T(T^{'}(G))
    • 结合编码器-解码器结构设计两个映射关系,并采用对抗训练优化
  • 输入处理策略:

    • 引入噪声增强数据集;通过自监督学习提升模型鲁棒性
      • 噪声增强策略一:生成复杂噪声草图
      • 噪声增强策略二:模拟无关细节干扰
    • 引入注意力机制优化特征提取
      • 注意力机制用于定位发散区域并避免影响区域重建
  • 总体优化目标:
    \min_{T,T^{'}}\max_{D_G,D_S} [\lambda_1(L_{adv}(T,D_G;S,G)+L_{adv}(T^{'},D_S;G,S)) + \lambda_2 L_{cycle}(T,T^{'};G,S)+\lambda_3L_{idt}(T,T^{'};S,G)] + L_{ss}(T,T^{'};S^{noise})

  • 内容增强:通过编码器 E 和解码器 D 实现的内容增强网络 C

  • 对灰度图像 G 进行色彩增强操作后得到颜色图像 I,并基于单色草图中丰富的上色方案提供参考指导模型进行上色处理

  • 内容增强网络 C 被构建成编码器 E 和解码器 D 的组合结构,在输入灰度图像 G 时模型能够输出彩色图像 I,并保证输入与输出图像在 CIE Lab 色彩空间中的一致性特性;为此设计并采用自监督学习方法结合判别器 D_I 辅助训练模型以提升生成数据的真实感

  • 为了提升生成图像的多样性效果本文引入了条件模块;该模块接受参考图像 R 作为指导依据通过 AdaIN 技术将风格特征融入到目标图像中;具体而言输入灰度图像 G 会经过编码器 E 得到特征图 x=E(G);随后根据参考特征图 x_{ref}=E(R) 对其均值 \mu(x) 和方差 \sigma(x) 进行归一化变换生成新的特征图 x_{new}=AdaIN(x,x_{ref}) 其中:

AdaIN(x,x_{ref})=\sigma(x_{ref})\left(\frac{x-\mu(x)}{\sigma(x)}\right)+\mu(x_{ref})

  • 最终优化目标为:

\min_{C}\max_{D_I}\lambda_4L_{adv}(C,D_I;G,I)+\lambda_5L_{it}(C)+\lambda_6L_{style}(C;G,R)+\lambda_7L_{cont}(C;G,R)

全部评论 (0)

还没有任何评论哟~