Advertisement

【论文笔记】pix2pix Image-to-Image Translation with Conditional Adversarial Networks

阅读量:

论文笔记

论文笔记

论文笔记

  • 1.工作概述

  • 2.项目背景

  • 3.相关工作

  • 4.模型结构

    • 4.1判别器
    • 4.2生成器
  • 5.方法

    • 5.1提示
    • 5.2损失函数
    • 5.3噪声的必要性
  • 6.评价测度

    • 6.1真假感知研究
    • 6.2FCN分数
  • 7.对损失函数的相关实验结果进行分析

    • 7.1消融实验1:研究损失函数中cGAN和L1项的作用。
  • 7.1消融实验2:探讨cGAN相较于GAN的优势。

  • 8.对生成器架构进行的实验结果分析

  • 9.对不同Patch进行的结果分析

  • 10.视觉感知实验的结果分析

  • 11.语义分割任务的研究

原文链接:https://phillipi.github.io/pix2pix/

1.工作概述

本文深入探讨了条件对抗网络作为解决图像到图像风格迁移问题的一种通用方案。这些网络不仅能够建立输入与输出之间的映射关系,并且还能通过训练损失函数来优化这一过程。这表明我们能够设计出一种普适性解决方案来应对不同损失函数的需求。因此我们主要贡献分为两个方面:第一部分是证明cGAN在风格迁移中具有广泛的适用性;第二部分则是提供了一个框架来实现预期效果。

2.项目背景

一张图片有很多种表示方式,例如:RGB、梯度场、边缘图、语义标签地图等。

GAN的目标:让生成的图像呈现出高度逼真的效果(优化损失函数至最低水平),与此同时,系统会自动优化并学习这一目标。

3.相关工作

我们定义了"结构化损失"这一概念,并将其应用于图像匹配任务中。具体而言,在将图像匹配视作"非结构化"任务时(即像素间彼此独立),我们发现cGAN模型旨在处理具有"结构性"特征的问题。因此,在对图像匹配任务进行评估时,我们可以利用这一特性来减少对这些结构性特征的影响。

cGAN:过去有研究者倾向于采用传统的cGAN架构,在此基础上进行改进与优化;同时也有学者尝试通过在基础GAN模型中引入非条件生成机制,并结合额外约束(如L2范数等)来实现对输入数据施加特定的目标特性。

4.模型结构

4.1判别器

采用了PatchGAN算法,在分块尺度上施加惩罚机制,并探究不同分块尺寸对模型性能的影响。L1损失能够有效保障低频细节的真实重构,然而这可能导致高频细节失真,因此判别器应重点关注高频细节的真实捕捉,从而促使我们更加关注图像中的局部特征。基于此设计了一种改进型PatchGAN架构,即所谓的"仅作用于局部区域的新方法"。该判别器旨在逐块分析图像中的N×N像素块,并对每个分割区域输出相应的评估指标值。将所有分块响应进行综合评估后得出最终结果

4.2生成器

基于UNet架构设计使得一些共用底层信息能够无需经过中间连接层而直接传递至输出端

5.方法

5.1提示

GAN与cGAN的区别主要体现在它们的工作原理上:基于随机噪声z生成目标图像y的是GAN;而条件生成对抗网络(cGAN)则利用现有图像x和随机噪声z来生成目标图像y。

5.2损失函数

cGAN的主要损失函数如下所示;特别需要注意的是,在判别器D运算符的括号中存在一项的原因在于其采用了"条件"对抗网络的技术

在这里插入图片描述

为了对比分析生成模型的表现特征, 作者设计了一种方法, 使得判别器无法识别真实的输入样本x, 进而构建了一个基于无条件对抗的损失函数框架.

在这里插入图片描述

为了降低模糊性,在损失函数中另外又加入了另一项L1范数正则化项,并通过这一项为生成器施加了一个约束条件。

在这里插入图片描述

5.3噪声的必要性

如果缺乏噪声z,则仅能拟合delta函数。然而加入后并不见得有益。因此,在训练与测试阶段中作者都引入了具有dropout形式的噪声却未能观察到较高的随机性输出。

6.评价测度

现有逐像素方差方法无法获得像素间的联合统计信息,因而无法获取结构性的损失。

6.1真假感知研究

该风格转换任务涉及多个阶段的测试。在每一轮测试中(均为独立的一组参与者),我们需要判断哪些为真实图像、哪些为生成图像。在开始任务前会提供10张图片作为练习集,在后续40张图片中进行识别。

6.2FCN分数

这一衡量标准的核心思想在于:当生成图像足够逼真时,在将这些图像用于分类任务时其结果应与直接对真实图像进行分类的效果相当。基于此原理本研究采用了FCN-8s网络架构并基于城市数据集进行了模型训练随后在生成的数据集中执行分割操作以将该网络输出作为评估指标之一

7.对于损失函数的实验结果分析

7.1消融实验1:验证损失函数里cGAN和L1项的重要性。

通过实验研究发现,在生成结果质量方面仅L1会出现模糊现象,并且cGAN还会生成本不存在的物体。将两者的优势结合起来能够显著提升整体实验效果。
在色彩处理上若采用L1方法,则为了降低其损失函数值使模型选择中间值的颜色(即灰色);而若采用cGAN的方式则能更接近真实存在的颜色分布

7.1消融实验2:验证cGAN相对于GAN的优越性。

通过实验结果表明

8.对于生成器结构的实验结果分析

不论是损失函数采用L1的情况,还是同时引入L1与cGAN的情况,在应用U-Net模型时所获得的效果均显著优于仅使用Encoder-Decoder架构。从定性分析来看,重建图像的质量明显提升;而从定量评估来看,FCN模型的分数普遍更高。

9.对于不同Patch的实验结果分析

从FCN分数的角度分析可知,在不同patch尺寸的选择上存在明显差异性,在所有实验条件下70×70像素尺寸均展现出最佳选择性。

10.感知实验结果分析

在地图与卫星图的风格转换任务中进行比较时发现,在L1+cGAN方法下显示出更高的欺骗效果

11.语义分割实验

语义分割对细节要求不高。cGAN能够在一定程度上生成较为清晰的图像,在一定程度上也可能也会产生一些不符合实际存在的物体;这可能意味着其效果未必优于基于L1损失函数的方法。值得注意的是,这可能是首个尝试使用GAN进行标签生成的应用。

全部评论 (0)

还没有任何评论哟~