Pixel-Level Domain Transfer 和 GAN
学习报告 1
目录
-
学习总结报告 1
-
GAN技术综述
- 像素级细节重建网络
- 掌握基础研究现状
- 细致级别的服装属性深度自适应人物描述方法(CVPR 2015)
-
SketchyGAN:基于草图生成逼真图像 (CVPR 2018)
* 总结
生成对抗网络
Generative Adversarial Network
基于生成对抗网络(GAN)的方法通常涉及两个主要组件:判别器和生成器。判别器的作用是通过比较生成的数据与真实数据来判断其真实性;而生成器则负责利用噪声生成看似真实的数据样本。这种对抗训练机制使得生成的数据能够逐渐逼近真实数据的分布特性,并在迭代过程中不断优化其生成能力。
GAN由两个子网络构成:一个是生成网络(Generator),一个是判别网络(Discriminator)。该模型借鉴两人零和博弈理论,在两者的对抗过程中实现了最佳的生成效果。

相比于其他生成式模型,GAN有两大特点:
无需任何先验假设的支持。传统的诸多方法通常假定数据遵循某种特定的分布模式,并进而采用极大似然估计的方法来推断数据的分布特性。
相对于其他方法而言,生成real-like样本相对容易。传统的GAN模型采用基于生成器(Generator)的前向传播机制来实现对real-like样本的生成。
相对于其他方法而言,生成real-like样本相对容易。传统的GAN模型采用基于生成器(Generator)的前向传播机制来实现对real-like样本的生成。

隐变量z(一般遵循服从高斯分布的随机噪声模式)经由生成器作用于实现生成样本\hat X_{\text{fake}}}。鉴别器的任务在于辨别输入数据属于生成样本\hat X_{\text{fake}}}还是真实样本 X_{\text{real}}}。优化的目标函数如下:

从鉴别器D的角度来看,在这个二分类任务中交叉熵损失函数V(D,G)被广泛使用作为衡量模型性能的标准指标。生成器G的目标则是通过最大化生成样本被鉴别器判别为真类的概率来实现对鉴别器D的有效欺骗策略。具体而言,在该公式中我们需要最小化\log\left( 1 - D\left( G\left( z \right) \right) \right)这一项(需要注意的是,在计算过程中\log\left( D\left( x \right) \right)这一项与生成器G无关因此在优化过程中可以被忽略)
在实际训练过程中,在交替进行各自的训练中循环往复的过程中

将最优判别器应用于上述目标函数后,在其作用下可得生成器的目标函数等价于最小化或最大化P_{\text{data}}(x)与P_g(x)之间的Jensen-Shannon散度(JSD),即Jensen-Shannon Divergence。
我们能够证明,在G和D的容量达到一定程度时(即他们的capacity足够充足),模型将收敛,并最终达到纳什均衡状态。此时满足P_{\text{data}}(x)=P_{g}(x)。值得注意的是,在对P_{\text{data}}(x)或P_g(x)采样的所有样本进行判别时(即无论是来自真实数据分布还是生成数据分布的样本),判别器都能够给出预测概率均为\frac{1}{2}的结果(即无法区分这两类样本)。
像素级图像域转换网络
此处为 GitHub 项目 PixelDTGAN 的位置。(Github项目地址 1 2)
本文提出了一种基于条件的图像生成模型。该模型在语义层次上实现了输入域到目标域的转换,并通过像素级别的操作生成目标图像。为了模仿GAN中的判别机制,在生成器中引入了real/fake鉴别器。同时引入了新的领域鉴别器来确保生成图像与输入具有相关性。研究者设计了一个验证任务来评估该模型的效果,在两个领域上构建了高质量的数据集并展示了良好性能。
该论文的贡献包括:
基于像素级别的分析方法中,“提出了一种创新性解决方案”,该解决方案能够通过建立源、目标域之间的语义对应关系来实现领域间的像素级语义转换。
提出一种新颖的鉴别器,使我们能够训练域之间的语义关系。
创建一个涵盖两个重要领域的大型服装数据集合,并将有助于推动不同领域的适应性研究发展。
本文的核心在于让机器实现视觉输入转译成多种形式,并且通过像素级别的图像来展示这些形态。
图像生成在多个领域已获得广泛应用,在降维方面采用了神经网络的方法(生成降维后的图片这些图片非常模糊),如Deep Boltzmann Machines以及降噪自动编码器提取并组合鲁棒特征等技术。然而由于高维数据及像素间复杂关系产生逼真的图像仍具挑战性。随着深度学习的进步一些研究成功地创造出逼真的图像如Generative Adversarial Networks(GANs)递归神经网络用于图像生成以及基于非平衡热力学的深层无监督学习等方法。尽管这些方法在图像生成方面与PixelDTGAN具有相似性但在条件化图像生成方面却各有特色 PixelDTGAN通过将输入设为域中的条件图像实现了对另一域目标图像的重新绘制。
在该工作中,默认有两个领域被明确界定为源领域和目标领域,并通过隐含的语义关联进行连接。例如,在将穿着打扮的人的图像定义为源领域时,则其相应的服装特征则被视为目标领域。值得注意的是,在这一过程中所涉及的领域转换操作已经被广泛应用于多个研究方向中(例如基于细粒度服装属性的深度域自适应人物描述方法等),但这些技术性操作均局限于特征空间层面(即模型参数的调整)。然而,在PixelDTGAN模型中,则直接生成目标图像而不依赖于传统的特征空间操作。
将源域的知识映射到目标图像的像素级别上,并成功解决了两个领域之间的语义鸿沟。为了实现这一目标,在保证视觉逼真的前提下同时保留了语义信息。为此,作者设计了一个像素级域转换器来完成这一任务——该转换器由一个编码模块用于提取源领域的语义信息以及一个解码模块用于生成高质量的目标图像组成。然而由于目标域对应于最低分辨率的像素空间而非高级别的语义特征空间 因此 目标结果不唯一且可能的数量无限多 如图1所示

图1. 一个实例,显示了像素级域转换问题中目标图像的不确定性。

图2. 像素级域转换的整体结构
我们引入了一个称为转换器C的传递函数模型,在该框架中定义了一系列数据处理流程。其中\Theta^{C}表示该转换器对应的模型参数配置。根据实验需求,在这一过程中我们需要将源域空间中的样本映射至目标域空间中进行分析与处理。为此目的,在设计阶段我们采用了卷积神经网络架构,并基于监督学习的方法对相关的参数设置进行了优化调整。实验数据显示,在训练过程中系统能够有效识别并建立各阶段特征之间的对应关系
图2顶部展示了作者提出的转换器架构示意图。该系统设计为一个统一网络架构,在全连接训练过程中具备灵活性。该系统可采用模块化设计策略。其中包含编码模块和解码模块两个主要组成部分。编码模块由五个连续的卷积层构成,在对输入信号进行处理时能够有效提取关键特征信息并将其映射至64维语义特征空间中。考虑到源域与目标域在语义层面存在对应关系,在这一过程中具有重要意义。通过64维语义特征提取层捕获输入信号的关键属性信息,并将其转化为适合后续处理的形式以实现目标生成过程中的精确重构需求。随后解码模块将通过五个解码层逐步构建出相关的目标图像内容,并通过分步卷积操作完成细节部位的精细调整以保证最终输出图像的质量达到预期效果

表1展示了每个网络的详细信息。在(a)部分中,在{}符号中的每一个元素对应于一个单独的网络。L-ReLU即为leaky ReLU函数,在(b)部分中,则代表步长参数F。经过重塑处理后,在第一层中的激活输出尺寸为4×4×1024,并随后将这一结果传递到第二层进行进一步处理。
基于给定的转换器设计,选择一种简化的损失函数作为训练目标。然而,均方误差(MSE)并不完全适合当前问题的需求。其原因主要包括两方面:首先,在某些特定场景下MSE可能无法充分捕捉数据的内在关系;其次,在复杂任务中MSE往往会导致模型收敛速度较慢。由于这些局限性,在本研究中我们更倾向于采用其他类型的损失函数作为优化目标。
该模型无法应用于自然图像的像素级监督任务。论文超越均方误差的深度多尺度视频预测中指出,在实际应用中发现该方法存在明显的模糊性问题。具体而言,在该文中我们讨论了该方法的优势与局限性:尽管MSE在回归任务中表现良好,在实际应用中发现其存在明显的模糊性问题。原因在于该方法假设数据服从高斯分布,在面对多模态分布时表现欠佳;而相比之下,在真实世界场景中常见于复杂分布的情况下的自然图像 pixels 则呈现出显著的不同特征。
如图1所示
在转换器顶端部分安置了一个充当损失函数角色的鉴别器网络。其结构与生成对抗网络(GAN)中的判别器架构相似,并通过real/fake标记来指导转换器生成符合真实数据分布的图像。设输入变量为I ,则该鉴别器对应的损失函数L_{R}^{D}定义如下:

目标图像的真实性得到了保证;然而它与原图的相关性无法确保。为此, 作者提出了一种域鉴别器(如图2所示), 该方法以一对源图像和目标图像作为输入, 并根据输入判断其是否具有关联性。
我们假设有源I_S及其perfect ground truth目标I_T和相关但不相同的目标I_T^-. 通过转换器C, 我们能够推导出\hat{I}_T. 定义域鉴别器的损失为L_A^D. 则:

只有在源与其ground truth目标配对作为输入时, 才会使域鉴别器输出高概率; 而如果配对不是输入, 则会尽可能地降低该概率.
目前我们构建了两个特定领域的判别机制,在实虚分类任务中对应地构建了L_{R}^{D}与A域特定性判别模型L_{A}^{D}。基于这两个损失函数体系,在生成对抗网络框架下采用其对抗训练机制以优化模型性能
在对抗训练中(如图1所示),首先需对判别器进行训练。然后采用目标批次数据对判别器中的real/fake分类器进行微调。接着利用源域与目标域的数据分别对全局判别器进行优化。随后将全局判别器参数固定并优化编码映射层参数以提升两个判别器的损失度。

算法1. 像素级域转换的对抗训练
转换器的损耗函数可以表示为:

在实验中,作者采用的基线与该论文实验方法的记号与描述如下:
| 记号 | 描述 |
|---|---|
| C+RF | 仅使用real/fake鉴别器训练的转换器 |
| C+MSE | 仅经过均方损失训练的转换器 |
| C+RF+DD-Neg | 经过两个鉴别器训练的转换器。不使用负对 仅使用正对 |
| Retrieval by DD-score | 检索训练集中最近的产品图片 查询的是测试集中的人像 检索分数来自域鉴别器 |
| C+RF+DD(Ours) | 经过两个鉴别器训练的转换器 |
基于穿着者提供的输入图像设计相应服装的实验中,请将本文提出的方法与表2中列出的两个基准方法进行对比分析。通过用户研究对模型性能展开验证工作,在针对真实性、属性捕捉以及同类别的三个关键指标上开展测试。测试结果显示,在各项指标上表现优于现有方法;其中,在属性捕捉能力和跨类别识别方面表现尤为突出。这些实验结果充分证明了域鉴别器的有效性
研究者进一步利用像素级别的相似性进行定量评估。基于测试集生成的图像与目标图像之间的均方根误差(RMSE)计算结果表明,在‘C +MSE’方法中获得的RMSE值是最小的;这一策略旨在通过最小化均方误差损失函数来优化转换器参数;而从结构相似度指标(SSIM)来看,在所有基准模型中表现最佳的是C+RF+DD架构。
基于该框架不受特定领域或问题的局限性考虑,在此背景下作者希望将这一技术拓展至从低级图像处理延伸至高级合成的各种类型的像素级域转移问题。
相关工作了解
基于细粒度服装属性的深域自适应人物描述方法(CVPR 2015)
在《Pixel-Level Domain Transfer》这篇文章中提到了一种已被实现的技术用于将图像域间转换。该技术利用深度域自适应网络DDAN具备计算能力来衡量两个不同领域的相似程度,并不需要构建或确定公共特征子空间或度量空间。
该系统系统性地解决了基于细粒度服装属性来进行人物描述这一关键问题。这一挑战对多个实际应用场景具有重要意义,在线零售平台和消费者图像数据库中获取详细的服装描述信息已成为解决这一挑战的重要途径之一。然而由于这些图像通常是在理想化的条件下获取的因此直接将其作为训练数据进行细粒度属性预测存在显著局限性为此作者提出了一种创新性的双路径跨域自适应框架通过联合建模两个不同领域的数据以弥补这一差距在两个领域特征的一致性以及可预测性方面都实现了显著提升实验结果表明所提出的框架能够在细粒度分类任务中获得优异性能为此设计并训练了一个基于改进RCNN架构的人体姿态检测模型用于精确识别和定位人体部位
贡献总结如下:
本研究旨在通过大规模数据集探索细粒度分类问题,并详细描述了服装的微小特征。该论文的目标是在大规模环境下进行细粒度的属性学习,并通过大规模数据集探索细粒度分类问题。早期的方法通常只能识别有限数量的大规模类别。
大型数据集合(Large-scale dataset)。该研究团队获取了一个标注(annotated)clothing(服装)大数据集(dataset),其中包括超过1,000,000张图像(images)以及数百个详细属性特征(attributes)。目前而言,在clothing领域进行属性学习所使用的数据规模最大的就是这一庞大的标注clothing dataset不仅为研究人员提供了丰富的研究资源而且许多应用都能从中受益(benefit)。
深度域适应。为了缩小其在处理两个服装领域时所关注差距的空间维度,并构建了一个专门设计为处理这两个领域任务的双路径深层神经网络。通过分别对这两个领域执行建模任务,并引入若干额外的对齐层来连接这两个分支以促进信息传递的一致性保证。
在实际应用环境中运行的工作系统。作为实际产品的组成部分,作者的工作职责属于其中的一部分;实时监控视频时进行信息检索的前提是能够根据细致层级的服装特征对视频内容进行精准定位和匹配。
SketchyGAN:从草图中合成逼真的图像 (CVPR 2018)
生成逼真图像的任务在计算机图形学和视觉领域是一个具有挑战性的研究方向。
这篇论文探讨了生成对抗网络(GAN)在图像到图像翻译领域的若干代表性研究工作。其中一项工作是条件对抗网络的图像到图像翻译,该研究展示了基于条件GAN实现任意两个图像之间的直接转换方法。值得注意的是,在这一领域中除了上述方法外还有其他相关探索工作:Scribbler:基于草图与色彩控制深度合成实现了基于草图与色彩信息的深度合成;像素级域转换(样式迁移)则通过单一对多的方式实现了像素级域间的样式迁移;此外还有一种无监督学习框架-无监督图像到图像翻译网络,该框架由耦合生成对抗网络与一对变分自编码器组成,并通过循环一致性损失提升了无监督翻译性能;最近的研究则提出了周期一致对抗网络驱动的无配对图像到图像翻译,这种方法通过强化循环一致性损失进一步提升了无监督翻译效果。
总结
本周加深了对生成对抗网络的了解,包括其原理、应用及一些衍生结构。
对一些基本概念如均方误差、交叉熵、JS散度的印象加深。
对以PixelDTGAN为中心的图像到图像翻译相关工作的初步认识。
