Advertisement

CONSISTENCY REGULARIZATION FOR GENERATIVE ADVERSARIAL NETWORKS

阅读量:

CONSISTENCY REGULARIZATION FOR GENERATIVE ADVERSARIAL NETWORKS

广泛认可的是生成对抗网络(gan),其训练过程极其困难;尽管研究者投入了巨大的努力开发出多种旨在提升训练稳定性(即提高收敛效果)的方法论创新成果(即所谓的正则化技术),但这些方法却带来了显著的计算负担(即消耗大量资源),并难以与现有技术(如光谱归一化)实现良好的协同作用(即协同效果欠佳)。在此项研究工作中, 我们提出了一种简单有效的训练稳定器, 该方法基于一致正则化策略——半监督学习文献中已被证实是一种行之有效的技术手段

特别是,在增强传入GAN判别器的数据后,并赋予了更高的惩罚权重以降低其对这些增强数据的敏感度。我们通过一系列实验验证,在光谱归一化以及多种GAN架构、损失函数和优化器配置下,一致正则化展现出显著的效果。与基于CIFAR-10和CelebA的数据集上的其他正则化方法相比,在无条件图像生成任务中实现了最佳的FID分数

此外采用了一致性的生成对抗网络(CR-GAN)架构,在CIFAR-10数据集上实现了基于条件生成模型的FID分数显著降低至14.73→11.67,在ImageNet-2012数据集上同样实现了基于条件生成模型的FID分数显著降低至8.73→6.66。

1 INTRODUCTION

Gan的一个主要缺点是其训练过程的高度不稳定性以及对各种超参数表现出高度敏感性(Salimans et al., 2016) 。由于GAN的训练需要隐式地在连续的高维参数空间中寻找非凸博弈中的纳什均衡,在本质上要比标准神经网络模型复杂得多 。

实际上用形式化的方法去描述GAN训练过程的收敛性仍是一个悬而未决的问题(Odena, 2019)。先前的研究(Miya… et al., 2018a; Odena等人, 2017)发现关注生成器以缓解训练稳定性是个有效的方法。最成功的干预可分为两大类:正则化和归一化方法。谱归一化被认为是生成器中权重矩阵处理的最佳方法之一——它通过将权重矩阵除以其最大奇异值来实现稳定训练。

对于正则化而言,Gulrajani等人(2017)在直连线段上施加了梯度范数的惩罚项。Roth等人(2017)通过直接施加训练数据与生成数据之间的平方梯度范数正则项来改进模型性能。DRAGAN框架(Kodali等人,2017)提出了一种基于高斯扰动的梯度惩罚方法,在该框架下训练数据经过随机扰动后的梯度变化将被有效抑制以防止模型过拟合。预期同时实施两种正则化的措施将有助于提升样本质量

Roth研究团队(2017)开发了一种方法来直接正则化训练数据与生成数据之间的平方梯度范数。该算法采用了一种基于梯度惩罚的新策略,并对经过高斯扰动的训练数据进行梯度约束。

研究者普遍认为同时实施归一化处理和正则化措施能够有效提升样本质量。然而,在现有的基于梯度的方法中(如Kurach等人的研究表明),虽然这些技术能够带来有限的提升(Kurach等人, 2019),但在实际应用中却未能显著改善结果(如本研究发现)。这些常规手段与光谱归一化的初衷均在于控制判别器对输入数据的空间敏感性。我们推测这种状况可能源于这两种技术各自的作用较为有限(如本研究发现)。

在本文中

基于这种直觉,在经过充分研究后发现,在提升判别器性能的同时(可以使判别体具备一致性),从而使得判别体对于任何语义保持扰动具有抗性),更加注重真实数据与人工合成数据之间的语义与结构差异。为此,在设计改进型GAN判别体时(即一种简单的正则化GAN鉴別器),首先,在输入原始图像到GAN鉴別体之前(我们将原始图像经过语义增强处理),并将这些特征通过某种机制加以限制(即引入惩罚机制来抑制鉴別体对这些增强特征的过度反应)。

该方法极为简便,并展现出色的效果。相较于传统技术而言, 其计算开销相对较低, 能够显著提升效率水平。特别值得注意的是, 在我们的实验中, 当采用光谱归一化策略时, 一致性正则化方案通常能显著提升模型性能水平, 这种情况下, 基于传统正则化的改进效果可能会有所削弱**. 通过广泛的消融实验, 我们发现该方法能够在大量不同类型的GAN变体和数据集上展现出稳定的表现优势. 此外, 简单地将这一技术整合到现有GAN架构中, 将能够带来最新的最佳成果

综上所述,我们的贡献总结如下。

  • 我们开发了一种一致性正则化方法专门针对GAN判别器设计,在生成一个简洁且高效的正则化器的同时降低了计算复杂度。
  • 我们对多种GAN变体进行系统性实验来验证我们的技术与频谱规范化之间的良好协同作用。基于此开发的CR-GAN模型在无条件图像生成任务中展现出卓越性能,在CIFAR-10数据集上实现了FID分数从14.73降至11.67,在ImageNet-2012测试集上将FID值进一步优化至6.66。
  • 研究表明仅采用所提出的创新技术即可显著提升现有最先进的GAN模型性能水平,在CIFAR-10数据集上的条件图像生成任务中将FID指标从原先的14.73成功降至新的更低水平11.67;同时在ImageNet-2012测试集上也实现了类似的显著提升。

2 METHOD

2.2 CONSISTENCY REGULARIZATION

一致性正则化已经成为图像数据半监督学习的黄金标准技术(Sajjadi等人,2016;Laine和Aila,2016;Zhai等人,2019;Xie等人,2019;Oliver等人,2018;Berthelot等人,2019)。其基本思想很简单:输入图像以某些保留语义的方式被扰动,分类器对该扰动的敏感性被惩罚。扰动可以有多种形式:可以是图像翻转、裁剪或对抗性攻击。正则化形式是模型对扰动和非扰动输入的输出之间的均方误差(Sajjadi等人,2016;Laine和Aila,2016),或者是输出logit所隐含的类别分布之间的KL散度(Xie等人,2019;Miyato等人,2018b)。

2.3 CONSISTENCY REGULARIZATION FOR GANS

gan中的鉴别器的主要功能是分辨真实数据与生成的数据。这种判断对于所有有效的领域特定的数据增强策略而言是恒定不变的。例如,在图像领域中,在我们对图片进行水平翻转或垂直翻转以及平移几像素后,并不改变图片的真实性这一性质应该是保持不变的;然而,在GANs中,并没有明确确保这一特性。

为了有效解决这一问题,在研究过程中我们提出了一种新的方法:通过在训练过程中引入一致性正则化机制来优化GAN类型的鉴别器性能。具体而言,在实际应用中,在将训练图像传递给鉴別器之前,我们采用随机增强技术来改善其泛化能力,并针对这些增强后的特征进行敏感度惩罚以提高鉴別器的鲁棒性。

为了便于描述,在输入x经过鉴别器第j层激活前的状态下,我们引入符号D_j(x)来进行表示。令T(x)代表一种随机的数据增强操作。该操作既可能采用线性形式也可能采用非线性形式;其主要目标在于维护输入数据的基本语义特征。我们提出了一种新的正则化方法。

在这里插入图片描述

λj代表第j层的权重系数,在这一定义下,k−k这一符号表示一个给定向量所对应的L2范数准则。这种一致性正则化机制旨在促使判别器在面对不同数量的数据增量时,能够对这些数据点生成一致的输出结果

在其中,在这一设定下,在针对神经网络模型进行优化的过程中,在考虑各层次之间的相互关系时,在构建层次间的连接关系时,在处理不同层次的数据特征时,在保证系统整体稳定性的前提下,在提升模型鲁棒性的过程中

在我们的实验研究中发现,在激活函数之前对鉴别器的最后一层施加一致性正则化能够获得良好的效果。其表达式可重新表述为

在这里插入图片描述

在此之后

在这里插入图片描述

我们开发出一种通用型生成模型Lcr,并因此能够与其他类型的对抗性损失函数如LG和LD协同工作(参考2.1节)。具体而言,在算法1中我们基于Wasserstein距离框架构建了相应的CR-GAN模型结构。相较于传统的正则化技术而言,在实验结果中我们发现这种新方法带来的额外计算开销非常有限。在训练过程中需要特别注意的是,在更新判别器参数时需要多施加一次前向传播操作,并在反向传播过程中补充相应的第三张图像输入数据。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~