Advertisement

论文笔记:Self-Attention Generative Adversarial Networks

阅读量:

GAN主要分为两个组成部分,分别为Generator和Discriminator.在整个训练过程中,首先需要保持Discriminator不变,然后对Generator进行训练,使Generator产生的虚假图像能够欺骗Discriminator;接着保持Generator不变,对Discriminator进行相应的优化,使其能够区分真实图像与由Generator产生的虚假图像.

在这里插入图片描述

GAN在近些年非常火,但是仍旧存在大量的问题,比如本篇论文主要聚焦解决GAN中长距离依赖性问题。GAN的计算中依托了CNN的框架,CNN中一个基础的概念是卷积核的基本感受域。常见的卷积核的大小有限,通常不会超过11;扩大感受域的另外一个方法是重复叠加卷积层,但是这需要付出大量的计算代价。
因此需要其他的网络架构方式来弥补CNN的缺陷,作者联想到在NLP领域提出的Self-attention机制。self-attention能够学习到更充分的全局信息,也已经被应用到语音领域。

在这里插入图片描述

Self-attention基于CNN的框架,其具体实现方式与自然语言处理领域存在差异。作者在此基础上构建了一个完整的架构模型,包括query、key、value三个基础模块。首先通过一维卷积核分别提取出f(x)和g(x),随后将f(x)转置并与g(x)进行点乘运算。接着应用Softmax函数进行归一化处理,生成注意力掩码矩阵。最后通过另一组一维卷积层生成特征向量h,并对该特征向量与注意力掩码矩阵进行逐元素点乘运算,最后通过最后一组一维卷积层完成特征提取,获得完整的自注意力特征图

改进

谱归一化

作者采用了同年更早发表于SNGAN中采用谱归一化的方法来进行改进优化,并使GAN判别器各层权重矩阵(weight matrix)的最大奇异值设定为1;此外生成器同样从中获益。谱归一化无需额外引入超参数,并且计算简便地实现了防止训练过程中出现梯度异常波动的效果。

Two-timescale update rule

一般来说,在训练过程中判别器的训练速度较快可能会导致生成器生成的图片与判别器之间的差异变大。根据本研究论文中的参数设置Generator采用的是学习率1\times 1e^{-4}, 而discriminator则采用4\times 1e^{-4}

评价指标

在论文中,研究者采用了基于GAN的两个常用评价指标:基于Inception模型计算得出的两个重要评估标准:Inception score与Frechet Inception distance score

IS

Inception score(IS)是由Google提出的基于预训练模型Inception Net-V3进行评估的一项指标。对于单张生成图像而言,在其概率分布熵较小的情况下(即熵值较低),表明生成的图像较为集中于某一类别特征。而对于生成器输出的一组图像样本,在计算其概率分布熵时所得平均值应较大(即较高熵),这表明该生成器能够有效兼顾多类别特征的表现能力。

FID

IS是一种基于生成图像直接进行质量评估的方法;其核心目标是使评分数值越高越好;而FID分数则是在比较生成图像与真实图像的基础上计算出来的;其主要依据是一个"距离值"的大小;数值越小表示生成图像越接近真实图像。

结果

在这里插入图片描述

研究人员研究比较了不同网络层中self-attention的位置设置,并发现将其放置在第32和64层时能够达到更好的效果。这是因为较低层数的模型无法有效学习完整的长距离依赖关系。

在这里插入图片描述

对SAGAN与SOTA模型中的AG-GAN和SNGAN进行比较研究,在多个评估指标如IS、intra FID和FID上表现出色,并且达到了最佳的性能水平。

在这里插入图片描述

SAGAN并非在所有情况下都表现最佳;上图展示了该模型与另一种模型(如SNGAN)的对比结果,并采用FID这一指标作为评估标准;下半部分中显示了另一模型(如SNGAN)的表现更为优异的原因:这两组图片具有明显的纹理特征;而上半部分涉及的各种动物颜色搭配和纹理组合较为丰富的情况下,则更适合使用该模型。

全部评论 (0)

还没有任何评论哟~