Advertisement

stylegan2:analyzing and improving the image quality of stylegan

阅读量:

StyleGAN 和 StyleGAN2 是深度学习领域中的重要生成模型,其核心在于解决生成器架构中的特征伪影问题并提升图像质量。 StyleGAN 的显著特征是其独特的生成器体系结构:映射网络 f 将潜在编码 z 转换为中间潜在编码 w,并通过仿射变换和自适应实例归一化(AdaIN)参与合成网络 g 的工作。然而,这种架构可能导致特征伪影的产生。
在 StyleGAN1 中主要存在两个问题:一是液滴状伪影的出现;二是渐进式增长(Progressive Growing)方法可能导致分辨率不足的问题。 StyleGAN2 通过重新设计生成器架构和改进归一化方法解决了这些问题:
去除归一化操作:液滴状伪影的根本原因是 AdaIN 的归一化操作破坏了信号的统计特性。通过移除归一化操作并仅保留调解步骤,液滴状伪影得以消除。
改进实例归一化(Instance Normalization): StyleGAN2 将实例归一化的应用范围进行了优化,在保留样式特定效果的同时去除了伪影的影响。
评估指标优化: 在量化图像质量方面引入了感知路径长度(PPL),该指标能够更准确地反映潜在空间到输出图像的映射平滑度。
此外, StyleGAN2 对渐进式增长进行了优化,在保持训练效率的同时提升了图像质量。整体而言, StyleGAN2 在保持生成能力的同时显著提升了图像质量和可控制性,并在风格迁移(style mixing)等方面表现出更好的性能。

对 StyleGAN 及其进阶版本 StyleGAN2 的深入解析及其应用前景研究

论文译文

论文译文

abstract:

深入探究了影响生成器性能的关键因素后,在现有研究基础上提出了改进型的数据归一化策略,并对现有的分步生成框架进行了优化研究。在此过程中,在潜在编码与图像之间映射的质量提升方面引入了新型正则化机制。

1.introduction

StyleGAN的核心特性体现在其非传统生成器架构中。映射函数f不再单独馈送给网络起始部分,而是被转换为中间潜在编码w。随后通过自适应实例归一化(AdaIN)机制辅助合成过程。此外,在合成阶段引入额外随机噪声图像有助于提升多样性。

诸多观察者已�看一下由StyleGAN [3]生成的图像中均可见特征伪影现象。本研究团队深入探究后发现造成这种伪影现象的原因主要有两个方面,并在此基础上提出了相应的解决体系及改进训练方法。首先,我们对常见的斑点状伪像进行了系统性研究,发现这种伪影的根本原因是生成器故意构造这些图像片段以规避现有架构设计中的潜在缺陷.在第二部分中,我们重新设计了一种改进型归一化机制BN,该机制成功消除了上述斑点状伪影.其次,针对与渐进式增长相关的伪影问题[23],尽管这一现象在稳定训练高分辨率GAN方面表现优异,但我们提出了一种新的解决方案——即从关注低分辨率图像入手,逐步过渡到高分辨率建模.值得注意的是,这一新方案并未改变网络的整体拓扑结构,而是通过优化训练策略实现了相同效果.这种创新设计不仅使我们能够更清晰地评估生成图像的实际分辨率水平(该值低于预期值),从而进一步优化网络容量配置(如第4节所述)。本文的主要贡献便在于针对StyleGAN留下的这两种典型伪影问题提供了解决方案。

生成网络的图像质量量化评估是一个具有挑战性的研究领域。Frechet初始距离(FID)作为一项重要指标,在Inception-v3特征空间中对两个分布间的密度变化进行了评估。然而研究表明FID本质上依赖于分类器架构,在这种情况下可能无法全面反映真实世界的视觉感知效果。此外,在关注纹理特征上表现出更强优势的一类网络体系中,“形状”相关的评价指标往往难以达到预期效果;而PPL度量则提供了一种有效的量化方法来评估潜在空间中的插值效果 quality.

2.removing normalization artifacts

我们首先注意到StyleGAN输出的大部分图像都呈现出具有水滴特性的斑点状伪像(如图1所示)。即使液滴在最终图像中不易察觉但它会在生成器的中间特征图中标明其存在(见图1底部部分)。这种异常现象最早出现在64×64分辨率附近并在所有特征图中均可观察到随着分辨率升高其表现愈发显著。这种令人困惑的持续现象引人深思因为判别器本应能够识别出这些伪像的存在。

问题源于AdaIN机制。该运算通过分别实现对各特征图均值与方差的标准化处理,在网络传播过程中不断干扰各层次特征图所携带的信息。液滴伪像现象源于生成器通过实例归一化间接放大了信号强度。这种放大效应能够显著增强各统计量在局部区域内的尖锐性。生成器同样具备对信息量进行调节的能力,在这一机制下实现了对数据分布的有效重塑。若移除实例归一化层,则液滴伪像现象将不再出现。总结而言,实例归一化的存在会导致这种现象的发生;其潜在原因可能在于各层归一化操作破坏了原始信号结构。

2.1 generator architecture revisited

图2展示了我们对StyleGAN合成网络架构进行优化后的结构。(a)原始架构中,A表示基于W空间学习的仿射变换生成风格向量,B代表噪声广播操作。(b)展示了与原有细节完全一致的版本在此基础上,我们将AdaIN分解为显式标准化后再实施缩放操作,并对每个特征图分别计算均值和标准差,同时对权重参数w、偏置b以及输入常数c进行了详细标注,并在图形中用灰色框加以突出显示,以确保每一块框对应特定风格特征的有效激活。激活函数Leaky ReLU作用于经偏置处理后的结果。(c)本节重点展示了改进后的架构设计,相较于原有版本,我们的改动主要体现在简化了不必要的运算步骤,特别地,将B和B的操作从样式的有效作用域中分离出来,仅调整各层级特征图的标准差以达到优化效果。(d)改进后的网络架构通过引入"解调"操作取代了传统的归一化过程,该操作适用于与卷积层直接相关的权重参数调整中

这张图展示了生成过程的关键发展轨迹。原始版本中的基础架构由第一张图呈现出来,并通过第二张图对生成器的工作原理进行了详细解析。其核心机制可分为两个关键环节:一个是基于通道均值进行归一化处理的操作(该过程对应于2a中的描述),另一个是对特征之间的差异进行调节的过程(如2b所示)。值得注意的是,在样式块内引入了偏置层和噪声层来实现这一功能(如上文所述)。这些操作位于卷积层之后、归一化之前的阶段,并且主要作用是为未标准化的数据域施加特定变换以获得预期效果。具体而言,在未经过归一化处理的情况下完成这些操作能够显著提升模型性能(如上图中c部分进一步说明)。在这一过程中,标准差计算成为了主要关注点,并通过标准化操作来优化输出结果(在此过程中不需要对平均值进行单独调整)。

2.2 Instance normalization revisited

还是上图这张图,液滴现象是由归一化产生的,我们在生成器架构进行了改进,对b和B的位置进行了移动,去掉了mean值,但是归一化操作依然存在。而且实例归一化很重要,如何在保留样式特定比例的效果的同时松弛它呢?style mixing是stylegan有能力去控制生成图的一个重要的能力,style mixing通过将不同的latent w在推理时送入到不同层,在实践中,风格调制可以将某些特征图放大一个数量级或更多。 为了使style mixing发挥作用,我们必须在每个样本的基础上明确抵消这种放大。我们也可以简单删除归一化,但这样特定效果的控制就很难实现了。实际上失去了stylegan的可控制性。现在,我们提出了一种替代方法,该方法在保留控制性的同时删除伪像。就是上图中d这种方式。实际上采用了权重归一化的方法。

至此为止可以说到了这个阶段StyleGAN 2已经基本完成了其核心功能在后续的研究中尽管StyleGAN 1与StyleGAN 2在风格上有着相似之处但也存在许多值得探讨的研究方向总体而言StyleGAN 1两大核心技术分别是latency编码器(latent w)以及层次化输入结构而StyleGAN 2则是在前者的基础上实现了对其生成器架构的关键性改进即通过消除生成器架构中的伪影现象并实现模块化重构与优化设计使得其整体性能得到了显著提升

3.Image quality and generator smoothness

尽管GAN度量标准(例如FID或Precision and Recall(P&R))成功地反映了生成器的关键特性,但它们仍然存在局限性,特别是在图像质量方面表现不佳.我们发现,明显的一致性差异的关键在于要素空间的选择方式,而不仅仅是度量方法的基础理论.最近研究表明,基于ImageNet [35]训练的分类器更倾向于依据纹理而非形状进行决策[11],而人类则普遍关注形状特征[28].这在我们研究的情境下具有重要意义,因为FID和P&R分别采用了InceptionV3 [39]和VGG-16 [39]等高级特征作为参考指标,这些特征正是通过特定方式训练得到的.因此,我们可以预期这些指标会倾向于重视纹理检测能力.这样一来,具有强烈猫特征且显著纹理差异的图像样本可能在FID评估中显得更为相似,其差异程度甚至超过了人类观察者所关注的具体细节特征.这种现象部分影响了基于密度计算的方法(如FID)以及多维度覆盖评估体系(如P&R)的效果.

我们发现感知的图像质量和感知路径长度(PPL)之间存在有趣的关联[24]。其中,PPL这一指标最初是由平均LPIPS距离计算得出,用于评估潜在空间内的生成器映射平滑度[49]。再次查看图13和14,我们注意到较小的PPL值可能预示着更高的图像质量,而其他指标并未显示出类似的变化趋势。如图所示,在进一步分析中发现这种关联更为显著。

我看mmgeneration中stylegan系列的评测指标也是3个,FID,PR和PPL。

4.progressive growing revisited

虽然采用Progressive growth技术来提升生成效果,在实际应用中仍存在一定的局限性

采用Progressive growth的原因在于其能够有效处理高分辨率图像所需的较深层网络架构。然而,在这种架构中存在一个显著的问题:由于过于深度的网络架构在训练过程中存在挑战。为此可以通过引入skip connections能够有效缓解深度神经网络中的梯度消失问题。因此形成了如图所示的三种不同的设计架构,并对每种设计方案进行了性能评估结果将在后续章节中详细讨论

从评估指标ppl的使用情况开始,在之后的部分主要涉及训练策略和实践中的相关讨论,在有时间的情况下值得一读

全部评论 (0)

还没有任何评论哟~