Stack GAN:Text to Photo-realistic Image Synthesiswith Stacked Generative Adversarial Networks 论文解读
本论文探讨了StackGAN这一技术,在生成对抗网络的 stacked架构下实现了从文本生成 photo-realistic 的图像合成过程。
就StackGAN这篇论文而言,在阅读并深入理解其原理与实现细节方面花费了一定的时间。本文旨在向读者介绍这篇论文,并分享自己对其研究价值的一些看法(如有不当之处还望指正)。大家普遍认为这篇文章在ICCV 2017的竞争中缺乏创新性,但其效果非常出色。本文不做深入评价。
在这篇论文之前的工作中,在应用模型与自然图像之间即使借助目标的额外标注信息也只能实现128x128分辨率的画面生成。然而StackGAN成功解决了这一问题,并且无需依赖额外的信息也能实现256x256分辨率的画面生成效果。图中展示了该论文的核心原理图解示意图。
- Stage I GAN
- Stage II GAN
- 条件增强技术(CA)
- 实验结果展示部分
其中
- 参考文献
关于StackGAN这篇论文的研究经历耗时较长,在这段时间内重点介绍了这篇论文,并分享了自己对其的理解与看法。如有不当之处,请随时提出修改建议,在此表示感谢。普遍认为这篇发表于ICCV 2017的文章在创新性方面没有太多突破,但其应用效果非常显著。这里不做深入评价
对于用GAN生成高分辨率图像的主要挑战在于自然图像与应用模型在高维像素空间中的分布不一致。在本文之前即使利用目标对象提供的额外注释信息也只能产生128×128大小的画面。而StackGAN通过解决了这一问题无需依赖额外的信息也能够生产出256×256大小的画面。下图是这篇论文的核心原理图

整个的结构主要分为Stage-I GAN 和Stage-II GAN
Stage-I GAN
基于条件生成对抗网络(CGAN)的框架下展开研究。首先我们将原始文本通过预定义的处理流程转换为一个长度固定的文本嵌入(text embedding)向量 ψt 。本研究工作中我们采用了现有的高效编码器模块[1] 。该嵌入向量随后会被引入一个新型的增强学习组件即条件增强器(Conditioning Augmentation,CA)。具体而言这个增强组件能够动态地输出一个辅助向量 c0 。将此辅助向量 c0 输入到生成模块 G0 中 并将其与服从高斯分布的噪声变量 z 合成在一起 G0 将会输出一张分辨率64 x 64的空间图像样本 。关于辅助变量 c0 和其相关的 z 向量维度参数将在后续章节详细阐述 。为了使 G0 产生的图像样本具有清晰可辨的质量特征 我们设计了一种多级特征映射机制并将其输出与 z 向量相结合形成完整的图像重建模型 。此外为了实现对复杂场景的有效建模 我们在此基础上增加了KL散度损失项到 G0 的优化目标函数中 并通过实验验证了该方法的有效性以及对提升模型性能的关键作用

Stage-I GAN 的目标函数为:

我们训练D0和G0,通过最大化等式(3)和最小化等式(4).在这里我们设置λ=1.
Stage-II GAN
Stage-II GAN结构上与Stage-I GAN有一定的相似性,在具体实现上仅进行了少量调整以优化性能。在模型架构中需要将输入向量ψt经过条件增强(CA)器处理后生成一个表示向量c。值得注意的是这里的c与Stage-I GAN中的c0有所不同,在于它采用了独立的全连接层模块分别生成了不同的均值μ(ψt)和方差∑(ψt)以实现更为灵活的特征表达。此外,在前一层网络G0生成的64x64像素图像被引入主网络G中用于改进训练效果这一设计也体现了对模型性能的深入优化策略。为了进一步提升文本信息提取能力向量经过压缩编码并结合空间拼接技术后将与主网络生成的图片结合在一起执行下采样操作以完成特征提取这一环节的关键步骤最终通过残差快实现了多级特征融合并输出了一个256x256分辨率的高质量重建图像这一过程不仅有效提升了文本信息提取能力还显著提高了图像重建的质量水平。
Stage-II GAN的目标函数定义为:

Conditioning Augmentation,CA

服从高斯分布的条件变量c₀由文本嵌入向量ψₜ经过全连接层生成其均值μ₀与方差σ²₀,并与服从标准正态分布ε(即ε~N(0,1))通过方差相乘及均值相加的方式构建新的高斯分布c₀ ~ N(μ₀, σ²₀)。需要注意的是,在这一过程中:
- 均值μ₀等于ψₜ的均值函数μ(ψₜ)
- 方差σ²ₐ则等于ψₜ协方差矩阵∑(ψₜ)沿对角线元素取值
而Stage II GAN架构中使用的条件变量c也采用了类似的生成机制。
好啦,原理说完直接来看结果吧
实验结果


除此之外还有一些其他类型的对比消融实验 这里不做详细阐述 不感兴趣的朋友可以直接跳过 有需要的读者可自行查阅原文
转载请说明出处
参考文献
[1] S. Reed, Z. Akata, B. Schiele, and H. Lee. Learning deeprepresentations of fine-grained visual descriptions. In CVPR,2016. 3, 5
