Generative Adversarial Text to Image Synthesis 论文解读
链接: [link]https://arxiv.org/pdf/1605.05396.pdf
斯科特·雷德、泽 newline因佩奇·阿卡塔、新 陈燕、莱恩·拉贾努金·洛吉斯瓦兰
本·席尔瓦、洪湖勒
这篇文章发表在ICML 2016上我认为非常值得一看 我将自己对于文章的理解进行分享 希望能与各位读者共同探讨 如果有任何不足之处还请大家批评指正
这篇文章发表在ICML 2016上我认为非常值得一看 我将自己对于文章的理解进行分享 希望能与各位读者共同探讨 如果有任何不足之处还请大家批评指正
将文本转化为相应的图像表示,在这一技术始终处于发展中。通过深度卷积神经网络与递归神经网络的结合,在分析单词与字符时实现了对图像像素级别的高度可区分性和广泛的适应性。
为了实现这一目标:旨在建立一个基于单词和字符到图像像素的映射模型
为了解决这个问题,我们可以将其分解为两个相对简单的问题:第一部分的任务是将具有描述性的文本转换为一个特征向量;第二部分则是通过这个向量生成看似真实但其实虚假的图像。
幸运的是:深度卷积网络能够解决这两个问题----自然语言表示和图片生成
论文中提出了以下几个难点以及解决办法:
- 基于文本描述性的语言生成对应的图像,该图像的分布情况呈现多模态特征。研究中采用了风格迁移技术来解决这一问题;
- 采用何种网络架构来进行图像生成。研究中使用了条件深度卷积生成对抗网络(DCGAN),在此方案中将文本描述的特征向量表示替代为分类标签信息作为条件输入;
- 针对有限数量的text-image pairs(对),如何进一步提升生成图像的质量?研究中提出了基于分类损失(GAN-CLS)和基于互信息最大化(GAN-INT)两种指标。
论文中还介绍了一些相关工作
Generative adversarial networks

Deep symmetric structured joint embedding
通过文本描述性语言获得可以用来可视化且有辨别度的特征向量


整个网络结构

生成网络由G表示:RZ × RT → RD;判别网络由D表示:RD × RT → {0,1}。其中T代表文本嵌入向量的空间维度;D代表图片的空间维度;Z代表噪声的空间维度。
工作流程如下:
生成器:
将输入文本通过编码器转化为嵌入向量ψ(t),随后经历全连接层压缩至128维向量;接着应用leaky-ReLU激活函数;最后将压缩后的结果与噪声z(z~N(0,1))在深度方向上进行拼接(concatenated),然后通过反卷积模块生成合成图像x。
判别器:
将生成图像x与ψ(t)作为输入分别进入处理流程;对x进行下采样至4×4×channel分辨率;同时将ψ(t)经过全连接层压缩至N维空间(具体数值未给出),随后通过空间复制扩展至4×4×N分辨率;将上述两部分特征进行拼接后运用未知数量的一维滤波器融合提取特征信息;最终利用4×4尺寸的卷积核计算得到判别分数。
批归一化操作被应用于所有的卷积层中。
Matching-aware discriminator(GAN-CLS)
在原有两种输入基础上增加第三种类型:real images与mismatched text,并要求该discriminator必须能识别这些图像为虚假并给出相应的评分;这种改进措施将有助于提升discriminator的能力以判断G生成图像的质量是否符合预期(基于嵌入向量)的要求;具体而言,在改进后的框架下我们详细阐述了算法的具体实现过程

Learning with manifold interpolation(GAN-INT)
为了增强生成图像的质量, 我们可以通过流型插值技术对描述文本进行处理. 这一过程基于深度网络在嵌入向量之间的学习机制, 其中嵌入空间中的向量呈现出趋向于数据域边缘的特性. 通俗而言, 流型插值后输入到生成器G中的图像风格会更加贴近真实样本, 因此通过与描述文本匹配的真实图像进行微调训练, 可以显著提升模型的训练效果. 例如, 当有两个不同的文本描述: "天上有只黑色的鸟在飞" 和 "地上有只黑色的乌龟在爬", 经过设计优化后的流型插值过程可能会生成类似于"天上有只黑色的乌龟在爬行"的新描述文本. 尽管这一新生成描述并不完全真实, 但它至少包含了一部分正确的元素, 这使得生成图像风格与真实样本具有较高的相似度. 这一过程相当于增加了模型的有效训练样本数量. 最终的目标函数则变为:

t1 和 t2 分别表示不同的文本嵌入向量,此时β取固定值0.5。
文中共对GAN、GAN-CLS、GAN-INT、GAN-INT-CLS四种不同算法的性能进行了对比分析,并最终得出结论认为后者能够最优地整合了前两种算法的实验结果。

风格转换
当文本嵌入向量ψ(t)有效地捕捉图像内容特征时(比如花的颜色与形状),为了使生成图像更加精确,请问噪声变量z能否被配置为捕捉图像的风格特征?比如背景色调或人物姿势。换句话说,“我们是否可以让变量z位于这种特定的分布模式中?”要实现这一点,“我们需要采取哪些措施?”论文中建议采用一种称为风格编码器的技术;

S 为 style 编码器网络。基于已经经过预先训练的 generator G 和 style encoder 的协同作用下即可生成,在文本描述条件下呈现出来的图像,并且其呈现出独特的 style 特征:

实验结果展示


用GAN-INT-CLS算法的实验结果

更多的算法原理和实验细节及结果可看原文。
