论文阅读:Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
Abstract
背景:
希望能缩小CNN在监督学习和无监督学习之间成功应用的差距。
贡献:
引入了一类称为深度卷积生成对抗网络(DCGAN)的CNN。
结果:
DCGAN 在生成器和判别器中都能从对象到场景学习表示层次结构。
1. Introduction
贡献:
- 开发了一种新的深度学习模型,并应用于图像分类任务以验证其有效性。
- 开发了一种新的深度学习模型,并通过可视化分析表明该模型在图像分类任务中表现出色。
- 通过可视化分析表明该模型在图像分类任务中表现出色。
- 模型具备向量运算能力,并支持对生成样本进行多维度语义操控。
2. Related Work
2.1 Representation Learning From Unlabeled Data——基于未标记数据的表示学习
- 聚类
- 自动编码器
2.2 Generating Natural Images——生成自然图像
生成图像模型分为两类:参数和非参数。
2.3 Visualizing The Internals Of CNNs——CNN内部可视化
使用输入上的梯度下降,可以检查激活某些滤波器子集的理想图像。
3. Approach And Model Architecture

DCGAN的架构:
- 使用带步长的卷积(判别器)以及分数步长卷积(生成器)取代所有的池化层。
- 生成器与判别器内部均采用批处理归一化技术。
- 在较深的架构中不再包含全连接隐藏层。
- 在生成器部分除了tanh激活函数于输出层外,在其余各层采用relu作为激活函数。
- 判别器中的每一层级均应用leakyrelu激活函数。
4. Details of Adversarial Training
三个数据集:大规模场景的认识(LSUN),ImageNet 1K(ILSVRC),面部数据集
预处理:将训练图像缩放到tanh激活函数范围[-1, 1]
采用小批量随机梯度下降(SGD)进行训练,并设置小批量大小为128。所有权重从一个均值设为零、标准差设为零点零二的正态分布中被初始化。在LeakyReLU激活函数下,默认的漏点斜率为零点二的所有模型被配置。为了进一步优化性能,在其中动量因子被设定为了零点五,并采用了经过微调后的Adam优化器,在其中动量因子被设定为了零点五。
4.1 LSUN
训练一个周期的样本:

收敛后的样本:

4.1.1 Deduplication——去重
基于32x32大小中心裁剪区域上训练了一个具有去噪功能、采用ReLU激活函数并配置为3072-128-3072结构的自编码器模型,并引入了dropout正则化以防止过拟合。该模型通过超过阈值的ReLU激活结果实现二值化处理,并形成了便于后续操作的一种语义哈希表示形式。通过对哈希碰撞情况进行视觉分析发现其精度较高且误识别率低于1%。该方法识别并去除了约27.5万组近似重复数据项,在保持召回率的同时显著提升了数据处理效率
4.2 Faces
4.3 Imagenet-1k
5. Empirical Validation of DCGANs Capabilities
5.1 基于GANs作为特征提取器对CIFAR-10进行分类——通过将GANs用作特征提取器实现CIFAR-10数据集的分类任务
一种常见方法是将无监督表示学习算法用于有监督数据集的特征提取,并考察其在线性模型上的效果。
使用Imagenet-1k上预先训练的模型的CIFAR-10分类结果:

使用GANs作为特征提取器对SVHN数字进行分类
带有1000个标签的SVHN分类:

6. Investigating and Visualizing the Internals of the Networks
6.1 Walking in the Latent Space——在潜在空间中漫步
经常在探索流形的过程中可以发现是否具有显著特征(如果存在快速的变化),以及空间呈现了怎样的动态过程)。如果在这个潜在空间中漫步带来了图像生成的语义变化(比如添加或删除对象),我们可以推断出模型已经具备了高度复杂的表示能力。

6.2 Visualizing the Discriminator Features——可视化判别器特征
通过无监督学习机制,在一个大型图像数据集上训练生成对抗网络(GAN)模型——即DCGAN——同样能够捕获到丰富的层次化特征结构。该研究具体地展示了判别器网络在卧室区域(包括床铺及窗户等典型元素)中对特定视觉特征的学习过程。为了便于对比分析,在同一幅图中还呈现了随机初始化条件下生成器网络的基础特征模式;这些模式并未在任何具有语义意义或视觉兴趣的相关区域展现出显著激活特性。

6.3 Manipulating the Generator Representation——操纵生成器表示
6.3.1 Forgetting to Draw Certain Objects——忘记描绘某些对象
展示了带有和不带有窗口丢弃的生成图像:

6.3.2 Vector Arithmetic on Face Samples——人脸样本上的向量算术
通过基本的算术运算可以发现,在表示空间中存在多种线性结构。以一个典型的实例为例,在向量空间中进行计算时发现:当计算出"King"向量与"Man"向量之差后再加上"Woman"向量时所得的结果其最近邻为"Queen"向量。
视觉概念的向量算法:

在Z空间中,一个“转向”向量是从四个平均的左看和右看的脸样本创建的:

7. Conclusion and Future Work
结论:
构建了一个更为稳定的架构体系用于训练生成对抗网络,并附带证明了该对抗网络成功对图像进行了有效的表征;其中一些表示可被应用于监督学习任务中,并且同样适用于生成建模
问题:
模型中仍存在一些不稳定的形式——随着模型训练时间的增长,它们有时会发生滤波器的一个子集从单个振荡模式中发生重大失活。
未来工作:
将其拓展至多个应用场景中,在视频编码方面(主要用于实时帧预测任务)与音频处理方面(主要用于生成高质量语音合成)都进行了相应的优化。深入探讨学习过程中潜在的空间特性及其相关机制。
