笔记:pixel-level domain transfer
本文通过结合对抗网络与深度生成模型来解决不同域之间的样本生成问题。具体而言,在源域的数据基础上推断目标域的具体特征表现。该方法通过生成器(encoder)从源域数据中提取低维语义特征,并由解码器将其映射到目标域的空间表达中。为了优化这种跨域映射关系的表示能力,在训练过程中采用了两个判别器辅助学习策略:一个是real/fake-discriminator用于区分虚假与真实图像;另一个是Domain discriminator用于评估目标领域图像的质量与一致性。此外,在解码器部分增加了pair-wise损失函数设计环节,在保证目标领域图像质量的同时有效保留了源领域关键语义信息特性。整个系统的架构设计如下:

其最上层对应网络中的生成模型由编码器和解码器组成;其中编码器用于捕获图片中64维低级语义特征;解码器则基于这些语义信息生成目标领域上的具体样本实例。值得注意的是,在源领域与目标领域之间,并非是一一对应的关系而是多对一的关系模式;以下将从该三层结构及其训练方法两个方面展开介绍;convertC由编码器和解码器构成;其中编码器用于捕获图片中64维低级语义特征;解码器则基于这些语义信息生成目标领域上的具体样本实例;需要注意的是,在源领域与目标领域之间,并非是一一对应的关系而是多对一的关系模式

源域上存在人,在目标域中没有相应的人存在;然而,在各个不同角度下进行了图像映射后,在目标域中的样本呈现出多样性

3. domain discriminator:判别器D_{\text{domain}}的输入为一对样本(x, y)。其中真实/生成判别器D_{\text{real/fake}}虽然能保证生成模型输出图像具有自然属性特征(即图像具有清晰、连贯等特性),但并未对样本类别间的配对关系施加约束。这样会导致生成图像可能缺乏类别信息。为此作者引入了新的数据构造方法,在源域和目标域分别抽取对应样本来构建训练对(x_s, x_t)。通过这种方式作者能够确保不同类别间的语义关联性得以保留。

仅在一个样本属于源域、另一个为对应的目标域ground truth的情况下(即数据集中提供的样本对给定时),该损失达到最小值。因此该判别器引入了pairwise级别的监督信号。确保生成的目标域图像与其对应的源域图像之间具有相关性。
