Pixel-Level Domain Transfer 论文笔记
Pixel-Level Domain Transfer 论文笔记
-
原理
-
- 使用GAN
- 使用两个鉴别器
-
模型
-
- 生成器
- 鉴别器
- 训练过程
基于像素级的域转移技术1(简称Pixel-Level),是一种基于图像到图像的条件生成对抗网络(GAN)。其目标是通过输入一个穿着者形象 ,生成相应的服装设计或图像。

原理
使用GAN
当源图确定时,在生成结果中可能出现多种不同的答案。
当源图确定时,在计算损失函数时,
直接使用生成器计算得到的目标图像\hat{I}_{T}与样本中的目标图像I_{T}之间的Mean Squared Error (MSE) \left\|\hat{I}_{T}-I_{T}\right\|_{2}^{2}被用作损失的一部分。
同时需要注意的是,在计算过程中假设每个像素值都服从高斯分布,
这可能使得生成的图像整体模糊或失真。
针对该问题,采用鉴別器用於損失函數的一部份,并產出高品質且多樣化的圖像。
使用两个鉴别器
对于一个生成器生成的结果,在文中将其划分为三个类别:\hat{I}_{T}^{+}, \hat{I}_{T}^{\oplus}, \hat{I}_{T}^{-}。其中\hat{I}_{T}^{+}与原图的相关性较强却并非一张自然图像;而\hat{I}_{T}^{-}则是是一张自然图像其与原图的相关性较弱;至于\hat{I}_{T}^{\oplus}则既具有较强关联度又兼具较高的逼真度
文中提出了一种多任务学习框架,在训练过程中的多个阶段分别对不同类型的好坏图进行鉴別分析。该框架由三个主要组件构成:首先,在数据预处理阶段对输入图像进行特征提取;其次,在监督学习阶段通过多任务损失函数对模型参数进行优化;最后,在推理阶段利用预训练模型进行图像分类任务的预测。
模型
在Pixel-Level上配置了一个基于自编码器架构的生成模块C、引入了一对用于判断输入图像真实性的二分类器D_R、部署了一对用于评估生成图像与原始图像关联度的二分类器D_A。

生成器
值得注意的是,在这种情况下中
鉴别器
D_R接受I_T的所有图片进行训练,最后通过sigmoid输出。
D_A接收了一组包含I_S,I_T的数据,并将这些数据系统地组织成一个具有维度为64×64×6的标量作为输入。经过sigmoid函数处理以生成最终输出。
训练过程
作者将样本分为I_S和I_T两个部分,I_T又分为I_{T}^{i}, I_{T}^{i-}, \hat{I}_{T}^{i}三个部分。
每次批次数据处理时,在第一次迭代中完成对DR模型的预调参,在第二次迭代中完成对DA模型的调参工作;同时确保它们分别接收I_{T}^{i}, I_{T}^{i-}, \hat{I}_{T}^{i}三者的概率均相等以保证均衡学习效果
- D. Yoo, N. Kim, S. Park, A. Paek, and I. Kweon. Pixel-level domain transfer. In European Conference on Computer Vision (ECCV), pages 517–532. Springer, 2016. ↩︎
