论文笔记(1):CVPR2019-Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
论文地址:arXiv:1812.09877
由于原文没有提供代码,并且发送邮件给作者后却无法回复(石沉),我自行实现了与之对应的部分,并未调试出原始效果。后续计划中将会更新相关内容。目前主要关注理论部分进行记录。
网络结构如图:

这篇论文的核心思想在于通过将latent code设计为卷积核模块的增强器,在遵循对抗网络的传统损失函数的同时,并未引入额外的代价项的情况下实现了多峰输出效果。同时该方法还意外实现了源域与目标域风格差异的有效分离(即风格间的解耦)。值得注意的是该方案并未对生成对抗网络框架进行任何改动而仅通过巧妙的设计实现了上述功能并且计算开销极低(无需额外引入自编码机制或重建任务相关的损失项)。此外该方法显著地抑制了基于图像到图像转换任务中常见的模式退化现象并在质量与转换优化方面具有更大的灵活性
主要目的是实现一个多目标的image2image翻译。通过提供原始图像x作为输入域X,我们旨在将其转换为目标域Y。为了生成多个输出,我们引入一个潜在编码z(从标准正态分布中随机采样),该编码用于编码它们之间的差异特征。

在上文结构图中标注的z₁、z₂、z₃代表什么?
最终网络只使用了一个loss:

具体训练中,使用的是LSGAN的loss:

在实验过程中发现他采用了标签平滑技术,并将其应用于判别器设计中以优化其对真实样本的识别能力
为了将低维潜在向量映射至标量,在求解这一问题时
如上图所示,该系统基于CycleGAN进行了相应的优化。具体改进包括以下几点:首先仅包含单个生成器和单个判别器;其次通过从隐式分布中采样得到潜在编码z作为输入信号;第三步引入了一个可学习的一维全连接层用于将潜在编码转换为标量值,并将其与每一份特征图进行乘法操作。特别地,在经过ReLU激活函数并完成归一化处理前直接使用卷积层输出结果进行计算。
