《image Style Transfer Using Convolutional Neural Networks》论文笔记
1.论文出处:cvpr 2016
2.主要思路:
为实现图像风格转换技术的研究与应用,在本研究中我们采用了一种基于深度学习的方法。具体而言,在分析完两张目标图片各自所具有的内容与艺术元素后(其中一张图片包含丰富的物体细节信息),我们能够较为精准地生成第三张综合图片。这种综合图片既保留了第一张图片的主要物象信息,并在视觉上呈现出第二张图片的艺术风格特点。实验结果表明该方法能够有效实现目标功能。

3.详细思路
主要问题在于如何提取图像的内容与风格特征
3.1总体网络框架
基于VGG网络设计的整体框架中仅使用了16个卷积层与5个池化层提取相关特征,并未配置全连接层。值得注意的是,在具体实现中通过将传统的max-pooling替换为average-pooling的方式处理能显著提升生成效果。
3.2 内容特征的表征:
通过梯度下降方法优化白噪声图片以获得符合原始输入图像是...其中X表示原始输入图像是...,而\hat{X}代表生成的新图像是...

和

为它们在第l层的特征表示。loss函数采用squared-error loss,定义为:

直观上来看,则意味着生成图像x在VGG特征图中的响应与原图像p之间的差距趋近于零。这表明新生成图像x与原始图像p在结构与内容上具有高度相似性。进一步实验表明,在重构过程中采用不同深度层级时效果存在差异。如下所示:

在图中a至e依次应用更高层级的特征以重构图x观察到较高的重构结果更能有效保持整体结构信息然而这种重建过程可能会导致细节层次的信息被部分丢失
为了创造具有特定风格特征的空间纹理效果研究者通过随机梯度下降算法实现这一过程具体而言该方法从纯色背景出发通过迭代优化逐步逼近所需的艺术风格

和

为目标风格图像和新生成的图像,

和

为它们在l层的特征表示。作者定义loss函数为:

所有层loss为:

Gij这个特征其实便是各个层之间的特征map的格拉姆矩阵。计算如下:


在卷积神经网络中,
G^l_{i,j} 表示为第 l 层第 i 位置处的激活值,
其计算结果即用于衡量相同层内各特征图之间的相关程度。
经过这样的计算后能够筛选出主要的、具有显著性的特征并剔除次要或微弱影响的因素,
从而提取出图像的空间纹理特性。
3.4 风格转换
基于输入图像提取了内容特性和 style 特性,
将这两者结合起来即可获得 style 转换所需的特性组合。
具体而言,则是通过最小化生成图像与原始照片之间在视觉感知上的差异以及与目标绘画 style 之间差异的方法来实现。

为输入照片,

为输入的艺术风格图像,loss函数定义为:

