Neural Style Transfer :A Review
论文地址:https://arxiv.org/abs/1705.04058
翻译:https://www.cnblogs.com/skykill/p/6878232.html
这篇文章是图片风格迁移的综述:
图像在风格迁移方面主要采用两种途径:一种是通过反复更新图片特征来进行认知模式识别的技术;另一种是通过模型参数优化来提升生成质量的技术。
一、基于图片迭代的描述性神经方法
利用白噪声合成一幅图像,在此过程中基于噪声进行初始化,并经过反向传播过程实现目标优化。总损失包含内容图轮廓损失与风格图文理损失两个方面。
二、基于迭代模型的生成性神经算法
基于某特定风格图像,在大规模数据集上训练前馈神经网络模型时,我们采用梯度下降算法进行参数更新以优化神经网络性能
为了量化风格差异程度,主要针对文本生成领域中的内容组织机制研究提出了两类技术:一种是基于马氏密度模型构建的描述性神经网络架构;另一种是基于马尔可夫随机场设计的深度学习模型。
一、基于MMD的描述性神经方法
采用最大均值差异法。基于两个概率分布的样本集合,在样本空间上定义一个连续可测函数f(x),计算不同分布下的样本在函数f(x)作用下的期望值。通过比较这两个期望值得到两分布间的均值差异度量(mean discrepancy)。为了衡量两分布间的差距大小,则需找到使该mean discrepancy达到最大化的函数f*。最终将该mean discrepancy定义为检验统计量MMD(Maximum Mean Discrepancy),利用这一统计量可判断两个概率分布是否相同:若其取值较小,则认为两者来自同一分布;反之则认为两者之间存在显著差异性。同时这一度量指标也可用于评估两分布之间的相似程度高低。
二、基于MRF的描述性神经方法
先前的文章详细探讨了基于卷积神经网络的图像风格转移方法。该方法通过结合一张content图像和一张style图像,在生成的新图像中既保持了原始内容图的核心结构特征,并且也呈现出特定的艺术风格元素。今天我们将介绍一篇相关文章:Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis这篇研究与前文所讨论的方法相比,在该研究中引入了马尔可夫随机场模型作为核心组件,并且不再依赖于单个像素级别的直接映射关系。该方法通过马尔可夫随机场模型将特征图分解为多个局部区域(patch),并通过优化算法寻找这些区域之间的最优配对关系。
给定一张content image

以及一张 style image

,我们希望合成一张图像

将 style image 的风格迁移至 content image 的布局,并通过 MRF 实现合成图像中局部区域与其与 style image 间的相似性匹配;从而构建如下能量函数:

我们需要求解上面的优化函数得到最优的 xx

我们用 EsEs 来表示风格损失函数;而 Φ(x),即为神经网络中某层的特征图集合;同样地,在这里我们用 EcEc 代表内容损失函数;此外,在整个过程中我们引入 Υ(x),它用于平滑合成图像。接下来我们可以探讨每一个损失函数的具体表达式:

此处mm被定义为函数Ψ∘φ在x处取值域的基数。记ψ_i∘φ在x处的值为一个局部patch,则ψ_{NN}(i)∘φ在xs处的值对应于与该patch最匹配的那个局部patch。

简单来说,就是将feature maps 的集合

生成很多local patch,这些 local patch 组成一个 patch 的集合

, 在这个 patch 的集合中,每一个patch

在

都有一个最佳的匹配,

计算的不是像素块之间的均方误差(MSE),而是对图像中的块进行比较。这种方法利用马尔可夫随机场模型分析图像块间的依赖关系。尽管如此,在保留细节信息方面表现得更加出色。然而其复杂度也因此显著提升。
content loss function 和之前的一样,计算feature maps 之间的欧氏距离:

正则化选项的表达式如下:

这个相当于在水平方向和垂直方向做差值。
将这三项结合起来,利用BP算法,求最终的合成图像 xx.
