Advertisement

深度对抗学习在图像分割和超分辨率中的应用

阅读量:

对抗学习是一种通过引入判别器来解决不同数据域之间分布不一致问题的方法,通过使判别器无法区分两个不同域的数据,间接使它们属于同一个分布,从而指导深度学习模型更新参数,达到更好的效果。该方法在图像分割、高分辨率重建、半监督学习、域适应等领域得到了广泛应用。例如,在图像分割中,对抗学习通过引入判别器优化分割模型,使分割结果更加一致且具有连续性;在高分辨率重建中,对抗学习结合内容和对抗代价函数,显著提升了重建质量。实验结果表明,对抗学习方法在多个领域均取得了显著效果,且在高放大倍数和复杂场景中表现尤为突出。

深度对抗学习在图像分割和超分辨率中的应用

1.前言

在图像分类、检测、分割以及高分辨率图像生成等多个领域,深度学习已经取得了显著的成绩。然而,它也面临着一些挑战。首先,它与传统的机器学习方法一样,通常假设训练数据和测试数据遵循相同的分布规律,或者在训练数据上的预测结果与测试数据上的预测结果具有相似性。然而,这种假设在实际应用中往往不成立,例如测试数据上的预测准确率通常低于训练数据,这反映了过拟合的问题。另一个问题是,深度学习模型(如卷积神经网络)在学习训练数据中的某些特征时往往表现不足。例如,在图像分割任务中,现有模型在像素级别的分类准确率通常较高,但往往会忽视像素之间的相互关系,导致分割结果不够连贯或与真实标注存在较大的尺寸或形状差异。

2.对抗学习

对抗学习(adversarial learning)旨在解决上述问题。在学习过程中,我们可以认为模型,如卷积神经网络(CNN),应输出一个结果,使其在输入数据X上的输出结果应尽可能接近真实结果Y(金标准)。为实现这一目标,我们引入了一个鉴别器(discriminator),该鉴别器能够识别输出结果y是来自模型预测还是真实结果。当鉴别器水平较高且难以区分y与Y之间的差异时,说明我们所寻求的模型应具备良好的表达能力和预测能力。本文通过近期多篇文献介绍了对抗学习在图像分割和高分辨率图像生成领域的应用。

3.GAN用于图像分割

Semantic Segmentation using Adversarial Networks (https://arxiv.org/abs/1611.08408, 25Nov 2016)首次将对抗网络引入图像分割领域,该研究的方法如图所示。该方法通过对抗网络的引入实现了图像分割的显著提升,为后续研究提供了新的方向。

左边部署了一个基于CNN的分割模型,右侧引入了一个对抗网络结构。该对抗网络能够处理两种不同的输入形式:第一种输入形式为原始图像与分割结果的组合,第二种形式则为原始图像与金标准的结合。输出结果为分类判断值,其中1表示模型判断输入属于第一种情况,0则表示判断输入属于第二种情况。该代价函数旨在通过区分原始图像与其分割结果或金标准的差异来优化模型性能。

其中,Θs和Θa分别代表分割模型和对抗模型的参数。yn被视为参考标准,s(xn)则为分割输出。上式第一项对应经典的分割模型损失函数,如交叉熵(cross entropy),其计算基于概率值的负对数。第二项和第三项则为对抗模型的损失函数,其目的是使对抗模型难以区分yn和s(xn)。第二项的权重系数为-λ。在训练阶段,我们交替优化分割模型参数(Θs)和对抗模型参数(Θa)。具体而言,对抗模型的损失函数为:

通过优化该函数使其达到最小值,从而获得性能最佳的判别器,即为对抗模型。用于训练分割模型的代价函数是:

yns(xn)在像素级别趋近于彼此,同时通过设计使得判别器无法从整体上分辨两者。如图所示,对抗模型生成的图像在空间维度上表现出高度的一致性。

另外从训练过程中的性能上也可以看出,使用对抗训练,降低了过度拟合。

4.GAN用于半监督学习

An Adversarial Regularisation for Semi-Supervised Training of Structured Output Neural Networks(https://arxiv.org/pdf/1702.02382.pdf, 8 Feb 2017),这篇文章中使用对抗网络来做图像分割的半监督学习。半监督学习中一部分数据有标记,而另一部分数据无标记,可以在准备训练数据的过程中节省大量的人力物力。

假设(xt,λt)是有标记的训练数据,xu是未标记的训练数据, 理论上分割结果fw(xt)与fw(xu)应该同分布,实际上由于x的维度太大而训练数据不足以表达它的所有变化,因此fw(xt)与fw(xu)存在一定偏差。该文中使用一个判别器δu(y)来得到来自于有标记的训练数据的分割结果fw(xt)的概率,1-δu(y)作为y是来自于未标记的训练数据的分割结果的概率。

训练过程的代价函数为:

C(w)被称为基于标记数据的常规代价函数,而Cadv(w)则被称为基于未标记数据的代价函数,其定义为:

该代价函数旨在使分割算法在标记数据和未标注数据上最大限度地得到一致的结果。其核心机制在于通过使用未标注数据,实现对分割网络参数的正则化处理。

结果显示,在CamVid数据集上,采用不同比例标记数据的训练效果进行了对比。相较于仅使用标记数据的蓝线,该方法在实验中取得了显著的性能提升,具体结果可见图中红线部分。

5.GAN用于域适应的分割

FCNs in the Wild: 将对抗学习应用于基于域适应的分割任务(https://arxiv.org/abs/1612.02649, 8 Dec 2016)

该方法认为,一个好的分割算法应对于输入图像来自源域还是目标域并不敏感。具体来说,从输入图像中提取的抽象特征应与目标域和源域之间的差异无关,因此,从源域图像提取的抽象特征与目标域图像提取的抽象特征具有相似性。如果使用一个判别器来判断这些抽象特征来自源域还是目标域,那么这个判别器应尽可能无法分辨。方法的示意图如下:

该文章指出,域间偏移主要由两个方面引起:其一是全局性质的,例如不同天气状况下形成的街道场景;其二是与具体类别相关的,例如不同国家间的城市交通标志差异。因此,在构建代价函数时,综合考虑了这两点因素。

其中第一项对应于常规监督学习的代价函数。第二项则是对抗学习的目标函数,该函数包含两个最小化过程:首先,更新特征提取网络,使得来自两个域的图像特征趋于接近,从而使得判别器无法有效区分这两个图像域;其次,更新判别器参数,使其能够尽可能地区分两个域中的图像特征。Lmi(It,Pls)是一种与特定类别相关的代价函数。其核心思想是通过分析源域标记结果中各类别物体尺寸范围,以此作为先验知识,来约束目标域图像的分割结果。

该图展示的是基于Cityscapes数据集的实验结果。实验中,将训练集定义为源域,验证集定义为目标域,分别呈现了仅采用全局性域适应(GA)和类别特定域适应(CA)的实验结果。

6.GAN用于高分辨率图像重建

该研究采用对抗学习技术,针对单图像进行高分辨率重建。该方法利用多对齐低分辨率与高分辨率图像训练数据,通过卷积神经网络学习低到高分辨率的映射关系。该方法已展现出显著的性能。传统方法主要针对较低的放大倍数设计,放大倍数超过4时,传统方法重建的图像往往会显得过于模糊,缺乏细节的真实感。其原因在于传统方法通常采用均方误差(MSE)作为优化目标。

该代价函数具有较高的信噪比的重建结果,然而这种代价函数导致重建图像在纹理细节上有所欠缺,呈现过度平滑的现象。该文章中的方法提出的方法称为SRGAN,其认为,重建的高分辨率图像与真实高分辨率图像在低层次像素值、高层次抽象特征以及整体概念和风格上都应保持一致。为了评估整体概念和风格的一致性,可以使用一个判别器,判断一副高分辨率图像是由算法生成的还是真实的。如果一个判别器无法区分两者,则表明由算法生成的图像达到了以假乱真的效果。因此,该文章将代价函数改进为:

第一部分是基于内容的损失函数,第二部分是基于对抗学习的损失函数。基于内容的损失函数除了上述基于像素空间的最小均方差MSE之外,还包含了一个基于特征空间的最小均方差,该特征是通过VGG网络提取的图像高层次特征。

对抗学习的代价函数是基于判别器输出的概率:

其中,Dθd代表真实高分辨率图像的概率。Gθg为重建的高分辨率图像。通过实验结果分析可知,该方法能够有效提升图像重建的清晰度和细节表现。

7.小结

基于对抗学习的概念,我们引入一个判别器以解决不同数据域之间的分布不一致问题。通过使判别器无法分辨两个不同数据域的数据,从而使得它们被视为来自同一分布。这种机制作为一种规则化手段,用于指导深度学习模型更新参数,以达到更优的效果。关于其数学理论基础,可参考文献[1]。

8.参考资料

[1] Goodfellow, Ian, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. "An Exploration of Generative Adversarial Networks." In Advances in Neural Information Processing Systems, pp. 2672-2680. 2014.
[2] Luc, Pauline, Camille Couprie, Soumith Chintala, and Jakob Verbeek. "Adversarial Semantic Segmentation." arXiv preprint arXiv:1611.08408 (2016).
[3] Mateusz Koziński, Loïc Simon, Frédéric Jurie, "A Regularized Adversarial Framework for Semi-Supervised Structured Output Learning," arXiv preprint arXiv:1702.02382(2017).
[4] Hoffman, Judy, Dequan Wang, Fisher Yu, and Trevor Darrell. "Pixel-level Adversarial and Constraint-based Adaptation for Weakly Supervised Learning." arXiv preprint arXiv:1612.02649 (2016).
[5] Ledig, Christian, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken et al. "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network." arXiv preprint arXiv:1609.04802 (2016).

全部评论 (0)

还没有任何评论哟~