Advertisement

全局与局部一致的图像补全Globally and Locally Consistent Image Completion

阅读量:

全局与局部一致的图像补全

摘要

关键词: 图像补全,卷积神经网络。

1 引言

图像是修复的一种技术

基于Pathak等人在2016年提出的一种称为Context Encoder(CE)的方法

我们选择全卷积网络作为该方法的核心组件,并提出了一种创新性架构以实现图像补全任务的统一性目标。该架构由三个核心模块构成:一个专门负责图像补全的主网络模块;一个全局上下文判别器模块;以及一个局部上下文判别器模块。主网络模块采用全卷积设计以完成图像补全功能;而两个辅助判别器模块仅参与模型训练过程无需用于实际应用阶段。全局判别器模块将整幅输入图像作为输入数据并运行以判断场景的整体一致性;局部判别器则聚焦于填补区域周边的小区域片段以此评估细节质量。在每一轮训练迭代中先优化判别器使其能够有效区分原始图像与补全后的训练样本随后更新主网络使其能够更精确地填充缺失区域从而欺骗上下文判别器检测系统如图1所示基于多尺度上下文信息对于提升图像补全质量具有关键作用

我们对我们的方法与现有方法进行了系统性地比较,并在不同场景下进行了详细评估。我们重点展示了在更具挑战性的特定任务方面的结果。例如,在面部补全领域中(如眼睛、鼻子或嘴巴等对象),我们的方法能够生成包括眼睛、鼻子和嘴唇在内的对象图像片段。通过用户研究来检验这种具有挑战性的面部补全方案的人造特征,在这项研究中发现:当测试者尝试识别真实面部时,在大部分情况下(约77%)无法识别我们生成的结果与真实面部之间的差异

图1展示了我们提出的方法在图像填补任务中的应用效果。遮罩区域采用了白色填充的方式表示其被填补的部分。通过这种方法,我们的系统能够生成原本未存在于原始图像中的新区域内容。例如用于完成面部所需的片段这表明基于补丁的方法无法实现同样的效果。图片致谢来自Michael D Beckwith CC0 Mon Mer 公共领域 davidgsteadman 公共领域以及Owen Lucas 公共领域的作品。

总结来说,在本文中我们提出了:

  1. 这种网络模型表现出色,并具备强大的修复能力。
  2. 该图像补全任务采用了一种基于对抗性的全局与局部协调训练策略。
  3. 将我们的方法应用于特定数据集时可获得更具挑战性的图像修复效果。

2 相关工作

在图像复原领域已提出多种不同方法。其中一种传统的方法是基于扩散的图像合成技术。这种技术通过传播目标孔洞周围的局部外观信息来填充它们。例如,在具体实施过程中,“传播”可能基于等照线方向场[Ballester et al. 2001; Bertalmio et al. 2000]进行计算;或者基于全局统计特征中的局部特征直方图[Levin et al. 2003]来进行分析。然而,在大多数情况下,并非所有的扩散方法都能达到理想效果——通常来说,并非所有的扩散方法都能达到理想效果;例如,在老照片中常见的是划痕这类较为典型的缺陷区域

相比于基于扩散的技术而言,在图像修复方面基于补丁的方法展现出显著的优势。这种基于补丁的图像修复技术最初被提出用于纹理合成工作,并由Efros和Leung于1999年以及Efros和Freeman于2001年分别进行了详细阐述。在这种方法中,从源图像中提取纹理补丁并将其粘贴到目标图像上是基础操作。随后通过Kwatra等人于2003年提出的图像拼接方法以及Kwatra等人于2005年提出的基于能量优化的图像生成方法得到了进一步发展和完善。针对图像修复领域中出现的各种问题与解决方案也逐渐增多,在这一领域内提出了多种改进型算法如Bertalmio等人于2003年提出的最优补丁搜索方法Criminisi等人于2004年提出的改进型最优补丁搜索方法以及Drori等人于2003年提出的一种快速全局优化算法等均取得了不错的效果特别是在Wexler等人于2007年与Simakov等人于2008年各自提出的基于全局优化的不同算法均取得了显著成果这些成果后来通过Barnes等人于2009年与Barnes等人于2010年共同开发的随机补丁搜索算法PatchMatch实现了快速实现这一目标 Darabi等人于2012年则通过将图像梯度信息引入到补丁间的距离度量中成功实现了对现有算法的一种改进然而这些传统算法主要依赖低级特征如单个像素点之间的平方差之和作为匹配标准这对于修复复杂结构中的大孔洞并不具备良好的适应性而且这些算法也无法生成目标图像中未出现过的新的独立对象这与我们采用的不同策略存在明显差异

针对在结构化场景中广泛存在的缺失区域问题,一些方法采用结构引导策略以保留底层重要结构。其具体实现途径包括:通过兴趣点检测技术[Drori et al. 2003]、线条或曲线提取方法[Barnes et al. 2009; Sun et al. 2005]以及透视扭曲估计[Pavić et al. 2006]等手段来完成;此外还提出了基于自动估计的场景重构方法:利用张量投票算法[Jia and Tang 2003]在孔洞间平滑连接曲线;基于结构性优先级的补丁排序方法[Criminisi et al. 2004];基于瓦片搜索空间限制[Kopf et al. 2012]、补丁偏移统计[He and Sun 2012]以及透视平面规律性[Huang et al. 2014]等技术手段来实现;这些方法均旨在通过保留关键结构来提升图像复原质量。然而需要注意的是这类基于特定场景类型的方法依赖于启发式约束条件因此仅适用于特定类型的场景

现有基于补丁的技术普遍面临的一个局限在于它们所合成的纹理局限于原始图片内容。
当填补缺失区域所需的纹理不在原始输入数据集中时,则会出现挑战。
The work of Hays and Efros [2007] introduced an innovative approach leveraging large image databases for inpainting.
They first identified the most similar images within the database to the input data.
Then they replicated these regions by cutting them from the matching images and pasting them onto the missing areas, effectively reconstructing the image.
However, this approach relies on the assumption that similar content exists within the database, which may not always hold true.
This concept has been extended in subsequent studies to address scenarios involving identical or nearly identical scenes.

作为一种修复领域的专用技术, 面部补全同样获得了人们的广泛关注. Mohammed团队在2009年开发了一种基于面部数据集的方法, 并引入了全局与局部参数相结合的模型来实现面部填补过程. Deng等人于2011年采用光谱图算法对面部图像进行了修复工作. 不过, 这些方法通常依赖于对齐的图像来进行补丁学习, 并且难以适应各种类型的修复需求.

卷积神经网络(CNNs)也被成功应用于图像修复领域。早期的研究主要集中在较小尺寸和厚度的遮罩[Köhler et al. 2014; Ren et al. 2015; Xie et al. 2012]上。类似的修复技术也被成功应用于MRI和PET扫描中以补全缺失数据[Li et al. 2014]。近年来提出的基于CNN的新优化算法被提出以实现修复功能,并且该算法相较于现有方案显著提升了效率水平

基于我们最近提出的Context Encoder (CE)框架[Pathak等, 2016]进行开发。该方法将基于卷积神经网络(CNN)的修复技术进行了扩展,并引入了一个上下文编码器用于学习修复特征。这些生成网络通过使用一个辅助网络(称为判别器)进行训练以区分图像是否由生成模型创建。生成网络被训练以欺骗判别网络;同时判别网络会与之同步更新以提高检测能力。为了提升修复效果;我们融合了MSE损失与GAN损失;这种方法使得我们能够完成对128×128像素图像中心区域的64×64像素区域的修复;相较于仅使用MSE损失时所获得的结果更加清晰和精细。此外;我们采用全卷积网络对原有的工作进行了推广;以适应任意分辨率图像的处理需求;同时通过引入全局和局部判别器显著提升了视觉质量

GAN的主要存在的问题是其在学习过程中表现出的高度不稳定性[Radford et al. 2016; Salimans et al. 2016]。为此我们采取了一项多管齐下的策略:同时训练生成模型并优化学习过程以优先考虑稳定性这一关键指标从而有效避免了这一问题。此外我们特别针对图像补全问题进行了架构设计与训练流程的优化特别采用了两套判别器架构:全局判别器网络与局部判别器网络这两者结合使用使得在实现具有语义一致性与局部一致性的一致性图像补全方面取得了显著效果

我们的方法能够超越现有方法的局限性,并实现多样化的场景下的逼真补全。通过表1中的比较可以看出不同方法之间的高低层次差异。一方面,在应用基于补丁的方法(如Barnes等2009、2010;Darabi等2012;Huang等2014;Wexler等2007)时可以满足任意大小和遮挡区域的需求并提供高质量重构效果;然而这些基于局部补丁的方法无法生成图像中未曾出现的新图像片段也无法理解图像中的高层语义:它们仅在局部层面上进行相似性的匹配运算。另一方面 基于上下文编码器的方法(Pathak等2016)则能够在固定低分辨率下生成新的对象 但可能因缺乏对填充区域与周边区域一致性的考虑而导致整体效果不够理想

表1展示了补全方法的技术对比研究结果。(如[Barnes et al. 2009]等基于补丁的方法)无法生成创新性的纹理或物体;这些方法仅关注局部相似性特征而忽视了场景语义信息。(Pathak et al. 2016)提出的上下文编码器虽然能够较好地处理小尺寸固定大小图像;但其在保持区域一致性方面仍有不足;特别是在对周围环境的一致性建模上表现欠佳。(相比之下)我们的系统能够在任意尺度下进行填补操作;并结合场景的空间层次特征实现了对新纹理与物体的有效重建

3 方法

3.1 卷积神经网络

该方法主要依赖深度卷积神经网络,并特别针对图像修复任务进行了专门设计。单个修复网络专注于图像修复任务本身;此外还有两个辅助判断器(一个是全局上下文识别器)和主修复器共同协作完成这一目标;在具体实施过程中,在每一阶段都需要先进行初步的修复操作;随后系统会根据生成结果与真实样本之间的差异进行持续优化;最后通过协同优化这三个关键组件(包括主修复器和两个判断器),系统能够全面地恢复不同类型的损坏图像

图2. 我们研究图像补全系统的架构设计概述。该系统由主网络及其两个辅助判别器模块组成;其中包含一个主网络以及两个辅助判别器模块。这些辅助判别器模块仅在主网络训练期间使用,在测试阶段被禁用。全局级别的判别器模块接收整个图像作为输入数据;相比之下,则有专门处理局部区域的小区域识别任务的局部级别的判断模块;这两个判断模块都被设计用于判断一张图片是真实存在还是被本系统生成;同时,主网络也被训练使其难以欺骗这两个判断模块。

Fukushima 1988; LeCun et al. 1989

Yu和Koltun 2016

Yu和Koltun 2016

kw与kh分别代表核的宽度与高度(均为奇数值),而η则作为扩张因子被引入网络中。其中xu,v属于RC而yu,v属于RC'分别代表层输入与输出的空间位置。σ(·)则定义为逐元素作用于神经元激活值的一一映射函数。Ws,t是一个维度为C’×C的空间权重矩阵,在计算过程中会被用于生成特征图的不同通道信息。其中b∈R^{C'}则代表该层的空间偏置向量,在提升模型泛化能力方面具有重要作用。当参数η取值为1时,则该网络结构退化为标准卷积操作

Rumelhart et al. 1986

Rumelhart et al. 1986

Rumelhart et al. 1986

3.2 补全网络

该网络架构基于全卷积网络进行构建。表2详细列出了该网络架构的概述信息。该补全模块接收一个带二进制通道的RGB图像作为输入,并对该图像中的缺失区域进行填补操作。其输出也是一个RGB图像。为了防止在非缺失区域发生改变,在补填区域以外的位置上输出像素将保持与输入相同的RGB值。该架构遵循编码器-解码器结构设计,在最初阶段降低分辨率从而有效减少内存占用和计算时间的需求。相较于许多采用多级池化层降低分辨率的传统架构而言,我们的模型仅通过两次步幅卷积操作将分辨率降至原始尺寸的四分之一水平,在此过程中能够生成具有较高清晰度特征的信息输出

表2呈现了图像补全网络的架构设计。对于每一个卷积操作(除最后一个外),后面紧跟一个修正线性单元(ReLU)结构。输出部分由一个卷积结构构成,在激活函数选择上采用了sigmoid而非ReLU激活函数以确保输出值限定在0到1之间。'Outputs'指的是该操作单元输出通道的数量。

Yu和Koltun 2016

Yu and Koltun 2016

图3展示了空间支持的重要性。为了实现大面积区域的补全效果,在计算输出像素时需要确保其空间支撑覆盖到孔洞外部的像素。左边实例中 pixels p1 能够通过 Ω1 的影响域进行计算得出;而 pixels p2 无法完成这一过程 因为 Ω2 不包含任何关于孔洞外部信息的数据域。相比之下 在右边由于其更大的空间支撑范围 Ω2 覆盖了更多的孔洞外部信息域 因此能够有效补充中心区域的像素值

3.3 上下文判别器

全局上下文判别器架构和局部上下文判别器架构旨在判断一幅图像是否真实或已被补充过。这些架构均基于卷积神经网络将图像编码为较小规模的特征向量各输出通过融合层整合后得到该预测值对应的连续概率值如表3所示

表3列示了本研究中所采用判别器架构的设计情况。全连接(FC)层是标准神经网络中的一个典型组件。输出层由两个关键组成部分构成:一是全连接层;二是sigmoid传递激活函数。该输出结果表示输入图像来自真实数据而非补全网络的可能性大小。

全局上下文判别器将整个图像作为输入,图像被缩放到256×256像素。它由六个卷积层和一个单独的全连接层组成,输出一个1024维的向量。所有卷积层使用2×2像素的步长来降低图像分辨率,同时增加输出滤波器的数量。与补全网络相比,所有卷积都使用5×5的核。这种设计使得全局上下文判别器能够捕捉到图像的整体结构和内容,评估补全部分是否与整个图像在视觉上一致。而局部上下文判别器则专注于补全区域周围的小区域,以确保补全的细节与周围环境自然融合。通过结合这两个判别器的评估,网络可以更准确地判断补全的图像是否接近真实图像,从而指导补全网络生成更高质量的输出。

局部上下文判别器遵循相同的机制与全局上下文判别器相仿,在接收的输入均为围绕已完成区域中心的128×128像素图像块时(注意,在处理过程中通常只涉及一个已完成区域),网络将根据当前处理的对象是否为完整图景来决定下一步的操作方式。当处理的图像尚未完成时(即存在未完成区域的情况),网络会随机选择一个未被填充的区域作为目标;而经过训练后的填补网络则能够同时填充多个未完成区域所形成的孔洞。由于初始输入分辨率仅为全局判别器的一半,在设计网络架构时无需采用第一层全连接层;输出结果则为一个维度为1024的空间向量序列,默认情况下该序列对应着被填充完成后所形成的完整图像信息

最后阶段将全局与局部判别器的输出连接为一个2048维向量之后,并随后经过一个全连接层来处理它,从而产生一个连续值。为了使该值保持在[0,1]区间内,并表示图像的真实性而非缺失的概率。

3.4 训练

我们定义C(x, Mc)为一种基于函数形式的补全网络。其中,x表示输入图像,而Mc是一个与输入图像尺寸相同的遮罩区域掩码。该二进制掩码Mc在需要填充的区域内赋值为1,其余区域则赋值为0。作为预处理步骤,C通过在其补填区域内给训练输入图像x填充一个平均像素颜色(即来自训练数据集所有像素的颜色平均值),然后将其传递给网络进行后续处理。同样地,D(x,Md)表示一种基于函数形式结合上下文信息的判别器。

Goodfellow et al. 2014

该生成对抗网络(GAN)【Goodfellow et al. 2014

Pathak et al. 2016

Pathak等人(2016)所提出的

其中,⊙是逐像素乘法,||·||是欧几里得范数。

Goodfellow et al. 2014

Supplement Module

其中,Md是随机掩码,Mc是输入掩码,期望值就是训练图像x上的平均值。

该公式涉及两个网络体系:补全网络体系(C)与判别器网络体系(D)。此处,C(x,M_c)代表补全网络体系针对输入图像x及其缺失区域(由掩码M_c定义)所执行的填补操作的结果,D则用于判断图像x是否为真实图像还是被补全网络生成的虚假图像。

GAN损失的组成部分:

log D(x, M_d):这部分表示判别器D通过计算该真实图像x与其相关掩码M_d的对数概率值。生成随机掩码矩阵M_d并将其与真实图像x一起输入到判别器中进行训练。判别器的目标是通过最大化这个计算结果使其尽可能趋近于1(即1),从而增强判别器对这些区域的判断能力。

2. log(1−D(C(x,M_c),M_c)):此部分代表鉴别器D对由补全网络C生成的图像判断其为假图像的对数几率。补全模型旨在填充输入图像x中根据掩码M_c定义的缺失区域。生成过程的目标是使补全后的图像欺骗鉴别器D使其误认为是真实存在的。为了实现这一目标,生成器G将努力使得该概率值最小化(即尽可能让补全后的结果让鉴别器误判)。

优化目标:

判别器(D)旨在通过最大化该表达式来实现其目标:即提升其识别真实图像以及补全网络生成的图像的能力。

通过优化补全网络(C),目标是减少\log(1-D(C(x, M_c), M_c))这一项的值。

在该配置下,GAN损失函数引入了一个对抗过程,其中修复网络试图生成逼真且具有欺骗性的修复图像来蒙骗判别器,而判别器则尽力鉴别真实的与生成的图像.这种对抗训练显著提升了修复网络在生成自然且逼真修复图像方面的性能.

通过结合两种损失函数,优化变为:

其中,a是一个权重超参数。在优化过程中,这里称为C和D的补全网络和判别器网络会发生变化,实际上这意味着网络的权重和偏置会改变。让我们用θC表示补全网络C的参数。在标准随机梯度下降中,上述的min-max优化意味着,对于训练C,我们采取损失函数相对于θC的梯度,并更新参数以降低损失函数的值。梯度为:

具体而言,在实现过程中我们采取了更为精细层次的调控策略。例如,在初始阶段我们维持了MSE损失梯度范数与判别器梯度范数的比例相同这一关键点。这种做法有助于提升训练稳定性

Zeiler 2012

Zeiler 2012

Zeiler 2012

同样地,在更新判别器网络D时采用类似策略,并非简单沿用相同方向进行调整而是采取与之相反的方向进行更新旨在使损失增加

3.5 稳定训练

Salimans et al. 2016

Salimans et al. 2016

了解一般的训练流程可以通过查看算法1来实现。该过程主要包括三个关键阶段:首先通过公式(2)计算均方误差(MSE)作为损失函数进行TC次迭代的优化;随后将补充网络暂时固定后,在整个判别器的基础上重新开始TD次迭代的优化过程;最后,在整个优化过程中将补充网络与内容鉴别器协同工作直至完成所有任务。为了确保整个系统的成功收敛与优化效果的良好表现,在补充与鉴别器的设计上必须给予充分的关注。

Ioffe和Szegedy 2015

以促进梯度在网络中的传播为目标,在训练过程中,在补全网络和判别器网络的最后层之后的所有卷积层后插入批量归一化层【Ioffe和Szegedy 2015

在调整图像尺寸的过程中完成训练,在这一过程中最小边缘被设定为该范围内的随机值。随后从该区域中随机选取一个256×256像素块作为输入。随后针对掩膜部分,在该区间内生成一个可变空缺,并使用训练数据集的整体平均色来填充;值得注意的是此空缺宽度与高度可独立调节;具体而言宽度与高度分别由独立机制控制;全局上下文判别器接收完整的256×256像素图像;而局部上下文判别器则接收围绕目标区域中心位置的一个128×128像素块(对于真实样本则可能采用随机选取的位置)

3.5.1 简单后处理

Telea 2004

Telea 2004

虽然我们的网络模型能够较为合理地填充缺失区域( telea 2004),但在某些情况下( poisson 图像融合 Perez 等人 2003),生成区域与周边区域的颜色会出现微小的不一致现象。为了更好地解决这一问题,在后续处理阶段中( telea 2004),我们采用完成区域与周边像素颜色混合的方法( poisson 图像融合 Perez 等人 2003)。

4 结果

Zhou et al. 2016

Zhou et al. 2016

通过在训练集外的不同场景图像对我们的模型进行评估,并与其现有的对比后发现其性能表现突出;以体现其性能

4.0.1 计算时间

图像补全任务的处理时间主要由输入图像的分辨率决定,在待补全区域大小方面则没有明显影响。表4列出了不同分辨率下的计算时间数据。在CPU和GPU设备上进行了评估测试,在测试中我们采用了英特尔酷睿i7-5960X CPU(3.00 GHz运行频率、8核心设计)以及英伟达GeForce TITAN X GPU图形处理器。借助GPU加速后,在1秒的时间段内即可快速完成大规模图像的补全工作。

表 4. 我们的模型运算速度分析结果。我们观察到,在使用GPU时运算速度显著提升至几秒。

4.1 与现有工作的比较

本研究在多样化的区域填充任务以及Pathak等人(2016年)的核心区域填充任务上进行了系统性评估。

4.1.1 任意区域完成。

我们采用了多组经典算法与内容感知填充技术进行对比研究:包括Barnes等人提出的PatchMatch算法[2009年]、Darabi等人开发的图像融合技术[2012年]以及Huang等人和Pathak等人分别于[2014年]与[2016年]提出的方法。为了确保公平对比,在实验过程中我们对Pathak等人[2016年的模型进行了优化训练]并基于Places2数据集进行了多轮优化迭代,并最终选择训练周期最优的模型版本用于测试评估。在评估过程中我们采用了以下步骤:首先将输入图像调整至固定大小并完成基本处理工作;随后重新缩放至原始尺寸并修复遮罩区域以外的像素值;最后通过与我们的方法一致的后处理流程进一步提升结果质量以确保最终输出的理想效果得以实现

结果在图4中呈现。基于补丁的方法受限于图像局部特征,在生成新对象方面存在显著限制。与我们方法的本质区别在于:尽管它们能够采用局部一致的图像补丁来实现目标对象的重建,但这些区域通常不具备全局一致性特征。例如,在半空中或不同物体之间的位置可能出现不协调的情况。经过Pathak等人(2016年)提出的模型后处理后,在我们进行进一步优化的情况下仍然能获得较为清晰且容易辨识的区域描述。然而我们方法通过同时追求局部和全局一致性这一特点,在重建过程中的自然度方面表现更为突出。

如图4所示,在本研究中将随机遮罩技术与现有的内容感知填充方法(如PatchMatch算法)进行对比分析,并参考了Huang等人的2014年工作以及Pathak等人的2016年研究。在实验过程中我们采用了Places2数据集作为训练样本,并对其中的Pathak等人的模型进行了进一步优化。在此基础上还应用了与本研究方法一致的统一处理流程。从实验结果可以看出,虽然PatchMatch算法和图像融合技术能够生成局部一致的补丁片段以补充图像缺失部分的信息,但这些补丁片段往往仅能在局部区域内保持一致性并无法实现全局范围内的视觉一致性。相比之下,Huang等人提出的解决方案能够在较大程度上扩展填充区域的空间范围,但在实际应用中所生成的结果往往容易被外部观察者识别出来,即使经过我们的统一处理流程也无法完全避免这种现象的发生。我们的研究重点在于同时实现局部区域内的精确匹配和平局域范围内的信息整合,因此通过多级特征融合的方式构建了一个更加鲁棒的填充框架,最终得到的结果在自然场景下呈现出更加逼真的视觉效果

4.1.2 中心区域补全

我们不仅将我们的方法与Context Encoder (CE) [Pathak等人, 2016年]进行了对比,而且在他们提供的标准测试用例上展开了全面评估,这些测试用例均源自ImageNet [Deng等人, 2009年].在实验设置方面,我们特意采用了相同的遮罩配置:将遮罩固定放置于图像中心位置,其尺寸为原先图片尺寸的四分之一大小.为了确保实验结果的有效性,我们在他们提供的训练数据集上对模型进行了系统性训练工作:该数据集包含了从ImageNet随机选取的约17万个样本图片,并经历了连续50次迭代的学习过程.值得注意的是,在完成所有实验后,我们对模型输出结果进行了初步筛选,并剔除了部分可能出现异常值的数据样本

结果显示于图5中

图5展示了ImageNet验证集中的图像样本,并与Context Encoder (CE) [Pathak等人, 2016年]进行中心区域完成效果对比。所有参与测试的图像均被统一大小为128×128像素,并特别强调了中心区域(64×64像素)的完成情况。CE和ours(CM)模型均基于ImageNet中的同一训练数据集(包含100k张训练图片)进行训练以完成固定大小的中心遮罩区域。其中ours代表我们的完整模型,在训练过程中采用了更高分辨率(即Places2数据集)下的图像数据以实现任意区域完成功能(而非仅限于CE和ours(CM)模型中固定分辨率下的中心区域处理)。此外我们还提供了PatchMatch (PM)算法、图像融合 (IM)方法以及[Huang等人, 2014年]提出的SC方法的结果作为对比依据。前两组结果展示了基于ImageNet训练模型在性能上更为突出的表现;中间两组结果则展示了与之相当的性能水平;最后一组结果则凸显了CE模型在我们的系统中表现更为优异的特点。完整的实验结果可在附录部分进一步查阅

4.2 全局与局部一致性

我们采用了单一模型进行对比实验,并与完整方法进行了系统性比较以探究其影响因素 研究发现 如图6所示 当未启用局部判别器(情况b和c)时 结果是由大片模糊区域生成的 而尽管仅依赖局部判别器(情况d)能在细节处呈现更为真实的纹理特征 但缺少全局判别器后整体一致性仍显不足 因此为了实现既具有局域性又具备全球一致性的效果 我们建议同时采用两种策略

图6. 对不同判别器配置进行对比分析。我们呈现了采用不同判别器配置后的模型结果对比:(b)无判别器的加权MSE损失曲线,(c)加入全局判别的加权MSE损失曲线,(d)仅采用局部判别的加权MSE损失曲线,以及(e)同时应用全局与局部判别的加权MSE损失曲线。照片分别由rente42(公共领域)与Pete(公共领域)提供

4.3 后处理和训练数据的影响

我们通过图7清晰地呈现了我们的简单后处理特性。通过观察这种简单的后处理是如何应用于使得填充区域更好地融入全局图像的过程可以看出其具体实现方式。

图 7. 我们简单的后处理效果。

我们还探讨了影响我们模型训练效果的数据来源。特别地,在进行了两组实验的基础上——分别使用 Zhou 等人 (2016) 提出的 Places 2 数据集以及 Deng 等人 (2009) 提供的 ImageNet 数据集作为训练数据——得出了以下结论: Places 2 数据集中包含了约 8{,}757{,}574 幅不同场景的图片;相比之下, ImageNet 数据库则主要用于物体分类任务, 包含约 1{,} million 张图片.

图8详细展示了基于不同数据集的训练结果。特别地,在ImageNet和Places2两个数据集上分别进行了模型训练,并进行了详细比较。这些图片均源自Bernard Spragg. NZ(CC0)及Big Cypress National Preserve(公共领域)。

4.4 对象移除

图像补全的主要目的是能够在图像中去除多余元素。在图9中进行了一次物体去除演示实例展示。我们的方法表现出极高的自然效果,并不容易发现任何物体被去除了

图9. 采用我们的方法实现对象去除的案例。照片源自Ginés González de la Bandera和Katja Hasselkus(均为公共领域)。

4.5 人脸和立面

虽然我们的模型能够生成多样化的纹理和对象以填充图像中的缺失区域;但通过在特定的数据集上对模型进行微调训练,在更具特异性和复杂性的图像处理任务中能够取得更优异的效果。特别是我们采用了CelebFaces属性数据集(CelebA)[Liu等人, 2015]以及CMP Facade数据集[Radim Tyleček, 2013]作为基准进行训练;基于在Places2基准数据集上预先训练好的图像修复网络;然后对该新数据进行了额外的微调优化。为了适应新的输入样本特性;在初始阶段我们就对上下文判别器进行了独立的预训练;接着将上下文判别器与修复网络协同优化以提升整体性能

基于CelebA数据集

在对CMP Facade数据集进行实验时采用了550张图像作为训练样本。该实验所使用的训练程序基于Places2数据集设计了相同的配置,并且其中用于网络初始化的部分采用了从Places2数据集上预训练的网络模型,并非采用均方误差损失函数进行梯度下降优化。

如图10所示,在实验结果中我们可以观察到以下几点:由于存在较大的遮挡区域,在实际应用中该方法能够可靠地实现对人体关键部位的检测。需要注意的是,在现有研究中基于块匹配的方法难以达到预期效果的原因在于其对新特征进行建模的能力有限;例如,在现有研究中

图10展示了人脸与建筑侧面的不同。我们还将模型应用到更具体的场景中,包括但不限于人脸与建筑侧面,通过跨数据集优化后效果显著。我们在CelebA数据集上进行了训练展示结果,并在CMP Facade数据集上同样进行了训练展示结果。填充遮罩采用随机策略以保证多样性,照片由SKV Florbal等提供(均为公共领域),更多结果可在补充材料中找到

4.6 用户研究

图11. 我们对CelebA数据集上的图像填补自然度进行了用户的使用效果调查。统计数据显示约有25%的受访者将我们的填补效果视为真实,并包含了真实样本(Ground Truth, GT)以及我们该方法填补的效果。

4.7 额外结果

我们已经在图12中呈现了我们方法带来的补充成果。该技术能够适应多种多样的应用场景:包括山川壮丽的远距离成像、垂直墙面的近距离成像以及哥特式的教堂内部空间。此外,在图像的主要部分得到修复后,在观察者看来依然能够感受到其自然的真实感。

图12. 基于随机生成的遮罩,在图像上应用我们方法实现的额外图像补全效果。照片由Alex Liivet(CC0)、纽卡斯尔图书馆(公共领域)、黄石国家公园(公共领域)、神农多国家公园(公共领域)、Alan Levine(CC0)、Bruce Caron(公共领域)、Mr. Delirium(公共领域)、Bernard Spragg. NZ(CC0)、顾岩寺(CC0)、Allie G(公共领域)以及gnuckx(CC0)提供。完整的额外图像补全结果可参考附录部分。

4.8 限制和讨论

虽然我们的模型能够处理各种尺寸的图像以及任意大小的孔洞。然而,在第3.2节所讨论的情况下,在有限的空间内进行操作会导致显著大的孔洞无法得到填补。为了突破这一限制,在优化模型架构时可以增加更多扩展卷积层以提高性能。需要注意的是这种限制仅适用于方形遮罩区域:只要填充区域的高度较低且宽度适中,则可以通过利用上方和下方的信息来进行图像重建工作。然而在图像外推的过程中这一限制表现得更为明显:因为填充区域位于图像边缘并且缺乏足够的信息来源导致重建效果受限(图13左部所示)。类似地[Hays和Efros 2007]方法在面对大面积填充区域时也未能取得理想效果(图13右部所示)。值得注意的是这类方法依赖于庞大的数据库复制粘贴策略:当输入图像与数据库中的样本高度相似时其外推能力会显著优于填充能力(因为在边界处匹配的内容较为有限)。观察到在[Hays和Efros 2007]输出中遮罩外部的原始图像部分已经被修改过以适应特定补丁模式

如图13所示,在[Hays and Efros, 2007]的数据集中发现了几个失败案例。作为对比实验的基础,在Places2数据集上对Pathak等人(2016年的)模型进行了重新训练。左侧展示的是一个图像外推的例子,在该集合中的51张图片中,其中约有三分之一(即约32张)采用了这种策略。更多结果可以在补充材料中找到。

我们对这个数据集进行了用户调研活动,并遵循了通用评估标准来比较不同方法的效果:包括Context Encoder(CE)[Pathak等人, 2016]以及[Hays和Efros, 2007]提出的方案。对于CE方法, 我们采用了基于经过重新训练的模型,该模型专门针对Places2数据集中的所有遮挡区域进行训练,并结合了我们开发的后处理技术以提升性能。本研究共招募了11名参与者,要求他们将测试图片归类为未经篡改或已被篡改的状态.测试结果如图14所示,记录了参与者完成判断所需的时间成本.由于许多图片在边缘区域存在较大的空白地带,为此我们还专门选择了包含19张图片的一个子集进行深入测试,这些图片中的空白区域位于图像中心区域而非边缘部分.实验发现:当图片边缘存在显著空白时,Hays和Efros的方法表现优于其在中心空白情况下的效果.此外,本研究的数据还面临一个挑战:尽管我们的方法在高分辨率条件下表现良好,但在特定插值技术中出现了与预期不同的结果

图14展示了关于[Hays and Efros, 2007年的]数据集用户的调查研究。本研究对以下几种基准进行了对比分析:真实图像(Ground Truth, GT),[Hays and Efros, 2007年的] H Hayes基准数据集;CE 基准 [Pathak等人, 2016年];以及我们的方法。在测试中要求参与者能够识别并区分出哪些图片经历了特定的操作。通过分析参与者对各类测试样本的最大响应时间分布情况,并计算出正确的分类比例。为了直观展示结果差异性,在实验中采用折线图进行可视化呈现:实线表示使用完整数据集的情况;虚线则代表选取了一个包含19张非边缘填充遮罩图片的小样本集合的情况。在实验结果中发现,在其他条件相同的情况下(如样本数量或具体参数设置等),数值越低则说明该方法的效果越好

我们提出的方法相较于传统的PatchMatch算法表现出显著的优势。该方法能够在不依赖局部细节的情况下生成图像中原本不存在的新对象,在许多情况下能够实现较好的效果。然而,在许多情况下(尤其是需要处理的人脸相关任务),生成 nose, eyes, mouth 等关键部位变得至关重要。否则如图15所示,在补全任务中将会出现较大的缺失问题

图15展示了与PatchMatch(PM)和图像融合(IM)方法的对比结果。实验结果表明,在面部微调方面我们提出了一个通用模型(ours),并在常规条件下取得了更好的效果(ours(ft))。基于块匹配的方法在处理复杂场景时往往会出现不足之处,在特定场景中难以生成具有独特特征的新对象而导致结果不够自然。此外,请参阅补充材料获取更多详细信息以及完整的实验结果图集

在图16中展示了若干失败案例的示例。通常,在图像中被部分遮挡的结构化对象(如人或动物)会导致最常见的情况出现。在左侧图像中观察到的是模型优先于重建背景中的树木而非男孩头部的情况。而在右侧图像中采用的方法未能成功地补充狗的形象。值得注意的是,在图12所示的情况下结构化的纹理补全已经取得了成功

图16展示了我们方法的失败案例,在这种情况下我们的模型未能处理具有层次化结构的对象。图片来自Pete(公共领域)和Brad PierCE(公共领域)。

5 结论

我们开发了一种创新的图像修复技术。该修复技术以卷积神经网络为基础,并能够同时实现局部与全局一致性。实验结果表明,在处理复杂区域时表现更为出色。通过利用全局与局部上下文判别器这一独特设计,在保持细节完整性的同时实现了更好的边缘保真性。值得注意的是,在处理复杂区域时表现更为出色。我们进行了广泛的对比测试,并展示了多个场景中具有高度逼真的修复效果。此外,在人脸修复任务上取得显著成果:通过用户反馈调查发现,在自然条件下重建的真实度高达77%以上

参考文献

参考文献格式整理:

A study conducted by Coloma Ballester, Marcelo Bertalmío, Vicent Caselles, Guillermo Sapiro, and Joan Verdera in the year 2001 explores the technique of image inpainting through the joint interpolation of vector fields and gray levels.

Corynne Barnes, Eli Shechtman, Adam Finkelstein, and Dan Goldman. 2009. PatchMatch:一种基于随机对应性的结构图像编辑算法. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 28(3):第24页至第31页

In the year 2010, Connelly Barnes and his colleagues achieved this by presenting their research paper titled "The Generalized Patchmatch Correspondence Algorithm" at the European Conference on Computer Vision.

Marcelo Bertalmio et al., 2000. Image Inpainting. In ACM Trans. Graph. (SIGGRAPH Proc.), pages 417–424.

M. Bertalmio, L. Vese, G. Sapiro, and S. Osher (2003). Combined structure and texture image restoration: A novel approach in IEEE Transactions on Image Processing

- A. Criminisi, P. Perez, and K. Toyama. 2004. Region Filling and Object Removal by Exemplar-based Image Inpainting. IEEE Transactions on Image Processing 13, 9 (2004), 1200–1212.

Soheil Darabi, Eli Shechtman, Connelly Barnes, Dan B Goldman, and Pradeep Sen conducted research in 2012 focusing on image melding techniques that combined inconsistent images through patch-based synthesis methods. Their work titled "Image Melding: Combining Inconsistent Images using Patch-based Synthesis" was published in the ACM Transactions on Graphics (Proceedings of SIGGRAPH) journal.

- J.Deng, W.Dong, R.Socher, L.-J.Li, K.Li and L.Fei-Fei 2009 ImageNet A Large-Scale Hierarchical Image Database In CVPR

Contributions by Yue Deng, Qionghai Dai, and/or Zengke Zhang were published in the IEEE Transactions on Image Processing journal in 2011. Their work introduced the Graph Laplace method for occluded face reconstruction and recognition.

Iddo Drori, Daniel Cohen-Or, and Hezy Yeshurun. Their 2003 research on Fragmentation-based Image Completion was systemically explored in the ACM Transactions on Graphics: Proceedings of SIGGRAPH.

Alexey Efros and Tsip Leung, 1999. "基于非参数采样的纹理合成." In the International Conference on Computer Vision, pages 1033–1038.

Alexei A. Efros and William T. Freeman, in 2001, introduced the technique of Image Quilting for the processes of Texture Synthesis and Transfer, which was presented in ACM Transactions on Graphics as part of the Proceedings of SIGGRAPH, covering pages 341–346.

  • 某位学者Fukushima在《神经网络》杂志上于1988年发表了论文介绍了一种名为Neocognitron的层级结构的神经网络模型,在该期刊第4期(共4期)的第一卷中详细阐述了基于视觉模式识别的应用

Generative Adversarial Networks (GANs) were introduced in the field of machine learning by Ian J. Goodfellow and his colleagues in 2014.

James Hays and Alexei A. Efros presented their work titled "Scene Completion Technique" in 2007, utilizing an extensive corpus of photographs in the ACM Transactions on Graphics conference proceedings, specifically in the article numbered 4 of volume 26, issue 3.

- Kai-Man Leung and Jian-Na Sun. 2012. 统计分析图像补全中的块偏移量。在欧洲计算机视觉会议上的统计分析中。

Jia-Bin Huang, Sing Bing Kang, Narendra Ahuja, and Johannes Kopf. 在Proceedings of SIGGRAPH上发表于ACM Transactions on Graphics期刊中的一篇文章中(具体来说是第33卷第4期的文章第129号)共10页(2014年)。

The duo of Sergey Ioffe and Christian Szegedy introduced a technique called Batch Normalization in 2015, which improved the training efficiency of deep networks by reducing internal covariate shift, as presented at the International Conference on Machine Learning.

  • Isola Phillip, Zhu Jun-Yan, Zhou Tinghui, and A. Efros. 2017. “Image-to-Image Translation with Conditional Adversarial Networks.” (2017).

  • Jiaya Jia and Chi-Keung Tang (2003). Image repair: a robust method for image synthesis using adaptive ND tensor voting. In the IEEE Conference on Computer Vision and Pattern Recognition, Volume 1, pages 643–650.

- Rolf Köhler, Christian Schuler, Bernhard Schölkopf, and also Stefan Harmeling. 2014. Mask-specific inpainting with deep neural networks at the German Conference on Pattern Recognition.

Johannes Kopf, Wolf Kienzle, Steven Drucker, and Sing Bing Kang. In the year of publication in 2012, they presented "Quality Prediction in Image Completion" as part of the ACM Transactions on Graphics journal. This paper appeared within the Proceedings of SIGGRAPH Asia and was featured in volume 31 during issue number 6 with article number 131 spanning eight pages.

Vivek Kwatra et al. conducted research on Texture Optimization in Example-Based Synthesis in the year 2005. Their work was published in the ACM Transactions on Graphics (SIGGRAPH '05 Proceedings), specifically in Volume 24, Issue 3, during July of that year. The paper spans pages 795–802 and presents significant advancements in the field of computer graphics and synthesis techniques.

- Vivek Kwatra, Arno Schödl, Irfan Essa, Greg Turk, and Aaron Bobick. 2003. Graphcut Textures: Image and Video Synthesis Using Graph Cuts. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 22, 3 (July 2003), 277–286.

Yann LeCun及其合著者于1989年发表研究论文"Backpropagation applied to handwritten zip code recognition"。该研究工作中采用了backpropagation算法用于识别手写邮政编码这一创新方法,在神经计算领域产生了重要影响

Anat Levin, Assaf Zomet, and Yair Weiss presented their work titled "Learning the Process of Image Inpainting from Global Image Statistics" at the Proceedings of the International Conference on Computer Vision in 2003, where their research was published on pages 305–312.

Li Rongjian and colleagues (2014). Advanced deep learning techniques enable the reconstruction of imaging datasets to enhance brain disease diagnosis outcomes. Proceedings presented at the Intelligent Computing in Medical Image Processing: MICCAI 2014 conference were published by Springer with page numbers 305–312

李 ziping, 王小强等. 2015. 基于深度学习的人脸属性自动识别系统的研究与进展. 计算机视觉国际会议论文集

Jianchao Cao, Wang Qian, and Liu Mingming. 2015年. 基于全卷积网络的语义分割方法. 在IEEE计算机视觉与模式识别会议.

Umar Mohammed, Simon JD Prince, and Jan Kautz. In 2009, they published "Visualization: creating novel facial expressions." in the ACM Transactions on Graphics (Proceedings of SIGGRAPH), volume 28, issue 3, page 57.

Vinothan Nair and Geoffrey E. Hinton, in 2010, enhanced the performance of restricted Boltzmann machines using rectified linear units in the International Conference on Machine Learning: proceedings, pages 807–814.

The authors Deepak Pathak, Philipp Krähenbühl, Jeff Donahue, Trevor Darrell, and Alexei Efros presented their work 'Context Encoders: Feature Learning by Inpainting' at the IEEE Conference on Computer Vision and Pattern Recognition in 2016.

Darko Pavić, Volker Schönefeld, and Leif Kobbelt introduced their work on interactive image completion under perspective correction in the year 2006. Their research was published in The Journal of Visual Computing as part of the issue numbered 9 in volume 22. The paper spans pages from 671 to 681 and details their innovative approach to perspective-corrected interactive image completion.

Patrick Pérez, Michel Gangnet, and Andrew Blake authored a paper titled 'Poisson-based image editing technique' in July 2003, which appeared in the ACM Transactions on Graphics (SIGGRAPH conference proceedings), volume 22, issue 3: pages 313–318.

Among Alec Radford, Luke Metz, and Soumith Chintala, published in 2016, their work on Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks has been influential.

Radom Radek Radim Tylka. 2013. Spatial Pattern Templates: A Methodology for Object Recognition in Regular Structures. In the German Conference on Pattern Recognition, Saarbrücken, Germany.

Jimmy SJ Ren, Li Xu, Qiong Yan, and Wenxiu Sun. 2015. The Shepard Convolutional Neural Networks: A Contribution to the Field of Deep Learning. In the Conference on Neural Information Processing Systems.

D.E.Rumelhart,G.E.Hinton,R.J.Williams在1986年的《Nature》期刊上发表了题为《Learning representations by back-propagating errors》的文章

Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. 2016. Advanced methods for enhancing the training of GANs. In the Conference on Neural Information Processing Systems.

Denis Simakov, Yaron Caspi, Eli Shechtman, and Michal Irani. 2008. Summarization of visual data based on bidirectional similarity. In IEEE Conference on Computer Vision and Pattern Recognition. 1–8

Jian Sun et al. published a study in July 2005 titled "Image Completion through Structure Preservation" within the ACM Transactions on Graphics Journal, which featured their work on "Image Completion with Structure Propagation." The research was presented at the SIGGRAPH conference proceedings and spans pages 861–868 of the journal issue. The paper's DOI is https://doi.org/10.1145/1073204.1073274

Alexandru Telea在2004年发表了一篇关于基于快速Marching方法的一种图像修复技术的研究文章,在《Journal of Graphics Tools》上发表

Yonatan Wexler et al., published in 2007 in IEEE Transactions on Pattern Analysis and Machine Intelligence, presented a framework for Space-time video completion that achieved significant results.

Oliver Whyte, Josef Sivic, and Andrew Zisserman. 2009. "Get Out of My Way!" Internet-based Inpainting at the British Machine Vision Conference.

Authors led by Junyuan Xie, Linli Xu, and Enhong Chen. Year: 2012. Image Denoising and Inpainting Using Deep Neural Networks. In the Conference on Neural Information Processing Systems, pages 341–349.

Chao Yang, Xin Lu, Zhe Lin, Eli Shechtman, Oliver Wang, and Hao Li. 2017. High-Resolution Image Reconstruction based on Multi-Scale Neural Patch Synthesis. In the IEEE Conference on Computer Vision and Pattern Recognition.

- Fisher Yu and Vladlen Koltun. 2016. Multi

Dilated Convolutions用于实现尺度上下文整合

- Matthew D. Zeiler. 2012. ADADELTA: An Adaptive Learning Rate Method. CoRR abs/1212.5701 (2012).

Bolei Zhou, Aditya Khosla, Àgata Lapedriza, Antonio Torralba, and Aude Oliva conducted research on an image database designed for deep scene understanding in 2016. Their work was published as CoRR abs/1610.02055 in the same year.

全部评论 (0)

还没有任何评论哟~