论文精度 —— 2017 ACM《Globally and Locally Consistent Image Completion》
总述
作者深受2016年CVPR发表的《Context Encoders: Feature Learning by Inpainting》开山之作的启发,采用了编码器-解码器结构,并创新性地提出了鉴别器系统。该系统由全局鉴别器和局部鉴别器组成,全局鉴别器确保整体图像效果,而局部鉴别器则涵盖被抠除的区域及其周边较小区域。为了确保修复效果的连贯性,作者详细阐述了后处理过程,并提出了fine-tune的建议。此外,作者还指出了GAN方法的主要缺陷之一,即不稳定性,而其网络架构能够有效改善这一问题。值得注意的是,CE方法的不足之处包括:(1)未完全阐述处理任意修复遮罩的方法,且未完全阐述如何将该方法应用于高分辨率图像;(2)仅适用于固定大小的图像,而作者的方法则能处理任意尺寸的图像,并在细节和纹理处理上均优于CE方法;(3)CE方法无法处理高分辨率图像,通过引入完全卷积网络扩展了其工作范围,以支持任意分辨率的处理,并通过全局和局部鉴别器的结合显著提升了视觉质量。

一、方法详述
1. 网络结构

如上图所示,Encoder-Decoder协同工作构成生成器,用于生成预测的补全完成的图像。右侧的两个鉴别器分别为全局鉴别器和局部鉴别器,分别用于判定图片是否为原始真实图像或生成器生成图像,其核心机制与GAN模型相似。其中,所有鉴别器的卷积核尺寸均为5×5。具体而言,整个过程分为三个阶段:首先,生成器基于MSE损失函数进行基本训练;接着,鉴别器从头开始进行训练;最后,生成器与鉴别器进行联合训练。值得注意的是,在实际应用中,通常仅启用生成器进行图像生成,而未启用鉴别器。

(使用了膨胀卷积增大感受野)
2. 后处理
译
简单的后处理工作。然而,我们的网络模型在填充缺失区域时偶尔会出现颜色与周边区域不一致的情况。为了解决这一问题,我们采用了一种将处理后的区域与周边像素颜色混合的方法。特别地,我们结合了快速行进算法和泊松图像处理技术。【译
二、数据集
1. ImageNet
2. Places2
三、优缺点
1、优点:
具有较强的复原能力,并且能够生成眼睛、鼻子等细节部位,但需要在相关数据集上进行微调处理。
2.缺点:
(1)如果mask中抹掉的是大量结构化物体,复原效果会显著下降,接近object removal的效果。
(2)难以补全高度组织化的图片,尤其是面部等细节部位。
(3)采用4卡训练模式,持续训练约2个月。

四、参考的论文
1. 传统的基于扩散的方法
1
1
2. 基于Patch的方法
1
3. 人脸的生成(其中的小领域)
1
1
2
1
2
4. 基于CNN
1
5. 图像后处理
1
五、遮挡方式
1. Arbitrary Region Completion.

1
2
3
4
1
2
3
4
2. Center Region Completion

(CM ,GT是什么啊)???
