Advertisement

超分算法 SwinIR: Image Restoration Using Swin Transformer

阅读量:

这篇文章提出了一种基于Swin Transformer的图像恢复模型SwinIR,用于低级视觉任务如超分辨率、图像去噪、JPEG压缩伪影去除等。SwinIR由浅层特征提取、深层特征提取和高质量图像重建模块组成。深层特征提取模块使用了多个带有残差连接的Swin Transformer块(RSTB),每个块包含多个Swin Transformer层和卷积层。实验结果表明,SwinIR在多个任务上表现优于现有方法,参数更少,性能更优。

在这里插入图片描述

就容易掌握,尤其熟悉Swin-Transformer的读者会觉得内容不难。该研究将Swin-T架构应用于基础视觉任务,具体涵盖了图像超分辨率重建、图像降噪以及伪影去除等技术。其中,浅层特征提取模块采用了3×3卷积层来完成基本特征的提取。深层特征提取模块由多个RSTB块串联而成,每个模块后均接一个卷积层和残差连接,以增强特征的表达能力。重建模块根据任务需求采用了不同的架构设计,以适应不同应用场景。

SwinIR网络:基于Swin变换器的图像修复方法,该研究由JingyunLing团队开发。

SwinIR: Image Restoration Using Swin Transformer[ICCV 2021]

  • Abstract

  • 1 Introduction

  • 2 Method

    • 2.1 OVerview
    • 2.2 Residual Swin Transformer Block
    • 2.3 Swin Transformer layer
  • 3 实验部分

    • 3.1 基线分析与讨论

      • 3.2 图像超分辨率重建实验结果
      • 3.4 JPEG压缩余弦 artifact去噪实验结果
    • 4 Coclusion

Abstract

图像超分问题的最新进展主要集中在卷积神经网络领域,鲜有尝试将Transformer技术应用于高级视觉任务。在该领域,Transformer模型已展现出显著的性能优势,具体表现可参考相关研究。基于此,作者在本文中引入了Transformer技术,提出了一种基于Swin-T架构的图像恢复模型,命名为SwinIR。该模型由三个关键模块组成:浅层特征提取模块、深层特征提取模块以及高质量图像重建模块。在深层特征提取模块中,作者采用了多个带残差连接的Swin Transformer块(RSTB),每个块均包含多个Swin Transformer层和一个残差连接结构。为评估该模型的性能,作者在图像超分辨率、图像去噪以及JPEG压缩伪影去除三个具有代表性的任务上进行了实验研究。实验结果表明,SwinIR在各任务上均实现了相较于现有方法的性能提升,具体提升幅度为0.14%-0.45dB,且在保持较高参数效率的同时,其模型参数数量最多可减少67%。

在这里插入图片描述

1 Introduction

基于CNN的深度学习模型往往面临两大核心问题,这些挑战主要源于其基本组成单元,具体表现为卷积层的特性。

  1. 图像与其所对应的卷积核之间的关联与内容无关。若仅使用相同的卷积核来恢复不同区域的图像,这可能并非最佳选择。
  2. CCN仅限于处理局部区域内的信息,而无法有效建模长期依赖性关系。

作为CNN的替代模型,Transformer通过自注意力机制识别图像中各区域之间的全局关联。ViT作为一种视觉变换器,通常将输入图像划分为大小固定的块,并对每个块进行单独处理。这一策略不可避免地带来了两个主要缺陷。

  1. 恢复后的图像可能会在每个小斑块周围产生边界伪影
  2. 每个patch的边界像素可能会损失信息

Swin Transformer结合了CNN和Transformer的优点。

  1. 拥有局部注意机制,它擅长处理大量细节,局部注意机制赋予CNN在图像处理方面显著的优势。(相比于transformer,CNN的计算量小很多,所以可以处理大尺寸图像)
  2. 拥有强大的处理能力,通过移位窗口方案,可以有效建模序列中的长期依赖关系。

该模型开发了一种基于Swin-T的图像恢复方法SwinIR。具体而言,该模型由三个关键模块构成:浅层特征提取模块、深层特征提取模块以及高质量图像重建模块。在浅层特征提取模块中,通过卷积层捕获图像的低频细节,并利用长跳跃连接将这些特征直接传递至重建模块,从而有效保留图像的低频信息。深层特征提取模块主要由带有残差连接的Swin Transformer块(RSTB)构成,每个模块通过多层Swin Transformer层实现局部注意力机制和跨窗口信息交互。在图像重建模块中,通过融合浅层和深层特征,实现了图像的高质量重建。

与基于CNN的图像恢复模型相比,基于Transformer的SwinIR有几个优点:

  1. 图像内容与注意权重之间基于内容的交互作用机制,可以对应为空间变化的卷积特性。
  2. 借助移位窗口机制,可以实现长期依赖性建模这一特性。
  3. 性能表现更优,参数数量显著减少

2 Method

SwinIR主要包含三个部分:初级特征提取、高级特征提取以及高保真图像重建模块。所有恢复任务均采用相同的特征提取模块,但根据具体任务需求,采用不同的重建模块。

在这里插入图片描述

2.1 OVerview

SwinIR主要包含三个关键模块:浅层特征提取、深层特征提取和高质量图像重建模块。统一采用相同的特征提取模块,而针对不同任务则采用不同的重建模块。输入图像为I_{LQ}

浅层特征提取:
通过应用一个3×3的卷积层H_{SF}(·),我们能够有效提取图像的浅层特征F_0。该卷积层在早期视觉处理中表现出色,能够引导网络实现更稳定的优化过程并取得更好的结果,同时它能够将输入图像空间映射到更高维的特征空间,这一过程相对简单。

在这里插入图片描述

深层特征提取:

在这里插入图片描述
在这里插入图片描述

在特征提取的最后阶段,通过卷积层的引入,有助于将卷积运算的归纳偏置引入Transformer网络,为后续浅层和深层特征的融合提供更坚实的理论基础。

图像重建模块:

图像超分:
通过融合浅层和深层特征来生成高质量的图像I_{RHQ},其中H_{REC}(·)表示重建模块的功能。低频特征主要包含低频信息,而高频特征则侧重于恢复丢失的高频信息。通过长跳连接,SwinIR能够将低频信息直接传输至重建模块,从而帮助高频特征提取模块聚焦高频信息,确保训练过程的稳定性。在重建模块的实现中,采用亚像素卷积层对特征进行上采样。

在这里插入图片描述

图像降噪和JPEG伪影消除 对于不需要上采样的任务 通过单个卷积层进行重建。同时 额外采用残差学习来重建LQ和HQ图像之间的残差 而不是HQ图像。H_{SwinIR}(·)表示SwinIR的功能。公式是:

在这里插入图片描述

具体来说就是:I_{RHQ}=H_{CONV}(F_0+F_{DF})+I_{LQ}

LOSS:

①超分任务:L1loss

在这里插入图片描述

在处理典型和轻量级的图像超分任务时,仅采用L1损失函数作为像素损失。在真实世界的图像超分任务中,我们综合运用了像素损失、GAN损失和感知损失三种损失函数,以提升图像的视觉质量。

② 图像去噪和JPEG压缩伪影去除:Charbonnier loss

在这里插入图片描述

ϵ 是一个常数,根据经验设置为10^{−3}

2.2 Residual Swin Transformer Block

残差Swin Transformer模块(RSTB)由L个Swin Transformer层和一个卷积层通过残差连接串联构成。对于第i个RSTB,其输入特征为F_{i,0},中间特征包括F_{i,1},F_{i,2},...,F_{i,L},其中H_{Swin_{i,j}} (·)表示第i个模块中的第j个Swin-T层。其数学表达式为:

在这里插入图片描述

最后,在残差连接之前添加一个卷积层。第i个RSTB的输出公式如下:

在这里插入图片描述

这种设计有两个好处:

尽管Transformer可以被视为空间变化卷积的一个具体实例,然而带有空间不变性的卷积层有助于增强SwinIR的平移不变性。残差连接通过提供短跳跃连接的方式,促进不同特征层次的聚合。

2.3 Swin Transformer layer

(看过Swin-T的话,这个层就是单纯的Swin-T的使用。)

Swin Transformer层(STL)源自原始Transformer层的标准多头自注意力机制的变体形式。该方法的详细说明可参考这篇文献Swin Transformer。其主要区别点体现在局部窗口内的注意力计算过程以及引入的移动窗口划分机制。

Swin Transformer首先将输入图像划分为多个patch,每个patch被视为一个token。然后,将每个patch进一步划分为M×M的不重叠局部窗口,在每个窗口内部分别计算当前patch与其他patch的注意力关系,同时保持h个注意力头的并行处理。随后,经过多层感知器(MLP)进行特征提取,该结构包含两个全连接层,各层之间采用GELU激活函数以促进非线性特征的表达。在多头自注意力(MSA)和MLP结构之间插入LayerNorm(LN)层,且这两个模块均采用残差连接机制,如图2(b)所示,即为标准的Swin-T块结构。在连续的Swin-T块之间交替采用常规窗口和位移窗口划分策略,以促进跨窗口信息的连接和传播。

在这里插入图片描述

3 Experiments

setting:

3.1 Ablation Study and Discussion

DIV2K 上训练SwinIR获得经典图像SR(×2),并在Manga109 上进行测试。

通道数、RSTB数和STL数的影响:
图3中(a)、(b)和(c)具体展示了RSTB中通道数、RSTB数和STL数对模型性能的影响。可见,峰值信噪比与这三个超参数呈正相关关系。尽管通道数增加时性能持续提升,但参数总数呈平方增长趋势。为了在性能与模型尺寸之间取得平衡,在后续实验中选择通道数为180。对于RSTB数和STL层数,性能增益趋于饱和,因此选择参数均为6,以实现相对较小的模型规模。

SwinIR与一个具有典型性的基于CNN的模型RCAN进行对比分析,以深入探讨基于Transformer的模型与基于CNN的模型之间的异同点。

  1. 从图3(d)可以看出,在不同的patch大小上,SwinIR的性能优于RCAN,并且当patch大小增大时,PSNR增益变得更大。
  2. 图3(e)显示了训练图像的数量的影响。当百分比大于100%(800张图像)时,Flickr2K的图像用于训练。有两个观察结果。首先,SwinIR的性能随着训练图像的数量而提高。其次,与IPT中基于Transformer的模型使用大量训练数据不同,SwinIR比使用相同训练数据的基于CNN的模型获得更好的结果,即使数据集很小(即25%,200张图像)。
  3. 图3(f)中绘制了SwinIR和RCAN训练期间的峰值信噪比。SwinIR的收敛速度比RCAN更快(这与以往的结论矛盾,即基于Transformer的模型往往存在缓慢的模型收敛)。
在这里插入图片描述

RSTB中残差连接模块和卷积层 的作用:
表1列出了RSTB中的四种不同的残差连接变体:无残差连接模块、仅使用1×1尺寸的卷积层、仅使用3×3尺寸的卷积层,以及使用三个3×3卷积层(中间层的通道数量设置为网络总通道数的四分之一)。

在RSTB框架中,残差连接机制扮演着至关重要的角色,它通过提升PSNR值实现了图像质量的显著改善。相比于1×1卷积,这种结构在参数量上具有显著优势,但其性能提升的空间相对有限。尽管采用多层3×3卷积可以有效降低网络参数总量,但这种策略在提升模型性能方面却显得力不从心。

在这里插入图片描述

3.2 Results on Image SR

Classical image SR:
表2显示了SwinIR(中等规模)和最先进方法的定量比较。

  1. 当在DIV2K上训练时,SwinIR在所有五个基准数据集的所有放大因子上都取得了最佳性能。RCAN和HAN引入了通道和空间注意,IGNN提出了自适应patch特征聚合,NLSA基于非局部注意机制。 但所有这些基于CNN的注意机制的表现都不如所提出的基于Transformer的SwinIR,这证明了所提出模型的有效性。
  2. 当在更大的数据集上训练SwinIR时,性能进一步大幅提高,实现了比基于Transformer的同一模型IPT更好的精度,(IPT在训练中使用ImageNet(超过130万张图像),并且有大量参数(115.5M)),相比之下,SwinIR只有少量参数(11.8M),比最佳的基于CNN的模型还要少。在运行时间方面,在1024×1024图像上进行测试,RCAN、IPT和SwinIR分别需要大约0.2、4.5和1.1秒。SwinIR可以恢复高频细节,并减轻模糊的效果,能产生尖锐和自然的边缘。相比之下,大多数基于CNN的方法无法恢复正确的纹理,并产生模糊的图像,甚至不同的结构。与基于CNN的方法相比,IPT生成的图像更好,但它存在图像失真和边界伪影。
在这里插入图片描述

Lightweight image SR:

为了全面评估SwinIR方法的性能,我们对SwinIR(小尺寸)与当前最先进的轻型图像超分辨率方法进行了系统性对比分析。在评估过程中,除了采用PSNR和SSIM作为主要指标,还特别关注模型的参数规模和计算效率。通过在1280×720高分辨率图像上的具体测试,我们获得了两个关键指标:参数数量和乘法累加运算次数。表3展示了不同基准数据集上的测试结果,其中SwinIR方法在PSNR指标上优于其竞争对手,优势达到0.53dB,同时保持了与之相当的参数规模和计算效率。这些数据充分证明了SwinIR体系结构的高效性。

在这里插入图片描述

Real-world image SR:

图像超分辨率(SR)的核心目标是实现实际应用中的图像增强。Zhang团队开发了一个实用的退化模型BSRGAN,专为真实世界的图像超分辨率任务设计,并在现实场景中取得了显著成果。为了评估SwinIR在现实世界超分辨率(SR)中的性能,我们采用了与BSRGAN相同的退化模型对SwinIR进行了重新训练,以优化其在低质量图像合成方面的表现,并在RealSRSet基准数据集上进行了全面测试。由于缺乏真实高质量图像的数据,我们主要通过与双三次模型ESRGAN、FSSR、RealSR以及BSRGAN等先进现实世界图像超分辨率模型的视觉对比,评估了SwinIR的性能表现。如图5所示,SwinIR生成的图像具有清晰锐利的边缘,视觉效果令人愉悦,而其他对比方法则可能产生不令人满意的伪影或模糊效果。

在这里插入图片描述

3.3 Performance Analysis of JPEG Compression Artifact Reduction & 3.4 Evaluation Results on Image Denoising

这两部分的实验就不详述了

4 Coclusion

总体而言,这篇文章的结构较为简单,主要集中在Swin-T在下游应用领域的应用。基于Swin-T提出的图像恢复模型SwinIR。该模型由三个主要部分组成:浅层特征提取模块、深层特征提取模块以及HR重构模块。为了实现深度特征提取,模型采用了多个残差结构的Swin Transformer块(RSTB)。每个RSTB模块由Swin Transformer层、卷积层和残差连接三个关键组件构成。

核心内容是学习Swin-T算法,可以参考详细的解说:Swin-Transformer。深入理解Swin-T算法后,这类文章的结构相对固定。

实验结果表明,SwinIR算法在经典的图像超分辨率重建任务中展现出显著的性能优势,具体涵盖了轻量化图像超分辨率、真实图像超分辨率、灰度图像去噪、彩色图像去噪以及JPEG压缩伪影去除等五个典型图像恢复场景。这些实验数据充分验证了该算法的有效性和普适性。未来,作者计划将该模型扩展至更多图像恢复任务,包括图像去模糊和去模糊技术的进一步研究。


最后祝各位科研顺利,身体健康,万事胜意~

全部评论 (0)

还没有任何评论哟~