SwinIR: Image Restoration Using Swin Transformer 个人学习笔记
本文提出了一种基于Swin Transformer(SWin Transformer)的图像恢复模型SwinIR。该模型由浅层特征提取、深度特征提取和高质量图像重建三个模块组成。浅层特征提取模块采用卷积层捕获低频信息,而深度特征提取模块通过残差Swin Transformer块(RSTB)进行多级特征融合,每个RSTB包含多个Swin Transformer层和卷积层,并通过残差连接增强特征聚合能力。重建模块融合低频和高频特征以生成高质量图像。实验结果表明,SwinIR在多个图像恢复任务中均表现出超越现有方法的最佳性能(PSNR提升约0.14∼0.45dB),尤其在轻量级、真实世界和高分辨率场景下显著优于传统CNN基模型,并且参数数量减少67%仍能保持良好效果。该模型适用于经典图像超分辨率、灰度去噪、JPEG伪影减少等多种任务,并展现出强大的通用性和适应性。(摘要长度约180字)
https://github.com/JingyunLiang/SwinIR

摘要
图像恢复是一项长久存在的基础视觉挑战,在处理质量较低的输入数据方面表现出独特价值。该研究旨在通过 Swin Transformers 探索其在高级视觉任务中的潜力表现。本文提出了一种新型基础线性模型 SvinIR,默认情况下采用 Swin Transformer 架构构建高保真图像修复体系结构。该模型系统性地包含三个关键模块:浅层特征提取网络(SFE-Net)、深度特征提取网络(DFT-Net)以及超分辨率重建模块(SRM)。其中深度特征提取模块由多组残差 Swin Transformer 块构成(RSTB),每块内部包含若干 Swin Transformer 层并配备残差连接机制以优化特征学习效率。为全面验证该模型的有效性及其在实际应用中的优势表现能力,在多个典型任务场景下进行了系统评估:包括但不限于图像超分辨率重建(涵盖经典型、轻量化设计及真实世界案例)、去噪去模糊处理以及JPEG编码伪影消除等问题域下的实际应用效果测试。通过一系列客观性能指标对比分析发现,在各评估指标上均实现了显著提升:相较于现有最佳方法,在各评估指标上均实现了显著提升。

一、引言
该研究致力于探索多种图像恢复技术路径,在包括超分辨率重建、降噪以及消除JPEG伪影等方面取得了显著进展。自一系列开创性研究[18;40;90;91]以来,在图像恢复领域中卷积神经网络(CNN)已逐渐占据主导地位[43;51;43;81;92;95;24;93;46;89;88]。
大部分基于CNN的方法侧重于复杂架构的设计,在此基础上提出了残差网络[43,51]和密集连接网络[97,81]等创新结构。尽管在性能上较传统的基于模型有所提升[73,14,28],但这些方法仍面临两个基本挑战:首先,在内容层面存在独立性交互的问题,在这种情况下使用相同的卷积参数配置可能导致不同区域无法获得最优特征表达;其次,在局部处理机制下难以有效建模长距离依赖关系。
作为一种替代模型,在文献[76]中提出了一种基于自注意力机制的设计框架,在多个视觉任务[6,74,19,56]中展现了卓越的效果表现。然而,在图像恢复领域中使用的视觉型Transformer架构[9,5]通常会将输入图像划分为固定尺寸的块(例如大小为48×48的小块),然后对每个独立的小块进行处理运算。这种处理策略虽然在一定程度上简化了运算过程和提升了效率性能表现但同时也带来了两个显著的问题:首先划分后的边界像素无法有效利用其周围的像素点信息进行图像重构;其次经过分块处理后生成的图像会在每个小块边缘区域产生明显的伪影 artifact现象尽管可以通过适当调整重叠率来缓解这一缺陷但这种调整方法会显著增加计算开销从而带来额外的成本负担
最近研究表明,Swin Transformer[56]成功地将Convolutional Neural Networks(CNN)与Transformer的优势相结合,在多个领域展现出显著的应用前景。从一个角度来看,在处理大型图像方面具有明显优势;从另一个角度看,在模型架构设计上则表现出更强的计算能力。特别地,在远端依赖建模这一关键模块上实现了突破性进展。
本文构建了一种基于Swin Transformer架构的图像恢复系统SwinIR。具体而言,该系统由三个关键模块构成:浅层特征提取模块,深度特征提取模块以及高质量图像重建模块。其中,浅层特 征提取部分通过卷积操作完成浅层特 征的捕获与传递,并直接传递至 重建模 块,以便有效保 留低频信息特性。深度特 征模 块则主要由多个残差型 S win Transformer 块构成,每个 残差 S win Transformer 块通过多 层 S win Transformer 层实现局 部关注机制的同时,还实现了跨窗口交互效应 。值得注意的是,在每个块结束后附加一个 卷积操作用于增强特 征表示能力 同时引入了残差连接机制作为快捷路径 以促进各层次间信息的有效融合 最终在 重建阶段整合 shallow 和 deep 特征以实现高质量图像重构
相较于现有基于CNN的图像恢复方法,SwinIR具有显著的优势:在(1)方面,通过分析图像内容与注意力权重之间的互动,可将其理解为空间变化的卷积[13,21,75]。(2)在(2)方面,通过位移窗口机制实现了远程依赖建模。(3)在(3)方面,在保持同样性能的前提下,仅使用更少的参数即可实现更好的性能。如图1所示,与现有的图像SR方法相比,SwinIR以更少的参数实现了更高的PSNR值。
二、相关工作
2.1.图像恢复
相较于现有基于模型的传统图像恢复方法[28,72,73,62,32]而言,在深度学习领域中尤其以卷积神经网络(CNN)为代表的学习框架逐渐受到广泛关注并取得显著进展。这些框架通常通过大规模成对数据集来建立低质量与高质量图像间的映射关系,并在此过程中不断优化重建效果。随后发展出了一系列改进型CNN架构以提升表现力[40-98],其中包括如残差块(ResNet)[40,7,88]、密集块(DenseNet)[41-96]以及其它创新性设计如自适应层聚合模块等基础组件[10-93][11-16][17-51][64-99][ etc.]。值得注意的是,在CNN架构内部引入了注意力机制以进一步提升性能,在此过程中又衍生出了通道注意力机制(Channel Attention)[95-97]、非局部注意力机制(Non-local Attention)[52-61]以及自适应模块聚合技术(Adaptive Module Aggregation)等创新性组件加以完善和发展[100及后续文献]]
2.2.视觉变压器
近年来,在计算机视觉应用领域取得了显著的发展[76]。
3.方法
3.1节。网络体系结构
如图2所示,在本研究中所提出的SwinIR模型包含三大组成部分:浅层特征提取器、深度特征提取器以及基于高质量图像重建的关键路径。为实现高效的图像恢复效果,在各类恢复任务中我们采用了统一的特征提取方案,并针对不同类型的恢复任务设计了专门的重建架构。

基于基础层面与深入层面的特征提取

改写说明
完成特征提取后采用卷积模块处理数据时 ,能够成功地将归一化偏置引入到基于Transformer架构中的网络模型中 。这种设计不仅有助于提升模型性能 ,同时也为后续阶段实现低频与高频特征信息的有效融合提供了坚实的理论支撑 。
基于图像超分辨率重建(Image Super-Resolution Reconstruction, IR-HR)
在无需进行超分辨率重建的任务中(例如用于图像去噪以及JPEG压缩伪影减少的任务),我们通过单层卷积操作实现重构。我们的方法通过学习低质量与高质量图像之间的残差信息来完成重建,而无需直接对高质量图像进行重建。

损失函数对于图像SR,我们通过最小化l1像素损失来优化SwinIR的参数

经典的轻量化图像超分辨率重建方法主要依赖于基于L1范数的基本像素损失项进行设计。为了验证所提网络架构的有效性,在实验部分我们采用了与现有方法相同的基准评估指标。在实际应用中,则综合采用了像素重构、生成对抗网络驱动以及感知质量评估等多个指标来进行系统性能分析。
对于图像去噪和JPEG压缩伪影减少,我们使用夏波尼尔损失:

3.2.残差Swin变压器块
如图2a所示,在实现残差型Swin变压器块(RSTB)的结构中包含一个SwinTransformer层与后续的卷积操作。具体而言,在第i个RSTB中输入特征为F_i0时首先提取中间层输出特征F_i1、F_i2、…、F_iL通过LSwinTransformer层生成。这些中间输出特征随后将被用于后续处理,并最终通过卷积层完成残差连接以补充原始输入信息。

在每个RSTB内部的第i层Swin transformer块中定义了HSTLi,j(·)。接着,在执行剩余连接之前引入一个卷积层以优化网络架构。
其中,HCONVi(·)是第i个RSTB中的卷积层。这种设计具有两个显著优势。首先,尽管Transformer可以被视作空间变化卷积[21,75]的一个特定案例,但采用空间不变滤波器的卷积层能够显著提升SwinIR的平移等方差性能。其次,残差连接实现了不同模块间的基于身份的特征融合,从而促进多级特征信息的有效聚合。
Swin Transformer层(STL)。该层(STL)[56]基于原始Transformer层[76]的标准多头自注意力机制构建而成。其核心特征在于引入了局部注意与窗口机制作为主要区别点。如图2(b)所示,在输入维度为H×W×C的情况下,Swin Transformer首先将输入划分为不重叠的M×M的小块区域进行重构,从而生成了扩展后的HWM₂ × M₂ × C特征空间输入,其中HWM₂代表小块区域总数。随后,该过程分别对每个小块区域计算标准自注意力(即局部关注)。对于单个局部窗口内的特征向量X∈R^{M² × C},其查询、键与值矩阵Q,K,V经计算后分别为


4.实验
4.1.实验设置
对于经典图像SR(CS-SR)、真实图像SR(TS-SR)、图像去噪以及JPEG压缩伪影消除任务中,在设定超分辨率网络参数时通常采用以下配置:RSTB数量与STL数量均为6个;窗口尺寸设定为8像素;通道数量配置为180个;注意头数目定为6个。值得注意的是,在针对JPEG伪影消除任务中将窗口尺寸微调至7像素可能是由于实验发现当窗口尺寸扩大至8像素会导致性能明显下降的原因——这可能与传统的JPEG编码机制所采用的块状编码方式有关(即基于8×8像素的分块)。在此基础上,在轻量化图像超分辨率重建任务中则将网络结构进行了相应的优化设计:具体而言,在上述配置基础上将RSTB数量缩减至4个同时增加通道数量至60个以期达到整体性能提升的目的。此外,在95~63范围内的网络超参数搜索区间内,并结合文献[51]中的集成策略进行系统性实验研究时会采用特定标记方式以区别不同模型表现——例如,在模型名称前加上一个加号符号以实现清晰标识功能(如SwinIR+)。最后需要说明的是由于篇幅限制关于具体的训练与评估细节将在附录部分进行补充说明
5.结论
本研究开发了一种基于Swin变换器的图像恢复模型SwinIR。该模型由浅层特征提取、深层特征提取两个主要组件以及高分辨率重建单元组构成。特别地,在深度特征提取过程中,我们采用了多个残差Swin变压器块(RSTB)。每个RSTB包括一个Swin transformer layer、一个卷积层以及一个残差连接结构。经过大量实验验证,在三种具有代表性的图像恢复任务(经典图像超分辨率缩放、轻量级图像超分辨率缩放、真实图像超分辨率缩放)以及六种不同设置条件下,该模型均实现了当前最先进的性能指标:包括经典图像超分辨率重建(Classic Image SR)、轻量级图像超分辨率重建(Lightweight Image SR)、真实图像超分辨率重建(Real Image SR)、灰度图像去噪(Grayscale Image Denoising)和JPEG压缩伪影减少(JPEG Artifacts Mitigation)。这些结果充分证明了该模型的有效性和广泛的适用性。未来工作将重点扩展至其他相关图象修复任务的研究与应用,如图象去模糊和图象去雨化处理等。
