Advertisement

【论文阅读】A Hybrid Network of CNN and Transformer for Lightweight Image Super-Resolution

阅读量:

A Hybrid Network of CNN and Transformer for Lightweight Image Super-Resolution

  • 论文地址

  • 摘要

  • 简介

  • 2. 相关工作

    • 基于 CNN 的网络。
    • 基于注意力的网络。
  • 3. 方法

    • 3.1. 网络结构
    • 3.2. CNN 和 Transformer 的混合块 (HBCT)
    • 3.3. Swin变压器块(STB)
    • 3.4.增强空间注意力(ESA)
    • 3.5. 讨论
      • 与 RFDN 的区别。
      • 与SwinIR的区别。
  • 4.实验

    • 4.1. 实验设置
    • 4.2. 消融研究
    • 4.3复杂度分析
    • 4.4 . Comparison with State-Of-The-Arts
    • 4.5 NTIRE 2022 Efficient SR Challenge
  • 5.结论

论文地址

1、论文
2、源码

摘要

最近,许多基于CNN的方法在单图像超分辨率方面取得了巨大进展。然而,这些现有架构通常构建大量网络层,带来高计算复杂性和高内存消耗,这不适合应用于诸如移动平台的嵌入式终端。为了解决这个问题,我们提出了一种用于轻量级图像超分辨率的CNN和Transformer(HNCT)混合网络。通常,HNCT由四个部分组成,分别是浅层特征提取模块、CNN和Transformer混合块(HBCT)、密集特征融合模块和上采样模块。通过结合CNN和Transformer,HBCT提取了有利于超分辨率重建的深层特征,同时考虑了本地和非本地优先级,同时具有足够的轻量级和灵活性。在重型作战旅中引入了增强的空间注意力,以进一步提高性能。广泛的实验结果表明,我们的HNCT在超分辨率性能和模型复杂性方面优于最先进的方法。此外,我们在NTIRE 2022高效SR挑战赛中获得了第二好的PSNR和最少的激活操作。代码位于https://github.com/lhjthp/HNCT.

简介

单图像超分辨率(SR)是一项低级计算机视觉任务,用于从低分辨率(LR)图像重建高分辨率(HR)图像。SR是一个不合适的问题,因为LR图像可以被无限数量的HR图像降级。由于SR技术能够恢复图像纹理细节,因此可以应用于许多应用,例如监控系统,智能相机等。最近,提出了多种基于卷积神经网络(CNN)的方法[5,10,16,22,31,32,34,37],并取得了突出的SR性能。盾等人首先提出了一种三层网络SRCNN [5]来学习从LR图像到HR图像的端到端映射。然后,Kim等人开发了20层的更深的网络VDSR [13],并获得了比SRCNN更好的结果,表明深度网络可以获得更好的SR性能。EDSR [22]通过深化和拓宽网络架构进行了进一步的演示,并获得了NTIRE 2017的冠军[36]。RDN [45] 和 RCAN [43] 分别将网络深度增加到 100 层和 400 层以上,从而超越了 EDSR [22]。
尽管SR已经取得了相当大的改进,但现有的基于CNN的模型仍然面临一些限制。随着网络深度的增加,这些方法需要爆炸性的计算成本和内存消耗,因此它们无法部署在移动设备等嵌入式终端上。此外,CNN只能处理图像的局部区域,受卷积运算的核大小有限,无法在远程依赖修改上实现令人满意的效率。因此,必须同时考虑本地和非本地信息,以提高网络性能。
为此,不同于CNN的新架构如Transformer [38]提供了一种自我注意机制来捕获全局信息并利用图像的自相似性特性。LocalViT [19] 引入了卷积神经网络 (CNN),将局部性机制引入变压器。通过这种方式,LocalViT能够组合本地和非本地信息以增加模型容量。最近,Liang等人提出了基于Swin变压器[25]的强基线模型SwinIR [21]。在SwinIR的主要组件中,几个Swin转换器外行者用于局部关注和跨窗互,同时还添加了卷积层以增强功能。通过Transformer和CNN的相互合作,SwinIR的表现优于其他最先进的SR方法。

受SwinIR [21]和LocalViT [19]的启发,我们提出了一种轻量级SR模型,即CNN和变压器(HNCT)的混合网络,集成CNN和变压器以同时对本地和非局部先验进行建模。
具体而言,HNCT由四部分组成:
• 浅层特征牵引(SFE)模块,
• CNN和Trans-former 混合块(HBCTs),
• 密集特征融合(DFF)模块和
• 上采样模块。

(即-----
• 首先,在浅层特征提取模块中仅由一个卷积层提取包含低频信息的浅层特征;
• 然后,使用四个HBCT提取分层特征。每个HBCT包含一个Swin变压器模块(STB),内部有两个Swin变压器层,一个卷积层和两个增强的空间注意力(ESA)模块[24]。
• 之后,HBCT产生的这些分层特征被连接并融合以获得SFE中的残差特征。
• 最后,在上采样模式中生成SR结果。

通过集成CNN和变压器,我们的HNCT能够为SR提取更有效的特征。如图1所示,与参数较少的最先进的轻量级方法相比,HNCT获得了更好的SR结果。
在这里插入图片描述

这项工作的主要贡献可归纳如下:
1.我们提出了一种用于图像超分辨率的CNN和变压器(HNCT)的轻量级混合网络,与其他方法相比,它以更少的参数实现了更好的SR性能
2.我们提出了一种CNN和变压器(HBCT)的混合块,它同时利用局部和非局部先验来提取对SR有益的特征。

2. 相关工作

最近,基于深度学习的方法,尤其是基于 CNN 的方法 [16, 37],已经在图像 SR 问题上取得了显着的改进。同时,引入了注意力机制[8, 46],包括广泛应用于高级视觉任务的自注意力机制[38],以进一步提高SR性能。在本节中,我们简要回顾了与基于 CNN 的网络和基于注意力的网络相关的工作。

基于 CNN 的网络。

董等。首先提出了 SR-CNN [5],它通过仅包含三个卷积层的 CNN 学习从 LR 图像到其 HR 对应物的端到端映射。然后,VDSR [13] 和 DRCN [14] 通过分别使用残差学习和递归学习学习更大的网络,进一步提高了 SR 性能。通过同时采用残差学习和递归学习策略,DRRN [30] 以更少的参数实现了更好的性能。 MemNet [35] 被提议通过挖掘持久内存来解决长期依赖问题。在这些方法中,原始 LR 图像在馈送到网络之前被放大到所需大小。为了提高 SR 速度,大多数新的 SR 模型将原始 LR 图像作为输入,并通过网络末端的反卷积或亚像素卷积 [33] 来提高空间分辨率。与其他 SR 方法不同,LapSRN [15] 通过逐步增加图像分辨率和预测 HR 图像的子带残差来重建 SR 图像。受 ResNet [7] 的启发,SRResNet [16] 和 EDSR [22] 提出了 SR 模型,通过堆叠一系列残差块来提高 SR 性能。特别地,EDSR 通过移除批量归一化 (BN) 层来修改残差块以实现性能改进。在 EDSR 的基础上,RDN [45] 引入了密集连接 [9] 以充分利用所有前面层的层次特征。尽管性能很好,但大多数基于 CNN 的方法由于复杂的复杂性在现实世界中并不实用- 假设的复杂性。为了解决这个问题,Ahn 等人。提出了一种使用级联网络结构和组卷积运算的高效模型CARN-M [1],它以更少的计算和参数实现了与最先进方法相当的结果。惠等。提出了 IDN [12] 以逐渐提取长路径和短路径特征,并为 SR 重建提取更有用的信息。基于 IDN,IMDN [11] 提出了多重蒸馏和对比感知通道注意机制,并赢得了 AIM 2019 约束图像超分辨率挑战赛 [41]。刘等人。提出了 RFDN [24],它引入了特征蒸馏连接和浅层残差块,用于参数比 IMDN 更少的快速 SR。

基于注意力的网络。

受可以自动聚焦重要区域的人类视觉系统的启发,注意力机制旨在集中输入信号中信息量最大的成分。最近,几项工作将注意力机制引入了 SR 任务。张等。通过将通道注意机制引入简化的残差块,提出了 RCAN [43] 来关注最重要的通道。马吉德等人。提出 DFSA [26] 使用矩阵多光谱通道注意力预测频域特征的注意力图化机制。刘等人。提出了一个增强的空间注意力(ESA)模块[24],以使用更少的参数有效地利用局部空间信息。此外,还研究了旨在捕获远距离空间信息的非局部注意机制。 NLRN [23]、RNAN [44]、CSNLN [29]、ENLCN [39]等方法引入了非局部注意力来实现性能提升。最近,[3,17,21] 等模型引入了基于自注意力的 Transformer,以进一步提高 SR 性能。旨在编码远距离依赖和捕获全局交互的自我注意机制可以被视为非局部注意机制的一个特例。特别是,Liang 等人。提出了基于 Swin Transformer [25] 的 SwinIR [21],以实现出色的性能。此外,协同采用多种注意机制来改善 SR 结果。戴等。提出 SAN [4] 使用非局部注意力和二阶通道注意力来细化特征。牛等。提出了 HAN [30],不仅通过使用通道注意力和空间注意力来学习每一层特征的通道和空间相互依赖性,而且还引入了层注意力来探索层次之间的相关性。

3. 方法

在这里插入图片描述

3.1. 网络结构

如图2所示,所提出的HNCT由四个部分组成:浅层特征提取(SFE),CNN和Transformer的混合块(HBCTs),密集特征融合(DFF)和上采样模块。

给定输入LR图像ILR,我们首先提取浅层特征
在这里插入图片描述

其中 HSF 表示权重为 W0 的单卷积层 SFE,符号 ∗ 表示卷积运算。为简单起见,省略了卷积层的偏置项。然后使用 F0 通过多个 HBCT 进行深度特征提取。假设 HBCT 的数量为 D,第 d 个 HBCT 的输出 Fd (1 ≤ d ≤ D) 可以表示为
在这里插入图片描述

其中fd HBCT表示d-th-thHBCT的功能,Fd表示d-thHBCT的输出。提出HBCT从输入特征中提取更高级别的特征。HBCT的更多细节将在第3.2节中提供。
这些HBCT的所有输出都连接并发送到DFF,DFF包括两个堆叠卷积层以融合所有分层特征,并添加了全局残差学习策略以减轻学习难度。DFF 使用前面所有 HBCT 层的特征,输出可以表示为
在这里插入图片描述

其中 [F1 , F2 , · · · , FD ] 是所有 HBCT 生成的特征的串联。 W1 和 W2 分别是 3×3 卷积层和 1×1 卷积层的权重。引入 1×1 卷积层进行特征融合,随后使用 3×3 卷积层进一步提取特征。最后,在由 3×3 卷积层和像素洗牌层组成的上采样模块中,SR 图像ISR 重构如下
在这里插入图片描述

其中 W3 是卷积层的权重,FUP 表示像素洗牌操作。我们的HNCT的损失函数可以表述为:
在这里插入图片描述

其中 θ 表示 HNCT 的参数,∥∥1 是 l1norm,N 是训练图像块的数量,Ii SR 和 Ii 分别是第 i 个重建的 SR 图像和对应的 ground-truth HR 图像。

3.2. CNN 和 Transformer 的混合块 (HBCT)

在本节中,我们介绍了我们提出的 CNN 和 Transformer 的混合块 (HBCT)。 HBCT 由一个 Swin Transformer Block(STB)、一个 3×3 卷积层和两个增强空间注意力(ESA)模块组成。提出STB是因为它可以大大提高模型的表示能力。 ESA的特点是重量轻、效率高。 STB 和 ESA 将在 3.3 节和 3.4 节中详细讨论。 HBCT的结构如图2所示。根据等式(2),第(d-1)个HBCT Fd-1的特征图直接馈送到第d个HBCT。给定输入特征 Fd−1,第 d 个 HBCT 首先使用 ESA 模块从输入中选择重要特征,然后通过 Swin Transformer Block (STB) 提取中间特征。之后,添加一个 3×3 卷积层以确保我们网络的平移等变性。最后,还引入了另一个 ESA 模块,以获得更关注感兴趣区域的特征。第d个HBCT的函数可以描述为
在这里插入图片描述

其中HST B表示STB的函数, W4是卷积层的权重,HESA表示ESA的函数。

3.3. Swin变压器块(STB)

Swin变压器层(STL)采用基于标准多头自注意的原始变压器层的架构[38]。此外,Swin变压器引入了局部关注和转移窗口机制。如图2(b)所示,给定一个大小为h × w × c的输入,Swin变压器首先通过窗口分区将输入整形为硬件 hw/M2 × M2 × c 特征,其中 hw/M2 是大小为 M × M 的窗口总数。然后,对于每个窗口,Swin Transformer 并行计算 h 次的自我注意,其中 h 是自我注意头的数量。给定一个局部窗口特征 F swt ∈ RM2×c 中,查询、键和值矩阵 Q、K 和 V ∈ R M2×d 计算为
在这里插入图片描述

其中d = c/h,WQ,WK和WV是跨不同窗口的共享可学习投影矩阵。注意力矩阵Attn(Q, K, V)是通过本地窗口中的自注意力机制计算的。
在这里插入图片描述

其中 b 是可学习的相对位置编码。多头自我注意 (MSA) 的结果被连接起来以保持嵌入维度不变。在衰减功能之后,有一个两层MLP,中间有GELU激活。在 MSA 和 MLP 之前添加层范数 (LN) 层,并使用残差连接。变压器的整个功能可以描述为
在这里插入图片描述

其中 HLN 表示 LN 函数,FMSA 表示多头自注意力操作,FM LP 表示 MLP 函数。但是,固定窗口分区的窗口之间没有信息交互。 Swin Transformer [25] 交替使用常规和移位窗口分区来实现不同窗口的高效信息传输和交互。
通过利用跨窗口信息,Swin Transformer 在计算机视觉任务中表现出了巨大的前景。由于shift step的长度是窗口大小的一半,所以通常使用偶数个连续的Swin Transformer层来保持获得的特征的位置与对应的图像空间中的LR image补丁。在我们的 HNCT 中,一个 STB 包含两个 STL,用于在 SR 性能和网络复杂性之间取得平衡.

3.4.增强空间注意力(ESA)

我们使用了[24]中提出的增强空间注意力(ESA)模型,该模型比普通SA模块[46]更强大。ESA模块的结构如图2(c)所示。给定输入 F esa,ESA 首先提取组合特征 F esa,如下所示,
在这里插入图片描述

1 1 inwhere W esa 是 1 × 1 卷积层的权重,用于 1 用于减少嵌入维度,然后 ESA 进一步提取特征 F esa,如下所示,
在这里插入图片描述

其中 Wesa 2 是步幅为 2 的 3×3 卷积的权重,Hpool 是最大池化运算,Hg 是由三个 3 × 3 卷积层组成的组的函数,Hup 是通过双线性插值实现的上采样函数。跨步卷积层和最大池化层同时减少空间维度,然后由上采样层恢复。最后,ESA模块F esa out的输出可以计算为:
在这里插入图片描述

其中Wesa 3是用于恢复嵌入维度的1×1卷积层的权重,Hsigmoid是S形函数,符号×表示逐点乘法运算。
ESA机制在HBCT开始和结束时发挥作用,使特征更加集中于感兴趣的区域。当这些突出显示的特征聚集在一起时,我们可以获得更具代表性的特征,这对图像SR重建更有利。

3.5. 讨论

与 RFDN 的区别。

RFDN [24] 提出了特征扩展连接 (FDC),它在功能上等同于信道分离操作。基于FDC,RFDN使用多个特征连接来学习更多的离散特征表示。还提出了一个浅残差块作为RFDN的主要构建块,以便RFDN在保持轻量级的同时从残差学习中受益。与RFDN不同,HNCT组装了Trans-former和CNN。得益于Transformer的长距离依赖能力和CNN的局部特征提取能力,我们的HNCT可以大大提高SR性能。

与SwinIR的区别。

SwinIR [21]提出了一个基于Swin Trans-former 的图像恢复的强大基线模型。SwinIR的主要组件由堆叠几个剩余的 Swin 变压器块。与SwinIR不同,HNCT采用密集连接来充分整合先前HBCT产生的分层特征。此外,ESA模块的部署突出了更具代表性的功能,进一步提高了SR性能。

4.实验

4.1. 实验设置

我们使用来自 DIV2K [36] 数据集的 800 个训练图像训练我们的 HNCT。通过旋转90°、180°、270°和水平翻转来进行数据扩充。为了进行测试,我们使用了五个基准数据集:Set5 [2]、Set14 [40]、BSD100 [27]、Urban100 [10] 和 Manga109 [28]。采用峰值信噪比 (PSNR) 和结构相似性 (SSIM) 来衡量 SR 图像的质量。对于每个训练小批量,从 LR 图像中随机裁剪 16 个大小为 64×64 的块作为输入。 Adam 优化器用于通过设置 β1=0.9、β2=0.999 和 ε=1e-8 来训练我们的 HNCT。总共有 1200 个训练 epoch。学习率初始化为5e-4,每200个epoch减半,1000个epoch后固定。 STL 中的窗口大小、嵌入维数和注意头数分别设置为 8、50 和 5。为了权衡模型的大小和性能,我们的 HNCT 包含四个 HBCT,每个 HBCT 包含两个 STL.

4.2. 消融研究

我们进行了几次消融实验,以评估我们提出的 HBCT 在 Manga109 基准数据集上的有效性。结果列于表1,其中Conv表示3×3卷积层,SA是[46]中介绍的普通空间注意模块。首先,模型 1 是一个基于 CNN 的网络,通过用两个卷积层替换 HBCT 中的 STB,并在每两个连续的卷积层之间添加一个 ReLU 层来构建。模型1的SR结果表明HNCT优于基于CNN的网络,由于CNN和Trans-Former的结合。然后,通过分别移除HNCT中的一个或两个ESA模块来构建模型2-4。它们的性能略有下降,表明空间衰减可以提高HNCT的SR性能。最后,通过用SA模块替换一个或两个ESA模块,型号5-7的性能比HNCT差,这表明ESA比SA更强大,可以突出重要功能。得益于ESA以及CNN和Transformer的组合,我们的HNCT优于表1中列出的其他模型。
在这里插入图片描述

4.3复杂度分析

图1描述了Set5上×4 SR的PSNR和不同模型的参数数的比较。比较的模型包括VDSR [13],DRCN [14],LAPAR-A [18],DRRN [30],MemNet [35],IDN [12],SR-MDNF [42],CARN [1],IMDN [11],RFDN [24]和我们的HNCT。众所周知,参数编号是轻量级模型中的重要因素之一。如图1所示,与DRRN以外的其他方法相比,我们的HNCT以更少的参数数量实现了最佳性能。HNCT获得的性能比参数编号稍大的 DRRN。图 1.

4.4 . Comparison with State-Of-The-Arts

证明了 HNCT 是一种高效的轻量级 SR 方法。与最新技术的比较我们将我们的 HNCT 与其他轻量级 SR 方法进行了比较,包括 SRCNN [5]、FSRCNN [6]、VDSR [13]、DRCN [14]、DRRN [30]、MemNet [35] 、IDN [12]、SR-MDNF [42]、CARN [1]、LAPAR-A [18]、IMDN [11] 和 RFDN [24]。表 2 显示了五个基准数据集的定量结果。我们可以发现,除了在 ×2 下的 Set14 和 Manga109 上,所提出的 HNCT 在所有数据集上都在 ×3 和 ×4 下实现了最佳性能,因为这些竞争对手的效率足以重建图像,只有 2下采样的尺度。参数比较也列在表 2 中。清楚地表明,尽管 RFDN 与所提出的 HNCT 方法的结果更接近,但在所有情况下,它的参数比我们的模型大大约 50%(180K)。 SRCNN 和 FSRCNN 的参数最少,但它们的性能远远落后于所提出的 HNCT。因此,受益于 ESA、CNN 和 Transformer,我们提出的 HNCT 基本上以最少的参数获得了最好的结果。图 3 显示了 HNCT 和其他轻量级竞争对手在 ×4 上的三个视觉比较。原始图像“253027”、“img062”和“ARMS”分别选自 BSD100、Urban100 和 Manga109。从放大的视图中,我们可以观察到 HNCT 重建的条纹和线条比竞争对手更接近 ground truth。尤其是在img062的重建中,重建了更精确的矩形。这种视觉比较可以进一步证明我们提出的 HNCT.的有效性。

4.5 NTIRE 2022 Efficient SR Challenge

这项工作最初是为了参加 NTIRE 2022 Efficient SR Challenge [20] 而提出的。挑战旨在设计一个网络,减少一个或多个方面,如运行时间、参数、FLOPS、激活和深度,同时在 DIV2K 验证数据集上至少保持 29.00dB 的 PSNR。根据竞争规则,RLFN、FMEN 和 PlainRFDN 是前三名获胜方法,因为它们的运行时间最少。为简单起见,表 3 列出了这三种方法以及 PSNR 排名前三的其他方法。所提出的 HNCT 具有最少的激活数,并且比具有可比参数数的顶级优胜者 RLFN、FMEN 和 PlainRFDN 实现更好的 PSNR。与获得前两个PSNR的LWFANet和MDAN相比,HNCT只有345K参数,而其他两种方法分别有390K和832K参数。

5.结论

在本文中,我们提出了一种用于轻量级图像 SR 的 CNN 和 Transformer (HNCT) 混合网络。通过集成 CNN 和 Transformer,HNCT 可以利用局部和非局部先验并提取更有利于图像 SR 的深层特征。此外,增强空间注意力(ESA)被用来进一步改善SR结果。大量实验表明,我们的 HNCT 优于比较的轻量级 SR 方法,以最少的参数实现最佳性能。然而,由于 Transformer 的计算复杂度很高,HNCT 的运行速度比基于 CNN 的方法慢得多。未来,我们将专注于提高HNCT的推理速度。

全部评论 (0)

还没有任何评论哟~