全文翻译:Deep Learning for Image Super-resolution: A Survey
综述用于图像超分辨率的深度学习
主要贡献者Zhihao Wang、Jian Chen以及Steven C.H. Hoi教授(Fellow, IEEE)
论文链接:点击此处访问该研究内容
摘要
图像是指超分辨率(SR)这类核心技术,在计算机视觉领域具有重要意义。近年来,在应用深度学习技术方面取得了显著进展。本文致力于对基于深度学习方法的新一代图像是指超分辨率技术的发展情况进行综述。通常来说,默认我们将现有的SR技术研究大致分为三类:监督型、无监督型以及领域专用型的技术体系;除此之外,则是公共基准数据集及其评估标准等一些重要问题的研究成果总结与探讨
1. 介绍
图像超分辨率(SR)是从低分辨率(LR)图像重建高分辨率(HR)图像的一种计算技术,在计算机视觉与图像处理领域具有重要地位。该技术在多个实际领域展现出广泛的应用潜力,例如医学成像领域已发表多篇相关研究文献,[1-3],监视与安全领域则主要聚焦于实时监控系统,[4-5].此外,该技术不仅显著提升了图像感知质量,还为其他计算机视觉任务如目标识别与检测,[6-9]视频分割等提供了重要支持.然而,这一问题因其高度复杂性而充满挑战性,因为一个LR输入可能对应多个潜在的HR解.目前已有诸多经典的SR方法被提出,包括基于预测建模的方法,[10-12]基于边缘检测的方法,[13-14]统计建模方法,[15-16]基于去模糊化处理的方法,[19-20]以及稀疏表示方法.[20-21]]
近年来, 随着深度学习技术迅速发展, 基于深度学习的超分辨率重建(SR)模型已获得深入探讨, 并在各类评估基准上展现出显著性能优势. 近年来, 从以早期卷积神经网络为基础的方法(如SRCNN [22], [23])到逐渐兴起并被广泛采用的基于生成对抗网络(GAN)的高效SR算法, 深度学习技术已在多个研究方向上取得突破性进展 [24]. 一般来说, 基于深度学习技术构建的各类超分辨率重建算法在以下几大方面存在显著差异:不同的网络拓扑架构([26], [27], [28]),多样化的损失函数设计([8], [29], [30]),以及不同的学习策略([8], [31], [32]).
在本文中
该调查的主要贡献有三方面:
我们对基于深度学习的图像超分辨率技术进行了系统性的梳理与分析。具体而言,在问题设置方面, 我们探讨了核心问题定义; 在基准数据集方面, 则选择了典型的数据显示; 在评估标准部分, 则提出了多维度的衡量指标; 此外, 在算法框架中集中考察了基于深度学习的超分辨率(SR)方法集合; 最后, 在应用层面重点分析了特定领域中的超分辨率应用情况.
我们采用了层次化体系对基于深度学习的超分辨率(SR)技术的最新进展进行了全面梳理,并对成熟可靠SR方案各组成部分的优势及其局限性进行了详细分析。
我们探讨挑战与尚未解决的问题,并识别新兴趋势与发展方向, 以专业视角为社区提供有价值的指导
在本研究综述中, 我们将全面探讨深度学习技术在图像超分辨率领域的最新发展与应用. 图1通过层次结构清晰展示了本次研究涉及的主要图像超分辨率(SR)分类方法. 第二部分详细阐述了问题的核心定义, 并对常用的公开数据集及其评估指标进行了回顾. 第三部分系统地解析了监督式SR方法的关键组成要素. 第四部分则重点概述了无监督式SR方法的基本思路与技术框架. 第五部分深入介绍了几种具有特定领域应用价值的SR技术, 最后一节则探讨了该领域的发展趋势与面临的关键挑战.

图1:此综述的层次结构分类法。
2. 问题设置和术语
2.1. 问题定义
图像是超分辨率的目标是从低分辨率(LR)图像恢复相应的高分辨率(HR)图像。一般情况下, LR 图像 I_x 被建模为以下退化的输出:

其中D代表降级映射函数,在这里我们称作 HR 图像 I_y 的相关参数 δ (例如缩放因子或引入的噪声)。通常情况下,在仅获得低分辨率 (LR) 图像的情况下,则认为降级过程 (即 D 和 δ) 是未知的。在这种情况下也被称作 blind super-resolution ,其核心任务是从给定的 LR 图像 I_x 中重建出高分辨率 (HR) 版本 I_y 的近似值。

其中F是超分辨率模型,θ表示F的参数。
考虑到降级机制尚不明确,并且可能受到压缩伪影、各向异性降影、传感器噪声以及斑点噪声等多种因素的影响(例如上述列举的影响因素),研究者致力于构建反映这种复杂性的数学模型。许多研究假设这种复杂性可以通过单一的下采样操作来表征,并在此基础上提出了相应的算法框架。

其中↓_s是基于比例因子s的下采样操作。

其中I_y⊗κ表示将模糊核κ应用于HR图像I_y的过程,在此过程中应用了混合降噪机制。相较于方程式3的传统定义而言,方程式4采用了更为复杂的混合降级模式以模拟实际场景,并研究表明这一改进显著提升了超分辨率(SR)效果[39]。
为此,SR的目标如下:

其中L(\hat{I}_y, I_y)表示生成的高分辨率图像\hat{I}_y与实际低分辨率图像I_y之间的损失函数;Φ(θ)为正则化项;λ为权衡参数。然而,在超分辨率领域中,默认采用逐像素均方误差作为损失函数并不是最佳选择;更为复杂的模型往往倾向于结合多种不同的损失函数来优化性能;这将在第3.4.1节中介绍
2.2. 超分辨率数据集
目前有许多可供用于图像超分辨率的数据集,在数量、质量、分辨率以及多样性等方面均存在显著差异。其中一类数据集提供了相应的LR-HR图对而另一类则仅提供了单个HR图象。通常采用MATLAB默认配置下的imresize函数生成对应的低分辨率图象(采用抗锯齿技术结合双三次插值算法)。见表1所示详细列出了该领域常用的主要数据集及其相关参数包括HR图象数量平均分辨率平均像素数等具体指标以及对应的文件格式与关键分类标签等信息

除此外还有一些通用的数据集常用于该领域 包括ImageNet [51] MS-COCO [52] VOC2012 [53] CelebA [54] 等 在实际应用中发现综合多组数据能够显著提升性能 比如将T91与BSDS300 [26][27][55][56]相结合 并结合DIV2K与Flickr2K [31][57]
2.3. 图像质量评估
图像是具有视觉特性的信息载体,并特别关注观察者对其的感受性特征进行定量分析。
此外,在讨论客观IQA时需要特别指出的是其分类方式:根据是否依赖参考图像可以将其划分为三类[58]:第一类为全参考(Full Reference)方法,在这种情况下评估者需要依赖一张或多个参考图像来进行量化分析;第二类为简化型(Simplified Reference)方法,则主要通过提取关键特征来进行对比分析;第三类则属于无(简)-reference(即盲Image Quality Assessment, blind-IQA)技术完全不依赖任何外部信息来进行评价。随后我们将深入探讨几种最常用且最具代表性的IQA算法,并重点介绍其中既有主观性又有客观性的综合评估方案
2.3.1. 峰值信噪比
峰值信噪比(PSNR)是数据压缩技术中广泛认可的重建质量评估指标之一。对于超分辨率成像而言,在实际应用中通常基于以下定义进行计算:给定具有N个像素的真实图像是I、具有相同数量像素的重建图像是\hat{I};则I与\hat{I}之间的PSNR可由下式计算得出

其中L被设定为255(通常采用8位二进制数来表示)。 值得注意的是,在图像处理领域中PSNR这一指标仅依赖于像素级别的均方误差(MSE),也就是说它并不关心整体图像的质量表现如何而是专注于各个像素之间的差异情况。 这一特点使得其在真实场景下的重建质量评估上往往出现性能下降的现象然而,在实际应用中我们往往更重视人类的知觉感受。 尽管如此,在现有文献中缺乏一个完全准确且全面的视觉感知指标仍是我们选择PSNR作为评价标准的主要原因。
2.3.2 结构相似性
鉴于人眼视觉系统(HVS)特别擅长提取图像结构特征[59]

其中C_1=(k_1L)^2和C_2=(k_2L)^2是避免不稳定的常数,k_1远小于1且k_2远小于1。
此外,在处理图像时会采用归一化的像素值来进行描述。(其中计算公式为: (I - µ_I)/σ_I )。这种情况下,则将两个图像的相关性通过内积进行计算以反映它们的相似程度。由此可得:该相关的数值结果就等于这两个变量间的皮尔逊相关系数值。因此,在实际应用中我们就可以直接使用这个数值作为两个图像之间结构性的评估指标

其中σ_{I,\hat{I}}是I和\hat {I}之间的协方差,而C_3是稳定性的常数。
最后,SSIM由以下方式给出:

其中,α,β,γ是用于调整相对重要性的控制参数。
由于SSIM从HVS的角度进行分析重建质量的特性,并且这种特性能够使重建图像在人眼视觉系统中得到良好的感知效果。
2.3.3. 平均意见得分
基于平均主观质量评分(MOS)的量化评估系统是一种广泛采用的主观图像质量评估(IQA)工具。该系统要求人类评估者对测试图像进行质量感知评分,在1分至5分的打分范围内选择数值(1分代表图像质量较差,5分代表图像质量极佳)。 MOS值则通过将所有评价值取算术平均数的方式计算得出。
尽管mos测试看似是一种可靠的一致性质量评估(iqa)方法,但它确实存在一些局限性,如非线性的感知尺度、系统偏差以及与预期标准之间存在的偏差。实际上,某些超分辨率(sr)模型在通用评估指标(如psnr)方面表现不佳,但在主观视觉质量方面却显著超越了其他模型,因此在这种情况下,mos测试被认为是衡量主观视觉质量最可靠的一致性质量评估方法[8][25][46][62][63][64][65]
2.3.4. 基于学习的感知质量
为了在减少人工干预的同时更好地评估图像的感知质量,研究人员尝试通过在大型数据集上学习来评估感知质量。 特别是,Ma等人[66] 和Talebi等人[67] 分别提出了无参考的Ma和NIMA,它们是从视觉知觉得分中学到的,并且无需地面真相图像就可以直接预测质量得分。 相反,Kim等人[68]提出了DeepQA,它通过对畸变图像,客观误差图和主观得分的三元组进行训练来预测图像的视觉相似性。 Zhang等人[69]收集了大规模的感知相似度数据集,通过训练有素的深度网络根据深度特征的差异评估了感知图像斑块相似度(LPIPS),并且表明CNN所学习的深度特征比感知相似度要好得多。 没有CNN的措施。
然而,在捕捉人类视觉感知方面具有更好效率的方法已经出现,
尽管如此,
对于什么样的感知质量(例如,
更为逼真的图像或是与原始图像高度一致的质量)
仍是一个值得深入研究的问题,
鉴于此,
基于客观的标准(如PSNR和SSIM)
依然是当前研究的核心方向
2.3.5. 基于任务的评估
基于SR模型能够辅助多种视觉任务的基础事实(如引用文献6至10),通过不同视觉任务来评估重建性能是一种有效的方法。例如,在实际应用中,研究人员将原始与重建的高分辨率图像输入训练后的模型中,并根据这些输入对预测性能的影响来评估重建质量。用于评估的任务涵盖对象识别(如引用文献8)、面部识别(如引用文献71)、面部对齐与解析(如引用文献30)等
2.3.6. 其他IQA方法
除了现有的IQA方法之外,在多尺度分析方面也有不受欢迎的其他一些SR指标。 多尺度结构相似性(MS-SSIM)[74]在考虑到观看条件的变化时显示出更大的适应性。 特征相似度(FSIM)[75]通过相位一致性与图像梯度幅度提取关键特征点,并能有效地评估图像质量。 自然图像质量评估器(NIQE)[76]根据自然图像统计特性计算出的可测偏差来进行评估,并能够有效地避免对 Distortion(D)敏感性。
最近研究团队[77]通过数学证明图像模糊度(包括PSNR和SSIM指标)与主观视觉质量(如MOS评分)之间存在本质冲突,并进一步揭示,在图像模糊度逐渐降低的过程中主观视觉体验必然会出现质的变化。这一发现使得准确评估超分辨率(SR)重建的质量仍面临一个亟待解决的关键难题
2.4. 操作空间
除了广为人知的RGB颜色空间之外, 被广泛应用用于超分辨率处理的是YCbCr颜色空间。 其中, 图像分为亮度(Y)和色度分量(Cb和Cr)三个部分, 分别对应亮度值和其他两种颜色差异信息。 尽管目前尚未有统一认可的最佳实践指导方针, 早期的研究主要集中在对亮度分量(Y)的处理,[26][43][78][79] 而相比之下, 在RGB主通道上的研究更为常见,[28][31][57][70] 不同的研究策略可能导致显著的不同效果([23])
2.5. 超分辨率挑战
在本节中,我们将简要介绍图像SR的两个最受欢迎的挑战:NTIRE [80]和PIRM [47],[81]。
该挑战专注于图像恢复与增强领域的最新进展(第80届NTIRE挑战),其结合了CVPR等平台,并涵盖了超分辨率重建(SR)、降噪以及色彩恢复等多个关键任务。针对超分辨率重建任务(SR),该挑战采用了基于DIV2K [42]数据集的基准测试框架。具体包括基于双三次缩放的重建模块以及基于盲降质估计的自适应优化模块。这些不同类型的退化模型不仅考虑了理想条件下的完美还原情况(denoising),还模拟了实际应用中常见的降质过程(degradation),从而推动超分辨率重建技术在各种应用场景中的发展。
PIRM挑战。感知图像还原和操纵(PIRM)挑战与ECCV结合在一起,并且还包含多个任务。与NTIRE相比,PIRM的一个子挑战[47]侧重于发电精度和感知质量之间的权衡,另一个[81]侧重于智能手机上的SR。众所周知[77],以失真为目标的模型经常会产生视觉上令人不愉快的结果,而以感知质量为目标的模型在信息保真度上的表现很差。具体而言,PIRM根据均方根误差(RMSE)的阈值将感知失真平面分为三个区域。在每个区域,获胜算法都是获得最佳感知质量的算法[77],这是由NIQE [76]和Ma [66]评估的。在其他子挑战[81]中,智能手机上的SR要求参与者使用有限的智能手机硬件(包括CPU,GPU,RAM等)执行SR,评估指标包括PSNR,MS-SSIM和MOS测试。通过这种方式,PIRM鼓励在感知失真权衡方面进行深入研究,并在智能手机上推动轻巧高效的图像增强。
3. 有监督的超分辨
目前而言,在人工智能领域内研究人员已经开发了多种基于深度学习技术的超分辨率重建方法。这些方法都聚焦于有监督超分辨率重建(Supervised SR),即通过利用低分辨率图像与其对应的高分辨率版本进行训练来实现图像细节的恢复与增强。值得注意的是这些方法之间存在显著的差异主要由以下几个关键组件构成:包括但不限于模型架构的设计、上采样技术的选择以及网络优化策略等核心要素的有效结合与协调运用。从这种角度来看研究者们将各个独立的方法整合融合形成了一个专门针对特定需求的应用系统。在本节内容中我们将着重探讨各个基础模块及其功能特性(如图1所示)而非对每一种独立的方法进行单独介绍并深入分析其各自的优缺点与适用场景
3.1. 超分辨率框架
由于图像超分辨率是一个ill-posed问题,在现有研究中如何实现超分辨率重建成为核心挑战。虽然现有模型的体系结构千差万别,但根据所采用的上采样操作及其在模型中的位置等特征因素,它们均可归因于四个主要的模型框架(如图2所示)。
3.1.1. 预上采样超分辨率
面对直接从低维空间向高维空间建立映射所面临的挑战,在深度学习领域中寻求高效的解决方案是一个重要的研究方向。为了弥补传统方法在细节捕捉上的不足,在实际应用中通常会采取以下步骤:首先通过传统上采样算法生成更高分辨率的中间结果;随后通过深度神经网络实现细节提升成为一个较为直接的方法。其中Dong等人[22]、[23]最先开发了预上采样SR框架(如图2a所示),并在该框架基础上提出了SRCNN模型用于解决从内插型LR图像到HR图像的学习问题。具体而言,在这一过程中:首先采用双三次插值法将低分辨率(LR)图像放大至所需尺寸;接着运用深度卷积神经网络对放大后的图像进行细节恢复。
在经过最为艰巨的上采样操作之后,在深度神经网络架构中使用卷积神经网络(CNN)来处理细节时,则使得CNN只需对粗略图像进行细化处理就能大幅降低学习难度。此外,在当前的研究文献中发现,在实际应用中构建了多种超分辨率重建算法后发现:这些模型能够接受不同尺寸与缩放因子的比例插值图像作为输入,并能以与单尺度超分辨率重建(SR)算法相当的效果实现精确重建[26]。值得注意的是:该方法逐渐成为当前研究领域中的主流框架之一[55,56,82,83];其中的主要区别在于后验模型设计(第3.3节)以及相应的学习策略(第3.4节)。然而,在超分辨率重建过程中若采用预先设定固定的上采样策略可能会导致负面影响(例如:固定步长可能导致信息丢失;另外一种常见问题是噪声被放大等),而其中许多运算都发生在高维的空间域内;其时间与空间复杂度相较于其他方法显著更高,并且这种现象已经被多篇文献所证实[43,84].


图2展示了基于深度学习实现的一种超分辨率重建模型架构设计方案。该方案采用了多维度数据集来反映输出尺寸的变化特征,并通过不同颜色区域划分了预设为预先定义好的上采样模块(灰)、可学习的上采样(绿)、下采样的处理单元(黄)以及卷积层(蓝)。虚线框内的各个模块之间可以进行组合连接以实现图像重建过程中的信息传递与特征提取。
3.1.2. 后上采样超分辨率
为了通过深度学习技术提升分辨率并优化计算效率, 研究者建议将大部分计算集中在低维空间。替代方案采用了一个端到端可学习的深层神经网络结构, 其中预设化的上采样算法被替换成了一个基于卷积神经网络实现的数据驱动上采样模块。研究者指出, 在该框架体系下, 即图2b所示的后升采样超分辨率重建(SR)方法, 使用低分辨率输入图像经过深度卷积神经网络处理后即可实现无损超分辨率重建, 并结合了末端集成的一系列可学习增强层以进一步提升重建质量。
尽管具有巨大计算量的特征提取过程主要发生在低维空间中进行处理,并且只有在最终阶段才逐步提高分辨率, 因此这一过程显著降低了计算复杂度与空间复杂度. 由此可见, 这一创新性框架已获得广泛认可, 并被广泛引用.[25][31][79][85]. 这些模型的核心差异体现在可学习的上采样层的设计(见第3.2节)、基于前馈卷积神经网络(CNN)架构的部分(见第3.3节)以及所采用的学习策略(见第3.4节)等方面.
3.1.3. 渐进式上采样超分辨率
然而,在单一阶段进行上采样操作这一做法却显著提升了大比例因子(例如4倍、8倍等)的学习难度。此外,在每一个缩放因子下都需要独立训练一个深度学习模型以实现相应的超分辨率重建效果。这种做法不仅难以扩展至多比例因子场景,并且也无法满足实时性要求这一关键挑战。针对这些问题,在深入分析现有方法局限性后我们提出了一种新的框架设计——渐进式上采样架构
借助任务拆解技术,该框架下的模型显著降低了学习难度,在仅投入有限空间与时间成本的前提下,同样能够处理多尺度的超分辨率问题。然而,在这一过程中,这类模型仍面临诸多挑战:例如复杂架构的设计与训练稳定性问题,并需进一步提升所需指导和支持策略水平。
3.1.4. 迭代式上下采样超分辨率
为了更有效地捕捉LR与HR图像之间的相互依存关系,在构建超分辨率重建(SR)框架时,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下 getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault defaults defaults defaults defaults defaults defaults defaults defaults defaults defaults defaults defaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaultsdefaults默认默认默认默认默认默认默认默认默认默认默认default default default default default default default default default default default
在此框架下建立的模型能够更加深入地挖掘LR-HR图像对之间的内在联系,并产出更高品质的重建成果;然而反投影模块的设计规范尚未明确确定;鉴于此机制仅近期才被应用于深度学习驱动的超分辨率技术领域这表明该架构仍有很大的提升空间
3.2. 上采样方法
除了在模型中指定的上采样位置外,在实际应用中如何实现高效的上采样同样不可或缺。
3.2.1. 基于插值的上采样
数字图像的尺寸调整技术被称为图像缩放。它是调整数字图像大小的技术,并广泛应用于相关领域中的各种应用系统。常见的插值算法包括最近邻、双线性、双三次以及Sinc和Lanczos重塑等方法。这些直观易懂且实现简便的方法仍然在基于卷积神经网络(CNN)的强大超分辨率重建模型中得到广泛应用。
最近邻插值 。该算法采用了一种直接而简单的策略。对于需要进行插值的位置而言,在其周围选取最接近的像素作为参考。这种方法计算效率高,并且能够在一定程度上减少计算开销;然而其图像处理效果往往显得比较粗糙。
双线性内差法 。双线性内差法(BLI)依次在线性内差的基础上,在两个方向上进行计算。如图3所示。该方法将导致目标区域尺寸扩大至原来的两倍。从而,在保持相对较高的速度的前提下,其性能显著优于最近邻内差法。
该算法采用双三次插值(BCI)[10]方法,在两个维度上分别执行三维插值运算,并如图所示进行展示。与基于块线性插值的方法(BLI)相比,在考虑4×4像素区域的基础上进行处理后得到的结果不仅输出更加平滑均匀,并且伪像数量显著减少;然而其计算速度较慢。值得注意的是,在具备抗锯齿功能的条件下该算法已被广泛采用作为构建超分辨率数据集的主要方法之一;同时它也得到了在预采样超分辨率框架中的广泛应用(第3.1.1节)。

图3展示了利用插值技术实现图像放大的过程。其中灰色区域标记了像素坐标的分布;蓝色、黄色和绿色点分别代表原始像素、中间采样点以及放大后的输出像素
值得注意的是,在深度学习模型中使用插值型上采样方法时,默认情况下主要依赖于其自身的图像信号即可有效提升图像分辨率,并不会引入额外的信息内容。相比之下,则是这些方法通常会产生一些负面效果例如计算复杂度增加、噪声放大以及结果出现模糊的情况。因此在当前的研究进展中倾向于采用可学习型上采样层而不是传统的插值型上采样方法
3.2.2 基于学习的上采样
为了解决基于插值方法存在的不足,并通过端到端的学习机制实现了上采样的过程,在SR字段中整合了转置卷积层和子像素层。
转置卷积层 。翻转卷积层也被称作反向卷积层[90][91]旨在实现与传统卷积操作相反的功能。具体而言该操作根据类似于输出特征图大小的尺度来推断原始输入并基于此生成放大后的图像结果。该过程通过在图像中插入零值并执行标准卷积操作从而实现尺寸提升这一步骤显著提升了图像分辨率。(如图4所示)采用2倍超分辨率缩放并使用3×3内核作为核心组件(如图4b所示)所做处理后输入图像被先期放大两倍此时所有新增像素初始化为零值。(注:此处假设放大倍数为2)在此设计下单个采样区域的最大尺寸限制在2×2的空间范围内

图4:转置的卷积层。 蓝色框表示输入,绿色框表示内核和卷积输出。
子像素增强层 。如图5所示,在本研究中所采用的子像素增强层是一种端到端可学习的上采样机制。具体而言,在这一过程利用卷积操作生成具有s^2倍通道数的多通道输出(其中s表示放大比例因子)。假设输入的空间维度为h \times w \times c时,则该过程后的输出空间维度变为h \times w \times s^2 c。随后通过重排操作(亦即所谓的shuffle操作[84])生成大小为sh\timessw\timesc的空间特征表示(如图5c所示)。在此过程中,在不同块之间的边界处可能会出现一些伪影现象;另一方面,在独立预测相邻块区域中的像素时也可能导致输出结果出现不平滑的问题。

图5:子像素块。 蓝色方框标识输入内容;其他颜色方框分别代表多种卷积操作以及对应的输出特征层。
元升级模块 。传统的做法需要预先确定缩放因子,并针对不同的因子分别训练上采样模块 ,这不仅效率较低 ,而且与实际应用中的多因子需求不符 。为此 ,Hu等人[95]提出了一种 novel 的架构——元高级模块(如图6所示)。该架构能够通过单个模型实现任意比例因子的连续放大 ,其核心思想在于:对于HR图像中的每个目标位置 ,将其投影到对应的LR特征图上的一个小块区域(即k×k×c_{in}),并通过密集层进行卷积运算来估计对应的卷积权重参数(即k×k×c_{in}×c_{out})以及缩放系数 。值得注意的是 ,该模块不仅能够实现连续缩放功能 ,还能有效利用大量的训练数据进行多因子优化 ,从而在固定因子下展现出超越传统方法的性能水平 。尽管如此 ,该模块在推理阶段仍需执行权重预测任务 ,但由于上采样操作仅占特征提取时间的大约1%[95] ,因此其计算开销相对较小 。然而 由于该方法采用与图像内容无关的统一参数对所有目标像素进行预测 ,这在处理较大缩放倍数时可能会导致预测结果不稳定且计算效率下降

图6展示了元升级模块的架构设计。其中蓝色框代表投影层(即投影组件),绿色框和线则表示具有预测权重的卷积运算。
目前这类基于学习的技术已成为最常用的上采样方法之一。特别在第3.1.2节所述的上采样框架内应用广泛,在最终上采样阶段通过从低维空间提取高级表示来重构高分辨率图像。这种方法不仅实现了端到端的人工智能超分辨率(SR)技术而且有效地减少了对高维空间的操作负担
3.3. 网络设计
当前,在深度学习领域中占据重要地位的便是网络设计这一环节。 超分辨率技术领域中的研究者们,在四个SR框架(第3.1节所述)的基础上融合了多种创新性的网络架构理念来构建最终模型架构。 本节的内容旨在将这些复杂的组件划分为若干核心原则或策略,并深入阐述其各自的作用机制及适用场景的同时系统探讨其优缺点。

图7:网络设计策略
3.3.1. 残差学习
由He等人提出的一种神经网络架构[96]旨在实现深度网络的学习目标而非直接建立完整的映射关系;这种基于残差的学习方法已被广泛应用于单像超分辨率重建(SR)领域;如图7a所示;其中 residual learning 策略主要包含全局 residual learning 和局部 residual learning 两大类。
由于**全局残差网络(GResNet)**是一种基于深度神经网络的强大工具,在超分辨率重建领域取得了显著成果
该局部残差网络结构借鉴了ResNet [96]中的经典残差学习方案,并通过巧妙的设计降低了深度网络带来的性能下降问题[96]。这种技术框架也被成功应用于超分辨率重建[70]、[78]、[85]及[99]等任务中。
具体来说,这些方法主要通过快捷方式连接(一般是由一个较小的常数因子进行缩放)以及逐元素加法来进行实现。它们之间的主要区别在于前者直接将输入与输出图像进行连接,而相比之下,则是后者则在不同图层之间添加了多个快捷连接,并且这些连接位于网络的不同深度层次上。
3.3.2. 递归学习
为了避免在SR领域中引入过多的参数而影响性能,在不增加复杂度的前提下实现高级功能的扩展需求下
基于单个卷积层设计的DRCN(深度互回归神经网络)[82]在41×41的接受域上表现出色。这一尺寸显著大于SRCNN[22]仅有的13×13接受域的同时其参数量相对较少。研究者随后提出了另一种基于残差块(ResBlock)[96]的设计框架即DRRN(深度残差互回归网络)。与传统的SR-RNN架构相比这一改进不仅保留了残差学习的核心优势还显著提升了模型性能。具体而言他们将标准残差块扩展成了包含多个模块以增强网络对复杂特征的学习能力同时引入了记忆机制以进一步优化信息传递过程。随后Tai等人[55]提出了基于存储块的设计框架即MemNet(记忆网络)。该存储块由6个级联递归ResBlock构成在每一步中输出会被传递并附加经过额外处理的记忆与遗忘机制从而实现了更高效的特征提取与表示学习过程。在此基础上研究者又提出了另一种改进型的设计框架即CARN(级联残差网络)[28]它采用了类似但更为复杂的架构方案其中包含了多组标准残差块以提升模型的整体性能表现
此外,在研究领域中也出现了系列不同的递归模块应用策略。具体而言,在Han等人 [85]的研究框架下开发了一种双状态递归网络(DSRN),其主要功能在于实现LR与HR状态之间的信息交互机制设计;而在赖等人 [65]的研究中则着重于构建一种嵌入式上采样模块作为其核心递归单元;这种设计不仅能够有效提升模型对细节特征的捕捉能力,并且仅以微小性能代价实现了模型规模的有效缩减;同时该框架还特别关注于通过多层次特征融合过程实现对复杂图像细节信息的有效提取与建模;这样的研究思路充分体现了其对现有深度学习框架进行了创新性地优化与改进;
一般而言,在不增加过多额外参数的前提下实现更高层次的表现形式是可行的),但这一过程不可避免地会带来较高的计算开销)。为此,在深度序列模型中存在固有的问题是梯度可能发生消失或爆炸),为此人们通常会结合残差网络(第3.3.1节)以及多任务学习(第3.4.4节)等方法来改善这一困境[55]、[56]、[82]、[85]。
3.3.3. 多路径学习
多路径学习涉及利用多种路径传播特征,并使这些不同类型的处理相互作用以提升整体性能。具体而言,在这一机制中又可分为全局性、局部性和特定规模范围内的三种类型
全局多路机制 。该机制旨在通过多种传播途径提取图像的不同表征特征,并通过这些传播途径之间存在相互影响的关系来显著增强学习能力。具体而言 ,LapSRN [27] 通过粗略预测子带残差特征提取 pathway ,并结合其中一条 pathway 基于高分辨率 HR 图像重建 的另一条 pathway 。类似地 ,DSRN [85] 利用两条 pathway 分别在低维与高维空间中提取信息 ,并通过持续交互来提升整体性能 。像素递归超分辨率[64]则通过条件化途径捕捉整体结构特征 ,并利用先验 pathway 捕捉像素间的序列依赖关系 。相比之下 ,The comparative analysis highlights the effectiveness of employing diverse pathway configurations in enhancing upsampling performance while maintaining computational efficiency.
局部多路径学习 。如图7e所示,基于模块[101]的驱动,MSRN [99]采用了新的块结构以实现多尺度特征提取。该结构中,分别使用大小为3×3核和5×5核的卷积层对特征进行提取,其输出随后被连接,并重复这一过程以进一步强化特征表达能力。最后通过一个1×1卷积完成特征融合。这种局部多路径机制的应用,在SR模型中实现了多个尺度特征的有效提取与性能提升。
基于规模的不同多路径学习策略 。 Lim等[31]注意到不同尺寸的人工智能重建(SR)模型在特征提取上具有一些共同点。他们开发了一种专门针对不同尺寸的人工智能重建(SR)方法。这种方法共享主要组件(用于特征提取的关键中间层)。在训练过程中仅激活与当前处理尺度相关的组件。这种基于比例缩放的设计使得MDSR能够通过共享大部分参数显著减少计算量,并且在性能上与单一比例的方法相当。CARN和ProSR也采用了类似的基于比例缩放的设计策略。
3.3.4. 密集连接
自黄等人[102]开创性地提出基于密集块的DenseNet框架后
为了整合低级与高级功能以呈现更丰富的情报从而恢复高质量细节在SR字段中加入了密集型连接如图7d所示 Tong等[79]不仅设计了一个包含69层SRDenseNet的密集块而且在各个相邻密集块之间设置了密集链接即每个密集块都将所有前驱块的特征图作为输入同时将其自身的特征图传递给后续的所有块这些层级与模块级别的密集链接同样被MemNet[55]Carn[28]RDN[93]以及ESRGAN[103]所采用 DBPN[57]虽然也采用了大量密集链接但其特点在于将所有上采样模块间的链接与下采样模块间的链接分开处理
3.3.5. 注意机制
通道级注意力机制在图像处理领域具有重要应用价值。基于不同通道之间复杂的空间关系特征表示特性观察到:胡等人[104]首次提出并实现了"挤压-激励(squeeze-and-excitation)"模块这一创新性设计框架;该框架通过显式建模各通道间的依赖关系来显著提升了网络的学习能力;具体而言:该模块首先利用全局平均池化操作将每个输入通道缩减为单个通道描述符;随后经两个全连接层处理后生成各通道对应的缩放因子;这种设计使得网络能够更加精细地关注各渠道中的关键特征信息;在此基础上:张等人[70]成功地将传统渠道注意机制与超分辨率技术相结合:提出了RCAN模型这一重要创新成果;该模型不仅显著提升了图像重建质量:同时也增强了整体表征能力;值得指出的是:为了进一步探索特征间的深层关联性:戴等[105]深入研究并提出了二阶信道关注(SOCA)模块:该模块采用了更为灵活的统计方法而非传统的全局平均池化方式:从而实现了更为精细的特征自适应缩放机制设计
Non-local Attention Mechanism. Most existing SR models exhibit limited local acceptance domains, which may not fully capture distant target or texture features essential for accurate reconstruction. To address this limitation, Zhang et al.[106] introduced a combination of local and non-local attention blocks to extract features that capture long-range dependencies between pixels. Specifically, their approach consists of a main trunk branch for feature extraction and an adaptive scaling branch that can be either local or non-local. The local branch employs an encoder-decoder architecture to learn spatial attention within local regions, while the non-local branch utilizes an embedded Gaussian kernel function to evaluate pairwise relationships between feature indices in a given feature map, thereby predicting scaling weights. This mechanism effectively captures spatial attention patterns and enhances the model's representational power. Additionally, Dai et al.[105] incorporated non-local attention modules to better capture long-range spatial dependencies in the data.
3.3.6 高级卷积
因为卷积运算构成了深度神经网络的核心基石,并且为了提升模型处理能力与运行效率的需求驱动下
空洞卷积模块。研究表明,在超分辨率重建任务中增强上下文捕捉能力至关重要。基于此,在张等人[107]的研究中提出了一种改进方法——通过替代传统的普通卷运算引入空洞卷积模块。该方法不仅显著提升了捕获区域的能力(相比传统方案),而且实现了显著的性能提升。
群卷积 基于轻型CNN技术的发展成果被广泛采用[108,109]。其中,Hui及其团队基于群卷积提出了IDN模型;与此同时,安(Ahn)团队则开发了CARN-M模型。此前研究表明,群卷积在显著降低了计算复杂度的同时,在性能指标上有所牺牲,具体表现体现在参考文献中被广泛引用并进行改进研究的状态下得到验证
深度可分离卷积 。自霍华德等人[110] 为有效的卷积提出了一种称为深度可分离卷积的方法以来,在多个领域得到了广泛应用。该方法通过将传统深度卷乘解耦为两个组件:一个是因数分解的深度卷乘(即深度压缩分支),另一个是点状卷乘(即1×1卷乘),从而大幅减少了模型参数和计算量而仅导致微小性能下降[110]。近年来[Nie等人][81]将其应用于超分辨率重建网络中,并显著提升了重建速度。
3.3.7. 区域递归学习
传统上认为大多数单通道自回归模型难以捕捉长距离依赖关系。
受PixelCNN [111]及Dahl等人研究的启发[64],随后提出了基于递归像素的学习框架。
该框架通过两组网络协同作用来分别提取全局语境信息与逐像素间的依存关系。
这种方法不仅能够在高分辨率下重建超低分辨率的人脸图像(如8×8分辨率的例子所示),还能在细节刻画上超越现有MOS测试的标准。
在人类注意力转移机制[112]的作用下,在系统中同样地,在Attention-FH [113]中也采用了这种策略:通过循环策略网络依次识别并局部增强有人参与的补丁以实现这一目标。通过这种方式实现自我适应性地优化每张图像的最佳搜索路径从而充分挖掘图像的整体内部依赖关系
然而这些方法虽然在一定程度上表现出更好的性能 但需要较长传播路径的递归过程显著提升了计算成本和训练难度 尤其适用于高分辨率超分辨图像
3.3.8. 金字塔池化
赵等人[115]基于空间金字塔池化层提出了金字塔池模块[114]以更有效地利用全局与局部上下文信息。具体而言,在h×w×c尺寸的特征图中,该模块将其划分为M×M个桶,并通过全局平均池化操作得到M×M×c输出。随后通过1×1卷积操作将输出压缩至单一通道。最后通过双线性插值方法将低维特征图放大至与原始特征图尺寸一致,并在此基础上实现模块的有效集成以融合全局与局部语境信息。整合该模块后所提出的EDSR-PP模型[116]进一步提升了性能水平
3.3.9. 小波变换
众所周知,小波变换(WT)[117],[118]通过将图像信号分解为表示纹理细节的高频子带和包含全局拓扑信息的低频子带,从而高效地表示图像。Bae等人[119]首先将WT与基于深度学习的SR模型相结合,以内插LR小波的子带作为输入,并预测相应HR子带的残差。 WT和逆WT分别用于分解LR输入和重构HR输出。类似地,DWSR [120]和Wavelet-SRNet [121]也在小波域中执行SR,但是结构更为复杂。与上述独立处理每个子带的工作相反,MWCNN [122]采用多级WT,并将级联子带作为单个CNN的输入,以更好地捕获它们之间的依赖性。由于小波变换的有效表示,使用这种策略的模型通常会大大减少模型的大小和计算成本,同时保持竞争性[119],[122]。
3.3.10. 去亚像素
为了提高推理速度,Vu等人[123]建议在低维空间中实现从输入图像到特征表示的快速转换,并将亚像素级的空间重组操作与其对应的逆过程(见第3.2.2节)结合起来处理。值得注意的是,这一策略的核心在于将图像分解并将其作为额外的通道进行叠加处理,从而有效避免信息丢失。通过这一创新方法,他们在模型启动阶段对输入图像执行亚像素级下采样,并在较低维度的空间中学习表征模式,最终通过插值重建技术恢复目标尺寸上的完整图像以达到高效推断的目的。该研究提出的方法不仅达到了极高的推理速度,而且在智能手机端实现了最佳性能,在PIRM挑战[81]竞赛中获得了最高分数。
3.3.11. xUnit(学习空间激活函数)
为了整合空间特征处理与非线性激活机制并提升模型性能,在这一研究工作中,Kligvasser等[124]提出了xUnit框架,旨在直接学习空间激活函数以减少模型规模的同时保持性能水平。具体而言,xUnit通过卷积操作直接学习权重图并结合高斯门控机制,从而实现了对权重图的精确调节,使模型得以显著缩小至约50%的原始尺寸,而无需牺牲性能质量。
3.4. 学习策略
3.4.1. 损失函数
在超分辨率领域中, 损失函数用于计算重建误差并指导模型进行参数优化。早期的研究者通常使用像素级L2范数作为损失函数...然而, 发现其无法准确评估重建质量...为此, 在此基础上引入了多种不同的损失函数(例如内容感知范数[29]和对抗性范数[25])以更好地评估重构误差并生成更具真实感和高质量的结果。如今这些先进的损失函数已经发挥着重要作用...在本节中我们将深入探讨这些广泛应用的损失函数...符号表示与第2.1节一致...值得注意的是为了简化起见我们省略了目标高分辨率图像\hat{I_y}及其生成版本I_y中的下标y
像素损失 。 僃素损失用于评估两个图像之间的逐像素差异程度,并主要采用L1损失(即平均绝对误差)和L2损失(即均方误差)两种指标:

其中h,w,c分别表示用于评估图像的高宽与通道数量。此外还有一个基于像素L1损失的变体称为Charbonnier损失[27][125]它由以下公式定义

其中\epsilon为数值稳定性的常数(例如, 10^{−3} ) 。
基于 pixels 损失的方法将生成的高分辨率图像 \hat{I} 限制为其足够接近于在原始低分辨率图像 I 上得到的真实 pixels 值。 相比之下,在惩罚较大 error 的同时能够容忍较小 error 的情况下,L2 损失会使得结果趋于平滑。 因此通常会导致 result 过于平滑。 然而事实上,相比于 L2 损失,L1 损失在 performance 和 convergence 上表现更为突出,如文献中的研究表明 [28][31][126]. 值得注意的是,鉴于 PSNR 指标(见第 2.3.1 节)与逐 pixel 差异有着高度的相关性,并且最小化 pixel 差异可以直接提升 PSNR 值。 因此 pixels loss逐渐成为应用中最常见的 loss function。 然而由于 pixels loss并未充分考虑 image 整体质量因素(例如感知质量 [29],纹理特征 [8])。
内容损失 。 为了量化评估图像感知质量 ,研究者们引入了内容损失这一指标 [29] ,[127] 。 其中一个关键指标是基于预训练深度神经网络架构 ,通过计算两个图像在特定层上的高级特征向量间的欧氏距离 来定义其差异性 [30] , [128] 。 这里将该网络模型被建模为线性变换矩阵Φ ,在第l层上提取出一组特征向量Φ^(l)(I) ,并计算其欧氏距离作为衡量标准 如图所示 :

其中h_l,w_l和c_l分别是第l层特征的高度,宽度和通道数。
基于其本质特性而言,在迁移学习的过程中,
内容损失机制旨在将分类网络Φ中所提取的分层次提取的图像特征信息转移至SR网络中进行应用。
相较于像素损失而言,
内容损失机制会导致输出图像^I呈现出具有视觉效果上与目标图像I一致性的特性,
这种特性在视觉效果层面表现得更为显著,
并广泛应用于该研究领域中的多个子领域,
包括但不限于文献[8]、[25]、[29]、[30]、[46]以及[103]
其中,
VGG网络系列及ResNet系列仍然是当前深度学习模型中最为常用的基础预训练CNN架构。
风格损失 。由于重建后的图像应与目标图像在色彩(如色调)、细节(如边缘)以及对比度等方面具有一致性,并受到Gatys等人的研究工作[129]、[130]在视觉风格表示方面的启发,在超分辨率重建任务中引入了风格损失这一概念。继上述研究之后,在深度学习领域中通常将图像细节视为不同特征通道之间的相互关联性,并将其定义为Gram矩阵G^{(l)}∈R^{c_l×c_l}的形式:其中G^{(l)}_{ij}代表第l层上矢量化特征图i与j之间计算得到的内积。

其中vec运算符用于矢量化处理;而\Phi_i^{(l)}(I)这一项则代表图像I在第l层特征图中第i个通道的信息。具体而言,纹理损失可由以下公式计算:

基于纹理损失这一指标的研究者Sajjadi等人所提出的EnhanceNet [8]能够生成更加逼真的纹理图案,并在视觉效果上呈现出令人满意的效果。然而,如何根据图像特征自动确定适当大小的分割块仍然是一个挑战.如果分割块过小会导致在具有变化性的纹理区域中出现伪影现象;相反地,在分割块过大时则会导致整个图像产生伪影现象,这是因为图像中的纹理特征在其发生位置周围的空间范围内具有统计特性.
抗争性损失
在超分辨率领域中使用对抗学习相对较为容易。在这种情况下,则需将SR模型视作生成器,并构建一个辅助判别器用于检测生成图像是否与输入图像相符。因此,在这一领域中最早由Ledig等人[25]首次提出了一种基于交叉熵损失函数的对抗网络模型。

其中\mathcal{L}_{gan\_ce\_g}与\mathcal{L}_{gan\_ce\_d}分别代表生成器(即SR模型)以及鉴别器D(即二元分类器)所对应的对抗损失函数,并且I_s为从真实场景图像中随机选取的一组样本图片。 同时,在文献[8]中也提出并实现了类似的对抗性损失函数机制
此外,在研究中,Wang 等人引用了编号为[32]的研究,Yuan等人引用了编号为[131]的研究,他们采用了基于最小二乘误差的对抗损失模型,以实现更高的训练稳定性与更为优化的效果.由下式给出:L_{adv} = \sum_{i=1}^{N} \mathcal{L}_i

与其专注于对抗特定形式失真的工作不同,Park等人认为像素级别的鉴别器会产生无意义的高频噪声,并引入了一个特征级别的鉴别器来处理从提取出的高级表示中获得的信息.经过预训练的人工神经网络能够更好地捕捉到实际高分辨率图像中的更多有意义的信息.Xu等人将生成器与多个类别相关的判别器相结合,在GAN架构中构建了一个多类别生成对抗网络模型.ESRGAN采用了基于相对的方法,在评估真实图像相对于虚假图像的真实程度时更加注重细节信息
多个MOS测试(第2.3.3节)结果显示:尽管在对抗性和内容损失方面表现出色的方法其PSNR值相对较低(参考文献8, 25),但这些方法却显著提升了感知质量
基于Zhu等人[138]提出的CycleGAN的思想启发下

Total Variation Loss (TV) 也被广泛应用于解决这一挑战。该方法通过将 Total Variation Loss[139]引入Super-Resolution(SR)技术来实现对图像细节的重构与恢复。其定义为相邻像素之间绝对差值的累加,并用于衡量图像中残留的噪声水平(如图所示)。其中i和j分别表示像素索引

赖等人[25]和袁等人[131]也采用TV损失来施加空间平滑度。
先验损失 是一种用于评估生成模型性能的关键指标。 除了现有的损失函数之外,在生成过程中还引入了外部的先验知识来进一步约束生成结果的质量。 特别指出,在 facial super-resolution( facial SR)领域中,Bulat等人[30]提出了基于深度学习的人脸对齐网络(Face Alignment Network, FAN),该网络通过引入辅助信息来确保人脸关键点的一致性与准确性。 在训练阶段前就已经对该网络进行了初步训练,并将其整合到整体模型中作为辅助模块使用。 这种设计使得其结合使用后实现了显著提升,在低分辨率脸部对准和高分辨率脸部生成方面都取得了更好的效果。
事实上,在SR过程中,我们采用了内容层面与纹理层面的两个关键指标(这两个指标均采用了分类网络技术)来建立分层图像特征间的关联关系。通过整合更多的现有技术手段与现有模型架构信息(这些创新性措施能够显著提升模型对分层图像特征的理解能力),我们可以进一步优化SR算法的表现
本节阐述了多种超分辨率(SR)损失函数的设计思路。 实际应用中... 采用加权平均策略以构建多元化的损失体系; 该方法不仅能够从多个角度限制生成过程,并特别关注失真感知权重设置问题; 同时该方法还面临着如何实现有效的融合仍面临诸多挑战。
3.4.2. 批量归一化
旨在加速和稳定深层卷积神经网络(CNN)的训练过程
然而, Lim等人 [31]指出, BN忽略了图像的空间尺度信息, 并放弃了网络间的距离灵活性的特点. 因此, 他们放弃了BN后采用更高计算效率的方式构建更大规模的模型, 实现了性能上的显著提升. 其他一些研究工作 [32][103][147]也借鉴了这一策略并取得了更好的实验效果
3.4.3. 课程学习
课程[148]型学习是指从一个相对简单的任务入手,在逐步提高任务难度的过程中实现能力的提升。然而,在超分辨率领域由于存在较大的缩放因子以及不可避免的噪声和模糊等挑战问题[56]的情况下,在这一领域直接开展高分辨率重建工作往往会导致效果欠佳[77]。因此为了有效解决这一难题 本研究采用分阶段的学习策略来降低学习难度
为了降低大比例缩放系数带来的SR挑战,Wang等的研究人员[32]提出了ProSR,Bei等人的团队[149]开发了ADRSR,Ahn等研究团队 [150]则推出了渐进式CARN.这些架构在第3.1.3节中均采用了渐进式设计,并且都涉及复杂的训练流程.训练从两倍上采样开始,随后逐步引入更高比例因子的部分,并与先前的部分混合使用.具体而言,ProSR [151]通过将当前级别输出与后续级别上采样输出进行线性组合实现了混合效果,ADRSR则将其连接后并附加了额外的卷积层,而渐进式CARN采用生成新的重构块替代原有重建块的方法实现了相似效果.整个训练过程最终生成了一个包含两个分辨率层的双重分辨率图像.
另外,在研究文献中Park等人[116]提出了一种新的分割策略:将八倍率超分辨率(8x SR)问题划分为三个阶段(即1×到2×、2×到4×、4×到8×),并对每个阶段分别训练相应的网络模型。随后将前两阶段的网络进行融合与优化,并与第三阶段的网络进行协同工作。此外他们还采用逐步降解的方法对困难条件下的四倍率分解(如从1倍至2倍等)进行了处理,并对子问题进行了去噪或去模糊处理。相反,在不利条件下使用此策略进行超分辨率重建(SRFBN [86])时,则是从更容易降解的问题开始逐步提升复杂度
相较于传统培训模式,该课程学习显著降低了学习难度,并将整体培训周期大幅缩短;特别适用于大规模项目
3.4.4. 多重监督
多重监督是指在模型内部嵌入多种监督信号以促进梯度的有效流动,并且能够同时减少梯度消失现象的同时也避免了梯度爆炸问题。为了解决递归学习(第3.3.2节)所带来的复杂性带来的挑战性问题,DRCN [82]通过引入带有递归单元的多重监督机制来实现目标优化的具体过程如下:他们将递归单元的所有输出依次输入到重构模块中进行处理,从而能够重建高分辨率图像,并通过整合所有中间阶段的重构结果来生成最终预测结果。同样采用了类似策略的MemNet [55]与DSRN [85]也是基于递归学习框架的设计理念构建而成。
此外,在渐进式上采样框架(第3.1.3节)下进行传播时会生成不同尺度的中间特征图;因而采用多监督学习策略相对容易实现。详细而言,在多目标超分辨率重建中所获得的所有中间特征图必须与从高分辨率真实图像降采样后得到的一致。
在这种情况下,这种多监督技术通常是在损失函数中加入特定项以实现目标。然而,在这样做时会遇到一个问题:如何使监督信号能够更有效地反向传播?幸运的是,在这种情况下我们可以通过优化算法来解决这一挑战。这不仅有助于降低训练难度而且还能显著提升模型的训练效果。
3.5. 其他改进
除了网络设计和学习策略外,还有其他技术可以进一步改善SR模型。
3.5.1. 上下文网络融合
上下文网络融合(CNF)[100]是一种叠加技术,在第3.3.3节所述多路径学习机制的基础上进行优化。该方法通过训练不同体系结构的单个SR模型,并将每个模型的预测输入至各自的卷积层进行处理,在此过程中对各层输出进行求和得到最终预测结果。在该CNF框架下,研究人员采用了三个轻量级SRCNN [22, 23]进行构建,并成功实现了一种与现有高效模型性能相当的结果[100]。
3.5.2. 数据增强
数据扩充被认为是深度学习中提升性能的主要应用之一。(在处理图像超分辨率时,默认情况下常见的增强手段包括裁剪、翻转、缩放、旋转以及颜色抖动等多种技术手段)。 [27]、[31]等引用文献在此基础上进行了详细说明。(此外,在相关研究者的研究中发现,在特定条件下关闭RGB通道能够进一步提高模型效果)。
3.5.3. 多任务学习
多任务学习[152]旨在通过整合各任务训练数据中所包含的领域特定信息来提升模型的泛化能力。具体而言,在目标检测与语义分割[153]等领域的研究中表现尤为突出。在超分辨率(SR)领域中,Wang等人 [46]引入了一种基于语义分割网络的方法,在该方法下实现了对语义知识的有效提取与细节增强。具体而言,则是通过提出一种空间特征变换技术,在对语义图进行编码后能够预测并调整中间特征图上的仿射变换参数。基于此原理开发出的SFT-GAN模型,在面对具有丰富语义区域的图像时能够生成更具视觉吸引力与真实感的纹理效果。此外,在直接超分辨率方法面临噪声放大部分的问题时,DNSR [149]提出了一种分步优化策略:首先分别训练去噪网络与超分辨率网络,随后将两网络串联并进行联合优化以实现最佳性能平衡。类似地,CinCGAN [131]则结合了循环周期降噪框架与循环周期超分辨率模型,通过交替执行降噪与超分辨率生成过程来进一步提升整体性能表现。值得注意的是,由于各相关任务往往聚焦于不同层面的数据特性,因此将这些专门化的知识融入到基础超分辨率模型中不仅能够显著提高模型泛化能力,同时也能够有效补充其在处理复杂场景时的表现缺陷
3.5.4. 网络插值
基于PSNR的模型产生的图像更接近真实情况,但引入了模糊问题,而基于GAN的模型带来了更好的感知质量,但引入了令人不快的伪像(例如,无意义的噪声使图像更加“逼真”)。 为了更好地平衡失真和感知,Wang 等人[103],[155]提出了一种网络插值策略。 具体来说,他们通过细调来训练基于PSNR的模型并训练基于GAN的模型,然后对两个网络的所有相应参数进行插值以得出中间模型。 通过调整插值权重而无需重新训练网络,它们可产生有意义的结果,且伪像少得多。
3.5.5. 自我增强
自我提升又被称作增强预测[44], 被广泛应用于SR模型中的推理机制。具体而言,我们对输入低分辨率(LR)图像实施不同角度(如:90度、180度等)的旋转与水平翻转操作,从而得到一个包含八个不同版本的新图像集合。随后将这些预处理后的图像是通过对其施加不同的旋转变换与镜像反转操作来生成八个不同的版本并被 fed 到 SR 模型进行训练,并通过逆变换操作恢复 HR 图像细节进而生成重建结果。经过上述处理后得到八个重建结果图像是通过取其均值或中间值来综合判断最终结果。这种策略有助于提升整体性能表现
3.6. 最新的超分辨率模型
注:如果需要进一步优化可直接回复

表2:基于一系列具有代表性的模型的研究中使用的超分辨率方法。其中,“Fw”、“Up”、“Rec”、“Res”、“Dense”以及“AAtt”的含义分别为:
- "Fw"表示SR框架;
- "Up"表示上采样方法;
- "Rec"表示递归学习;
- "Res"表示残差学习;
- "Dense"表示密集连接;
- "AAtt"表示注意力机制。
为了全面评估图像超分辨率重建技术的整体性能表现,在除了SR准确性之外的另一个非常重要的方面——效率方面同样具有显著的重要性。各策略在某种程度上对系统性能的影响不容忽视,在之前的章节中我们不仅评估了该方法在准确度方面的性能,并且重点考察了那些对系统性能贡献较大的具体组件。如第3.1.2节所述的后采样机制、第3.3.2节介绍的递归学习算法、第3.3.4节中的密集连接模块以及第3.3.11节描述的xUnit模块等都对其整体表现产生了显著影响。基于以下三个关键指标:PSNR值作为图像质量评估指标、模型参数数量反映模型复杂度以及计算开销以衡量实时性。我们选取了Set5 [48]、Set14 [49]、B100 [40]和Urban100 [50]这四个代表性数据集进行实验验证,并采用了PyTorch-OpCounter [157]工具来量化模型规模与运算开销的关系。其中输出分辨率为720p(即1080×720)。所有统计数据均来自原始论文或在官方模型上计算得出的结果,并采用了一个比例系数为2的标准进行统一表示。为了更好地帮助读者理解和比较不同方法之间的差异性效果,在线版本中我们提供了交互式的展示界面

第8幅图展示了高分辨率基准测试的结果。横坐标代表运算量(运算次数),纵坐标代表图像质量(PSNR值)。圆圈的大小则反映了模型参数的数量
4. 无监督的超分辨率
现有的超分辨率重建工作主要集中在有标签学习框架下,在这一框架中通常会利用匹配对应的低分辨率(LR)与高分辨率(HR)图像对来进行模型训练。然而由于获取不同分辨率下的同一场景图像极为困难,在现有的SR数据集中大多数LR样本都是通过预先定义退化操作生成的方式得到的。基于此,在不借助任何人工退化先验知识的前提下模拟真实世界中LR与HR之间的映射关系这一目标下研究者愈发重视无需引入paired数据条件下的无监督学习方法。目前已有学者提出了多种基于深度神经网络实现的无监督超分辨率重建模型并提出了许多有待进一步探索的新方向
4.1. 零次超分辨率
考虑到单个图像内部所包含的图像统计信息为超分辨率(SR)提供了充分的数据支持,在无监督学习场景下提出了一种称为零散超分辨率(ZSSR)的方法。这种方法在测试阶段专门针对特定场景训练了超分辨率网络以替代传统方法,并基于大量外部数据构建了一个通用模型。具体而言,在研究中[158]的方法是从单个图像中估计退化内核,并利用该内核结合不同尺度因子和增强技术生成退化的版本来构建小型数据集。随后,在构建的小型数据集上训练了一个简化的超分辨率卷积神经网络(CNN),并将其用于最终预测
此方案中,ZSSR可基于每个图像内部的跨尺度自回归机制。因而,在模拟真实场景中的低质量图像情况下(其中图像经过非双三次下采样处理,并受到模糊、噪声以及压缩伪影等失真因素的影响)。即可更贴近真实场景下的效果,在性能上显著超越以往方法。(其中估计核的有效信噪比约为1 dB的数量级单位, 已知核的有效信噪比约为2 dB)。并且在模拟高保真度图像情况下(采用双三次下采样处理后得到的理想化图像),仍能展现出具有竞争力的表现。
通过这种方式,ZSSR基于每个图像内部的跨尺度自相似性实现了内核估计,因此在非理想条件下(即获得的图像)相比传统方法具有显著优势(内核估计精度分别达到1dB和2dB)。该方法受到非双曲面退化的限制,并面临模糊、噪声和压缩伪影等现实世界场景中的典型干扰,其效果与真实情况极为相似,但在理想条件下(例如双三次退化的图像)仍能展现出竞争性结果.然而,由于需要针对不同测试图像分别训练网络参数,导致推理时间远超其他方法所需时间.
4.2. 弱监督超分辨
为了在不引入预定退化为前提地应对超分辨率问题的研究人员
习得性退化 。鉴于所采用的降采样方案并非最优,在非配对的LR-HR数据集上学习退化模型具可行性和合理性。Bulat等人[159]提出了一种分步优化的方法:首先,在未配对的LR-HR图像基础上训练一个HR到LR的GAN模型(即退化网络);随后,在基于第一步预训练模型生成的数据基础上进一步训练一个反向映射(即超分辨率)网络用于重建高分辨率图像序列中缺失的部分;最后将此反向映射网络作为重建模块整合进整体架构中以完成整个系统的构建与优化过程。具体而言,在针对从HR到LR方向设计GAN时,在输入HR图像后生成相应的LR输出的同时需使其能够匹配两种不同来源获得的降采样结果(一种为通过平均池化得到的结果另一者则为真实采集得到的真实样本分布)。经过充分训练后可获得一组具备良好重建性能的GANS单元组件;最终系统则可直接利用这些组件进行相应的建模与推断工作以实现目标功能
基于该两阶段流程,该无监督模型通过PSNR显著提升了现实世界低分辨率图像质量,并较之现有的最新型技术取得了显著提升。
基于周期性的超分辨率技术中
Yuan等人[131]从CycleGAN[138]的设计中获得灵感,在此基础上构建了一个周期内超分辨率(SR)网络——CinCGAN架构。该网络由4个生成器和2个鉴别器构成,并通过两个独立模块实现了从带噪声低分辨率图像(LR)到无噪声高分辨率图像(HR)以及从无噪声低分辨率图像恢复高分辨率版本的目标映射关系。具体而言,在第一个模块中,带噪声的低分辨率图像被输入到生成器中,并要求其输出与真实清晰低分辨率图像的数据分布保持一致;随后将其馈入另一台生成器并要求恢复原始输入以保证周期性一致性;为了实现上述目标并满足数据分布一致性、对抗性损失、周期一致性损失等多方面的约束条件,在模型设计中采用了多种损失函数组合(例如:对抗性损失函数、周期一致性损失函数及身份损失函数)。另一个模块采用了类似的结构设计以实现相同功能
由于无需事先设定降采样参数就能避免预设降采样这一操作,在应用无监督学习方法时,CinCGAN不仅可以达到与有监督方法相当的效果,并且能够在极端条件下同样适用各种情况。然而,由于其本质上的不适性以及复杂的网络架构,CinCGAN的学习过程仍面临诸多挑战,需要采取一些高级策略来降低训练难度和不稳定性的程度。
4.3. 深层的图像先验
鉴于CNN架构具备足够的潜力,在逆问题解决之前提取大量低级图像统计特征的能力十分突出。
5. 领域-特定应用
5.1. 深度图超分辨率
深度图捕捉了物体及其环境中的不同点之间所存在的深度(即距离),并在此基础上为多个领域发挥着关键作用。例如,在姿态估计技术[161, 162]以及 semantic segmentation approaches [163, 164]等应用中表现突出。然而受限于经济和技术上的限制,在实际部署中使用的深度传感器通常会生成低分辨率的空间数据,并受到噪声、量化误差以及数据缺失等问题的影响。为了提升空间分辨率的需求而引入超分辨率技术
如今,在深度图SR领域中采用最流行主流做法之一的是通过使用价格亲民的RGB摄像头获取同一场景下的高分辨率HR图像,并以此作为指导帮助低分辨率LR深度图实现超分辨率解析。具体而言,Song等人 [165]基于深度场统计数据以及深度图与RGB图像间的局部关联性,提出了一种约束全局统计特性和局部结构的方法,Hui等人 [166]则采用了双CNN协同工作的方式,同时对LR深度图进行升采样并为HR RGB图像降采样,随后以RGB特征作为基准对同一分辨率下进行深度图升采样,Haefner等人[167]在此基础上进一步引入了颜色信息,并通过从阴影过渡到形状的技术手段来辅助SR过程。相比之下,Riegler等人[168]则将CNN与能量最小化模型结合使用,通过引入强大的变分模型实现了无需依赖任何参考图像直接恢复高分辨率深度图的目标
5.2. 人脸图像超分辨
高清晰度的人脸图像通常被称为视觉效果增强(FH)的方法,并在多个相关领域得到广泛应用[72]、[73]、[169]。相较于普通图像而言,在处理人像时会获得更多的细节信息;因此,在高清晰度重建方面引入先验知识是一个非常有效的研究方向。
一种直接且有效的途径是将生成的图像通过约束手段使其具备与真实地面图像一致的关键面部属性特征。具体而言,在CBN [170]的研究中,则采用了一种交替优化Frontal Halves (FH)和密集对应字段估计的方法来实现面部优先建模这一目标。此外,在Super-FAN [30]及MTUN [171]的研究中,则均引入了FAN模块来进行相关属性的提取与优化工作。值得注意的是,在FSRNet [73]的研究中,则不仅采用了基于地标热图的人脸解析模型作为先验信息,并在此基础上进一步引入了人脸解析图来进行额外约束。另一方面,在SICNN [72]的研究中则致力于恢复真实的身份特征,并提出了结合超级身份丢失功能与域集成训练方法的新框架以提升联合训练的效果稳定性
除了通过显性利用面部先验外,隐性方法已引起了广泛关注.基于TDN [172]的设计框架,巧妙地结合了自动空间变换的空间变换器网络 [173],成功地解决了面部对齐中的不准确问题.该体系结构由TDAE [174]为基础,构建了一个解码器-编码器-解码器的创新网络架构:首先采用了上采样与降噪技术,将编码器输出映射至对齐且去噪的理想低分辨率面;随后,解码器则负责生成高分辨率图像.相比之下,LCGE [175]采用了组件级深度神经网络针对5个典型面部特征执行超分辨率重建,并在高分辨率的人脸数据集中通过k-近邻搜索获取对应的补丁区域;最终融合这些微粒组件生成完整的高分辨率脸.同样的,Yang团队 [176]则提出了独特的去块效应处理流程:他们从带块效应的人脸图像出发,将其分解为独立的人脸特征与背景区域;通过成分标记系统在外部数据库中检索足够的高质量样本;随后在背景区域执行通用超分辨率重建;最后将重建后的细节组件与合成后的背景信息融合,完成最终的人脸重建过程.
此外,在这一领域取得了进步的同时
5.3. 高光谱图像超分辨率
相较于基于RGB的传统全色图像(PANs),基于数百个波段的高光谱图像(HSI)能够提供更为丰富的光谱信息,并在视觉感知任务中展现出显著优势[181]至[183]。然而受限于硬件性能限制,在获取高质量HSI数据方面仍面临诸多挑战,并且其成像分辨率相对较低。因此,在此背景下超分辨率技术应运而生,并促使研究人员探索将高分辨率全色图像(HR PAN)与低分辨率高光谱图像(LR HSI)相结合的有效途径以重构高分辨率高光谱图像(HR HSI)。其中Masi [184]采用了SRCNN [22]架构并融合了多种非线性辐射指标图以提升重建性能。Qu [185]则提出了一种联合优化框架同时对PAN和HSI进行了超分辨率重建任务的联合优化,并通过共享解码器结构并引入角度相似度损失函数以及重构损失等约束条件实现了从PAN到HSI超分辨率知识的有效传递。最近的研究者Fu [186]深入研究了相机光谱响应特性对其高光谱图像超分辨率重建性能的影响,并在此基础上设计了一个自适应优化层该层不仅能够自动选择最优或设计理想相机光谱响应曲线还能超越现有前沿算法。
5.4. 现实世界中的图像超分辨率
常见做法是利用手工降采样的RGB图像来训练SR模型。然而,在现实场景中相机实际捕捉的是12位或14位精度的RAW格式数据,并借助内置ISP进行解码马赛克、降噪与压缩等处理步骤以生成最终呈现的8位RGB图像。值得注意的是经过这一过程后发现所得的RGB图像已经失去了大量原始信号信息并且与相机直接拍摄得到的真实数据存在显著差异因此基于此可知在直接采用人工降采样的RGB数据作为训练素材时并不能获得最佳效果
为了解决这一问题,研究者考察了基于现实世界图像的超分辨率方法.其中,Chen 等人[187]深入探讨了成像系统中分辨率与视场的关系(即 RV 降级),并提出了 City100 数据集的数据采集策略.他们通过实验验证了该方法的有效性.随后,研究者开发了一种基于深度学习的图像合成模型.张等人[188]通过光学变焦技术构建了一个真实世界的图像数据集 SR-RAW(即由一对高分辨率 RAW 图像和低分辨率 RGB 图像组成),并提出了一种上下文双向损失函数来解决失准问题.相比之下,Xu等人[189]则采用了一种模拟成像过程生成训练数据的新方法,并利用双卷积神经网络提取 RAW 图像中的辐射信息.他们还设计了一种空间变化的颜色转换模型,用于有效颜色校正并将其应用于其他传感器.
5.5. 视频超分辨率
对于视频超分辨率而言,在多帧中包含了更多的场景信息,并且不仅体现了空间上的相互依赖关系(如运动、亮度和色彩变化),还体现了时间上的依存关系。现有的研究主要致力于更有效地挖掘时空相关性(包括显式的运动补偿策略(如基于光流法的方法以及基于学习技术的补偿方案)以及递归建模技术等。
在光流方法的基础上
除此之外, 其他研究者也致力于探索直接学习运动补偿的方法. VESPCN [156]通过可训练的空间变换器[173]学习基于相邻帧的运动补偿机制, 并将多个帧输入至时空ESPCN [84], 实现端到端预测. 陶等人[196]基于精确的低分辨率成像模型, 开发了一个亚像素级模块, 同时实现运动补偿与超分辨率重建, 从而更高效地融合对齐后的帧.
另一个趋势是采用递归方法来捕获时空相关性的同时避免显式的运动补偿机制。具体而言BRCN[197][198]基于双向框架分别利用CNNRNN以及条件CNN对空间时间以及时空依赖关系进行建模同样地STCN[199]则采用了更深的CNN结合双向LSTM[200]来进行空间与时间信息的提取FRVSR[201]则通过先验推断得到高分辨率估计值之后再采用递归的方式借助两个深层CNN构建出后续的高分辨率帧Recent advancements如FSTRN[202]则采用了两个规模更小的三维卷积滤波器取代传统的大型滤波器从而在更深程度上优化了网络性能但仍能保持较低的计算开销RBPN[87]则通过循环编码器-解码器模块提取出空间与时间层面的信息并将这些信息与基于反投影机制迭代优化框架相融合(参考第3.1.4节)
此外, FAST [203]通过压缩算法提取出一种结构紧凑且具像素相关性的描述, 并实现了从单帧到相邻帧之间的高效传递. 在不损失性能的前提下, 该方法不仅在加速最新的SR算法发展方面表现突出, 而且在细节重建精度上也取得了显著提升. Jo团队 [204]则基于每个像素的局部时空邻域特性, 在生成上采样滤波器的同时实现了对高分辨率残差图像的重建, 并成功避免了显式的运动补偿过程.
5.6. 其他用途
深度学习驱动的超分辨率技术已在多个特定领域中得到应用,并展现出卓越性能。具体而言,在感知GAN [205]中通过高分辨率的小物体表示来实现小物体检测任务;这些小物体与大物体具有相似特征属性,并能显著提升检测区分度。同样地,在FSR-GAN [206]中通过特征空间而非像素空间实现超级分辨率处理小尺寸图像的操作;这种做法将原始图像中的不良特征转化为高度判别力特征,并对图像检索工作产生重要影响。此外,在立体图像视差先验的基础上进行研究的Jeon等人[207]提出了一种基于亚像素精度的HR图像配准方法;Wang等人[208]则开发了一种视差注意模型以解决立体图像超分辨率问题;Li等人[209]将三维几何信息与超分辨率3D对象纹理贴图相结合;Zhang等人[210]则提出了一种将场内视场图像分割成多组并学习每组固有映射的方法;最后将各组残差组合以重建更高分辨率场的技术体系
6. 总结与未来方向
本文专门探讨了深度学习在图像超分辨率领域的最新进展系统性地研究了现有监督式与无监督式超分辨率(SR)算法的技术进步并重点分析了几类典型应用实例尽管在实际应用中取得显著成效但仍存在诸多亟待解决的关键技术难题鉴于此 在本节里我们将聚焦于上述技术难题展开深入探讨我们的研究结果不仅将有助于加深对图像超分辨率处理机理的认识并且可能激发进一步的研究兴趣以及相关技术开发工作
6.1. 网络设计
经过精心设计的网络架构不仅能够设定理论上的性能基准,并且能够有效提取和学习数据特征表达。同时能够有效避免过多的空间冗余和计算浪费。接下来我们将探讨几种值得进一步研究的改进方案。
融合局部与全局特征
融合浅层与深层信息。 在CNN架构中,浅层模块主要负责识别图像中的颜色、边缘等低级特征;而深层模块则擅长学习并表征如物体类别等高级抽象信息。 由此可见,在将低级细节与高级语义进行有效结合时,在HR重建任务中可能会获得更好的效果。
在不同领域中(领域一),人们的视觉关注点各有侧重
更为高效的整体架构设计 。现有的SR模式通常重视最终的性能表现却忽视了模型大小和推理速度的影响。基于 Titan GTX GPU [80] 和 DIV2K [42] 的实验环境中,在处理4倍超分(4x SR)时(EDSR [31]),每幅图像仅需 20 秒即可完成超分效果;然而,在处理 8 倍超分任务中(DBPN [57]),预测时间显著增加至 35 秒。这样的长预测时间在实际应用中显然是不被接受的;因此开发更加高效的体系结构势在必行。如何在保证性能的同时实现模型规模缩减并提升预测速度仍是一个待解决的关键问题。
上采样方法 。目前所采用的上采样方法(第3.2节)存在一些不足之处:插值过程通常会带来较高的计算开销,在端到端学习框架中表现受限。转置卷积层可能导致图像出现棋盘格 artifact,在子像素层区域容易造成采样点分布不均。此外,在某些情况下元高级模块可能会影响整体性能表现,并且在实际应用中仍存在进一步优化的空间。为了提升上采样的效果,在使用高比例因子时也需要探索更加科学的设计方案。
最近,神经架构搜索(Neural Architecture Search, NAS)技术在深度学习领域得到了广泛关注,并且在一定程度上降低了对人工干预的依赖,在性能和效率方面取得了显著提升[212]、[213]、[214]。在图像超分辨率(Image Super-Resolution, SR)领域中结合上述探索与神经架构搜索(NAS)的方法展现出巨大的应用潜力。
6.2. 训练策略
除了拥有良好的假设空间之外,在实现令人满意的结果方面还需要具备强大的学习策略以达到预期效果
基本概念上而言,在低分辨率(LR)、高分辨率(HR)以及超分辨率(SR)图像之间构建约束关系,并通过是否满足这些约束条件来引导优化过程。
现有方法主要关注于在低分辨率(LR)、高分辨率(HR)以及超分辨率(SR)图像之间构建约束关系,并通过是否满足这些约束条件来引导优化过程。
实际上,在大多数应用场景中,默认或默认采用加权混合策略。
然而,在超分辨率(SR)领域中,最佳的损失函数尚待确定。
因此,在探索各模态间的潜在关联性方面存在巨大潜力,并致力于开发更为精确的有效度量方法。
归一化 。 尽管BN已被广泛应用于视觉领域虽然BN能够显著提升训练效率同时也能显著提升性能然而实验证明在超分辨率应用中BN效果并不理想表明在超分辨率领域BN效果并不理想因此需要研究其他有效的SR归一化技术
6.3. 评估指标
评估标准是机器学习领域的重要构成要素之一。 在无法精确衡量性能的情况下, 研究人员将难以验证模型改进的效果. 超分辨率领域的度量标准面临着这一难题, 在探索方面仍需进一步努力.
更为精准的评估标准 。目前而言,在图像超分辨率领域中,PSNR与SSIM已成为被广泛采用的关键评价指标。然而,在应用PSNR时通常会带来过平滑的问题,并且其在无法分辨细微差别的情况下可能出现显著差异。而SSIM [58]主要从亮度、对比度以及图像结构三个方面进行评估;尽管如此仍存在无法准确衡量感知质量[8]、[25]的情况。此外,MOS(Mean Opinion Score)是最常用的人工评价值,但它需要耗费大量精力并且缺乏可重复性特性。尽管如此,近年来研究者们也开发出了多种其他评估指标(参见第2.3节)。然而,这些方法仍存在诸多争议,缺乏统一且认可的标准以衡量重建效果的质量情况
盲IQA方法
6.4. 无监督超分辨
如前文所述。 如图4所示, 通常难以在同一场景中从不同分辨率采集图像, 因此双三次插值法在构建超分辨率数据集中得到了广泛应用. 然而, 在这些数据集中训练的超分辨率模型可能仅学习了预先设定退化过程的逆向过程. 因此如何实现无监督超分辨率(即无需配对LR-HR图像的数据集上的训练)将是未来研究的重要方向.
6.5. 走向现实场景
面对现实场景中如遇到未知降级问题且缺乏相应的LR与HR图像对时,图像的超分辨率将受到严重影响。接下来我们将阐述针对这些现实情况的有效指导方案。
应对各种图像退化现象 。在实际应用中,图像会因模糊、附加噪声以及压缩伪影等多种因素而出现退化。鉴于此,基于人工标注的手动数据集所训练的模型在真实场景中往往表现出较差的效果。尽管已有研究提出了若干解决方案[39],[131],[149],[159],但这些方法仍存在一些局限性,例如它们在训练过程中面临较大挑战,并依赖于过强的前提假设。因此,亟需开发更为有效的解决方案。
基于不同应用场景的专用软件系统 。超分辨率不仅可以直接应用于基于不同应用场景的数据处理与显示技术,并且能够有效地辅助实现其他视觉任务(第5节)。因此将SR技术聚焦于更为具体的领域也是值得探索的方向 ,例如,在视频监控系统中 ,通过超分辨率技术可实现更高清晰度的画面重建;在目标跟踪系统中 ,能够显著提升定位精度;在医学成像设备中 ,有助于提高图像诊断效率;而在场景渲染领域 ,则能生成更加逼真的虚拟环境
