超分辨率图像重建算法综述
摘要
在人类视觉感知系统中,高分辨率(HR)图像是传递其空间结构、细节特征以及边缘纹理等关键信息的重要载体,在医疗技术、犯罪侦查以及卫星遥感等领域发挥着广泛而重要的应用价值。超分辨率图像重建(SRIR)主要致力于从低分辨率(LR)图象中恢复具有清晰细节特征的高分辨率图象,并被计算机视觉与图像处理领域视为一项具有重要研究意义的技术课题。首先阐述了相关概念及数学模型,并对图象重建方法进行了系统分类,将其分为基于插值技术、基于重构方法以及基于学习机制(深度学习前沿与后期发展)三大类;其次对各类典型算法的研究现状进行了全面梳理与评述,重点分析了它们在网络架构设计、学习机制创新以及适用场景等方面的特点;接着归纳总结了相关算法所依赖的数据集及其评价指标体系;最后从理论创新与应用拓展两个维度展望了未来的研究方向
关键词: 图像处理; 超分辨率重建; 深度学习; 图像质量评估
在感知世界的过程中,图像被视为一种直观的表达方式;而低分辨率(low resolution,LR)图像则通常会削弱人类获取、传播以及传达图像特征信息的能力
对此而言,深入探讨LR图像重建以开发高质量、高细节和高清晰度图像的超分辨率图像重建(super-resolution image reconstruction, SRIR)[1]技术作为计算机视觉领域的核心问题之一。
Tsai等人[2]开创性地提出了“基于序列的超分辨率图像重建算法”,该方法在SRIR研究领域具有里程碑式的意义。具体说明了SRIR技术即通过相关算法将现有的低分辨率(low resolution,LR)图像转换为高分辨率(high resolution,HR)图像的技术。该技术致力于解决在对图像进行任意倍数放大后仍能清晰呈现其纹理特征、结构组织以及边缘细节等问题,在很大程度上满足了现代科技发展中医学影像、工业检测、卫星遥感监测以及道路交通监管等领域对于高质量视觉感知的需求。
近年来,在国内外范围内开展的SRIR技术研发取得了显著进展,并已在多个领域取得了令人瞩目的成果。与此同时,在众多领域的研究者们已经开始撰写综述文章,并对其相关研究进行了系统归纳与深入分析。
(1)针对某方面图像重建算法的综述
钟宝江等人[3]系统阐述了图像插值与图像重建间的异同,并分别从主观和客观两个角度探讨了插值图像质量的评价方法;马书红对几种经典的插值算法在图像放大效果方面的性能进行了对比分析;郑璐团队则深入介绍了基于深度学习的SRCNN、VDSR、DRCN、SR-DenseNet以及SRGAN等五种超分辨率重建算法及其网络架构设计,并简要总结了这些方法在实验中的表现。此外,在文献[6]至[9]范围内对深度学习背景下的部分超分辨率重建算法进行了系统归纳与分析。
(2)针对传统图像重建方法的综述
龙超[10]采用了典型的图像超分辨率技术(包括插值、重建与学习)进行了全面总结;王春霞等人[11]则从单帧到多帧图象,并结合频域与空域分析了多种经典复原方法;苏衡等人[12]则聚焦于不同类型的复原问题,在系统性地探讨基于重建的方法外,还深入研究了视频复原技术和单幅图象复原技术。
(3)针对传统方法与深度学习方法的综述
张芳等研究者以传统技术与深度学习两种途径为研究起点,在深入探讨单幅图像重建算法的基础上,并对两者间的超分辨率重建本质联系及根本区别进行了系统性探讨。
董银丽团队则聚焦于频域运算、空间域运算以及基于学习算法三种主要处理手段,并对其图像质量评估指标进行主观体验与客观量化双重解析。
李 et al. 则系统阐述了几种超分辨率重建技术的基本原理,并深入探讨了不同网络架构及其应用前景。
本文主要从插值技术与重构方法入手,并结合深度学习前后的相关理论框架,在较早的研究者们就已经开始系统地将当前为止为止的超分辨率图像重建的方法进行了分类整理,并对其它各类传统方法的经典与常用算法进行了总结。(1)首先针对运算性能指标方面的问题,在现有的基础上我们重点对基于插值与重构的传统算法展开了深入分析;其次,在介绍了卷积神经网络基础上的深度学习图像重建技术时,则分别从现有网络结构方式入手阐述了其基本原理;再者,在讨论生成对抗网络的应用时,则重点介绍了其在具体实现中可能遇到的问题及解决策略;最后针对...,我们对其所用的数据集以及评价指标体系进行了全面分析。(2)综上所述,在文章最后我们对未来该研究领域的进一步发展方向进行了展望。
1****超分辨率图像重建概述
通过已知的图景信息构建LR图景与HR图景之间的特征序列关联,其数学模型为:基于‘系统成像模型’自身的调整机制构建退化图景的重建模型[11]。
在该系统成像模型中,低分辨率(LR)图像通过退化函数(如添加噪声、模糊处理或运动模糊以及降采样等)的作用生成。
D(IHR;θa)=SdBκMIHR+nξ{κ,ξ,d}
(1)
ILR=D(IHR;θa)
(2)
改写说明
高分辨率图像重建问题可视为"成像系统的数学模型"这一概念的逆向操作,在此过程中给定低分辨率(LR)图像将被用来恢复相应的高分辨率(HR)图像
IHR=R(ILR;σa)
(3)
其中,R表示重建函数,σa表示与重建函数相关的各种参数与重建因子。
图像退化过程和图像重建过程如 图 1 所示。
图1

图1超分辨率图像重建技术图解
Figure 1: Demonstration of Super-Resolution Image Reconstruction Technology
图 1 中,黑色箭头表示图像退化过程,黄色箭头表示图像重建过程。
本文按照超分辨图像重建所采用的方法,可将其划分为三种不同的类型:包括插值基类、重构基类以及学习基类;其中属于学习类的方法又被进一步划分为传统深度优先与深度反馈两类;而在深度反馈类中,又分别发展出卷积神经网络驱动型与生成对抗网络驱动型两种主要技术;具体情况可见 图 2
图2

图2图像重建方法分类
图2展示了图像重建算法的分类情况;采用插值法进行
基于插值技术的图像重建方法被认为是超分辨率图像重建问题中最为基础且直观的技术手段,在实际应用中主要分为线性插值算法与非线性插值算法两大类。该方法的核心在于通过利用低分辨率(LR)图像中已知像素点的空间灰度信息,并结合特定的内插公式来推导出高分辨率(HR)图像中缺失的空间细节信息。通常情况下而言,在保证计算效率的前提下,该类内插算法所需依赖的空间相关性信息较为有限,并且其计算复杂度相对较低,在运行速度方面表现优异;同时经过内插处理后的HR图像能够较好地保留原始LR图像是中的像素级细节特征。
2.1 线性插值算法
2.1.1 最近邻插值法
nearest neighbor interpolation method [16 -17] refers to the gray value of the interpolated point being directly taken from the nearest pixel point in Euclidean distance. Despite being one of the simplest and most straightforward interpolation algorithms, it has limitations due to its inability to account for neighboring pixels' influence when interpolating. This can result in a phenomenon known as aliasing and a loss of detail in the interpolated image when dealing with high-resolution images.
2.1.2 双线性插值法
为了解决最近邻插值法未能充分考虑相邻像素间的相互影响而导致的图像锯齿效应问题,我们提出了双线性插值法[18 ⇓ -20]。该方法主要通过垂直与水平两个正交方向对相邻的四个像素点进行线性插值来完成图像的插值过程。尽管双线性插值法在处理图像灰度不连续性方面有所改进,但经插值得到的图像却出现了明显的细节退化现象,导致图像中的高频信息被削弱
2.1.3 双三次插值法
基于双线性插值法的基础上发展出一种新的双三次插值方法,并将其应用于将邻域内的四个原始像素扩展为十六个采样点上。通过应用三次多项式进行加权平均计算从而实现图像的重构过程。该方法充分考虑到每个原始像素对目标重构点的影响程度,并因此不仅提升了重构效果还能有效减少计算复杂度进而降低总的运算负担
2.2 非线性插值算法
2.2.1 边缘导向插值法
基于边缘导向的插值算法[22 ⇓ -24]旨在通过限制RGB三色图像中各通道的空间细节,并增强其空间分辨率来缓解由于人眼在感知图像边缘时所具有的特性而导致的信息提取不足的问题。
Li等人(编号为22)提出了基于边缘引导的NEDI(缩写为new edge-directed interpolation)的一种插值算法。该方法通过提取低分辨率(LR)图像是各向异性局部协方差矩阵来进行推导,并将其与高分辨率(HR)图像是相似的边界面特性进行对比匹配。尽管该方法具有较高的理论价值,在实际应用中存在计算复杂度较高且适用性较弱的问题。研究者Zhang等人(编号为24)在此基础上进行了优化改进,在此基础上开发了一种自适应插值方法用于优化分析低分辨率与高分辨率图像是间的结构关系,并通过重构最终获得较为完整的低分辨率图块的空间结构特征及边界细节
2.2.2 梯度引导插值法
基于梯度引导的插值方法[25 -26]通过邻域内的一阶与二阶导数信息来优化梯度分布与像素空间的分配,并结合边缘导向插值技术以及双三次线性插值方法以达到图像重建的目的
2.2.3 小波变换插值法
小波变换插值法[27 ⇓⇓⇓ -31]充分运用了小波变换的局部化特性,在多尺度层次上对图像特征信息进行分别研究和分析,并对提取的特征信息经过叠加融合处理后通过应用小波逆变换进一步提升图像分辨率
Ford等人基于一维小波变换开展非均匀采样重建研究。Nguyen等人在此研究基础上发展出二维小波模型,在多分辨率分析框架下实现LR图像的重构。段立娟等人通过HR图像计算相应的二维小波系数,并结合多层次学习机制完成高分辨率图像的重建
表 1 对比展示了多种插值方法在重构算法中的异同点。尽管操作简便且易于实现的方法尽管具有较低的成本但在实际应用中发现这种方法的效果仍显不足;就单幅图而言 在某些特定领域中其重构速度与效果仍然能满足需求 但在处理多幅图时 则面临计算速度 计算复杂度以及重构精度等方面的挑战
表1基于插值的图像重建算法比较
Table 1 Comparison of image reconstruction algorithms based on interpolation
| 算法 | 原理 | 运算复杂度 | 运算速度 | 算法灵活性 | 图像质量 |
|---|---|---|---|---|---|
| 最近邻域插值法 | 线性插值 | 低 | 快 | 强 | 差 |
| 双线性插值法 | 线性插值 | 较低 | 较快 | 较强 | 较差 |
| 双三次线性插值法 | 线性插值 | 中 | 慢 | 弱 | 一般 |
| 边缘导向插值法 | 非线性插值 | 中 | 慢 | 较强 | 高 |
| 梯度引导插值法 | 非线性插值 | 高 | 慢 | 较弱 | 中 |
| 小波变换插值法 | 非线性插值 | 高 | 较慢 | 中 | 高 |
注:表中结果针对各类算法的大多数情况,不考虑特殊情况。
新窗口打开|下载** CSV** 3****基于重构的图像重建方法
基于重构技术的超分辨率图像重建方法在图像处理领域具有广泛应用,并主要可分为频域法和空域法两种类型。该方法通过从多幅低分辨率(LR)图像是与未知高分辨率(HR)图像中提取所需的信息,并结合估计获得的HR图像是特征信息来实现高分辨率图像是的重建过程。
3.1 频域法
Patti等人[32]首次提出了一种去除LR图像频谱混叠的方法,并对多幅LR图像进行了傅里叶变换以实现超分辨率重建。 频域法显著提升了运算速度与图像精度,并且仅适用于整体平移与空间不变的场景,在应对图象噪声方面表现不足
3.2 空域法
基于空间域因素的影响建立HR图像成像模型,该模型包含非均匀内插算法(33)、迭代反向投影算法(34)、凸集投影算法(35- 36)以及最大后验概率算法(37)等核心组件。
3.2.1 非均匀内插法
非均匀内插法[33]通过提取非均匀分布的LR图像特征信息并对其进行拟合或插值处理以获得分布趋于均匀的HR图像特征信息从而完成超分辨率图像重建。尽管该算法具有较高的重建效率但它依赖于充足的先验知识来源而导致了一定的局限性。
3.2.2 迭代反向投影法
Who developed the iterative back-projection approach (IBP), Irani et al. [34] proposed a solution to address the high dependency on prior information in super-resolution imaging algorithms. This method significantly improved the quality of reconstructed images and reduced reliance on prior information. However, this approach does not guarantee the uniqueness of the reconstructed image.
3.2.3 凸集投影法
基于HR图像的正定性、有界性和光滑性等限定条件下的凸集投影法(POCS)35-_36_通过有效保留重建图像中的边缘特征和细节结构信息实现了图像恢复效果。然而该算法计算量较大且收敛速率较低同时在每次迭代过程中都需要较强的初始先验信息依赖
3.2.4 最大后验概率法
Maximum a posteriori probability (MAP) [37] refers to the method of estimating HR image characteristics under the condition that the posterior probability of HR image given LR image sequence information reaches its maximum. It ensures the uniqueness of the image solution while enhancing its clarity. However, there is room for improvement in extracting edge information from images.
3.2.5 MAP/POCS法
陈光盛等人[38]将POCS与MAP相结合,在MAP的迭代优化过程中引入了基于POCS约束凸集的先验条件,并充分展现了各自的优势。通过POCS方法弥补了MAP算法收敛稳定性较强但降噪能力相对不足的问题;同时通过MAP方法弥补了POCS算法在边缘细节保留方面存在不足的问题。
表2 主要体现在以下六个方面:对先验信息的依赖程度 解的唯一可行性 计算复杂度 计算速度 算法适应性以及图像重建效果
表2基于重构的图像重建算法比较
Table 2 Comparison of image reconstruction algorithms based on reconstruction
| 算法 | 先验信息 | 可行解 | 运算复杂度 | 运算速度 | 算法灵活性 | 图像质量 |
|---|---|---|---|---|---|---|
| 频域法 | 依赖性弱 | 唯一 | 低 | 慢 | 较差 | 差 |
| 非均匀内插法 | 依赖性强 | 唯一 | 较低 | 较慢 | 差 | 中 |
| 迭代反投影法 | 依赖性较强 | 不唯一 | 中 | 中 | 差 | 中 |
| 凸集投影法 | 依赖性较弱 | 不唯一 | 高 | 较慢 | 较强 | 较高 |
| 最大后验概率法 | 依赖性较弱 | 唯一 | 较高 | 较快 | 较强 | 较高 |
| MAP/POCS法 | 依赖性弱 | 唯一 | 中 | 快 | 强 | 高 |
注:表中结果是针对各类算法的大多数情况,不考虑特殊情况。
新窗口打开|下载** CSV** 4****基于学习的图像重建方法
近年来,在人工智能技术迅速发展的背景下
图3

图3基于学习的图像重建算法思想
Fig.3 Idea of image reconstruction algorithm based on learning
在图中:
- 黄色线条代表HR图片经过降采样转换为LR图片。
- 绿色线条表明LR图片通过上采样恢复为与之对应的人工智能处理结果。
- 黑色线条则代表了在处理过程中所依据的人工智能算法所建立的先验知识关联。
当前,基于学习的图像重建方法可划分为深度学习之前的图像重建算法与深度学习之后的图像重建算法
4.1 深度学习前的图像重建算法
4.1.1 基于样例学习法
该方法源自于Freeman等人的样本学习法;马尔科夫网络所提出的单幅图像重建算法主要通过退化处理原始HR图象;构建训练集以获取HR图象的先验知识;从而恢复高频细节特征的信息
4.1.2 邻域嵌入法
通过将邻域嵌入法应用于每个图像块来提取其特征信息,并基于此建立特征信息数据库。随后将LR与HR图块分别加权后相加以实现高分辨率(HR)图象重构。这种技术不仅降低了模型对于训练样本的高度依赖性(即提升了泛化能力),同时也限制了其局部调整能力。
研究者[42]通过利用LR与HR图像在局部相似结构下的线性关系来确定相邻点权重值,并进而使得重建后的图像质量得到了显著提升。
4.1.3 稀疏表示法
该方法的核心在于利用子空间分解技术实现信号的有效压缩与重构。
具体而言,
通过在线学习框架收集子空间信息,
在端到端模型训练过程中动态更新子空间基向量,
最终达到降噪去噪的目的。
图4

图4稀疏表示法
Fig.4 Sparse representation
传统稀疏表示法是通过独立考虑图像块之间的稀疏性后重建图像空间结构的,这容易丢失图像部分纹理细节和空间结构特征。对此,Timofte等人[46]将邻域嵌入与稀疏编码结合,在约束图像块与邻域信息之间关系的同时降低了算法运算复杂度。Li等人[47]将非局部自相似与稀疏编码结合提出自学习的超分辨率图像重建算法,有效缩减了模型训练时间和提高了模型鲁棒性。檀结庆等人[48]将局部结构相似融合于稀疏表示法之中,很好地解决了因传统稀疏表示法所造成的图像纹理结构信息缺失问题。沈瑜等人[49]在PCA-Net模型中加入稀疏优化算法,对图像特征映射矩阵进行迭代优化,得到最优解后将LR图像和HR图像的稀疏特征表示结合卷积得到高分辨率重建图像,一定程度上使得图像细节信息、边缘纹理信息得到清晰保留。曾台英等人[50]提出用主成分分析法和层次聚类结合训练得到不同于传统稀疏表示法中的字典模型来提高重建图像的质量评价。
4.2 深度学习后的图像重建算法
在多个领域如计算机视觉和自然语言处理中展现出显著的应用效果。
研究者们探索性地将深度学习与SRIR相结合。
从而推动了SRIR技术从三层训练模型发展至当前的大规模多层次训练体系。
其运算效率和图像重建质量均有显著提升。
研究表明,在超分辨率图像重建方面,基于深度学习的方法不仅通过优化深层网络结构提升了特征提取和重建效果,并且成功解决了因网络加深导致的过拟合等问题。
从而实现了多尺度和高细节的信息恢复。
一般情况下,在现有架构基础上整合了新型模块以实现超分辨率重建。例如:由多组残差块串联形成的残差模型;采用长短跳跃连接进行跨层信息传递;构建密集式连接框架以优化计算效率;基于循环神经架构设计深度关注模块;实现多维度特征提取;提升目标保持一致性的能力;通过循环反馈增强目标复现效果;建立两频信息交互桥梁等技术手段共同完成图像重构过程。如 图5 所示。
图5

图5深度学习背景下的图像重建网络结构基本图
Fig.5 Image reconstruction techniques and their network architecture diagram based on deep learning
表 3_ 通过表格展示了基于深度学习的超分辨率图像重建算法中不同层次网络架构及其功能作用及其应用代表算法。
表3深度学习背景下的部分网络结构
Table 3 Partial structure of network under deep learning background
| 类型 | 作用 | 代表算法 |
|---|---|---|
| 残差学习 | 提高网络收敛速度,学习丰富的复杂特征等 | VDSR[56]、DRCN[67]、RDN[71]、EDSR[78]等 |
| 递归学习 | 缓解梯度爆炸或消失,多路径递归学习等 | DRCN[67]、DRRN[73]、SRFBN[74]、CDC[89]等 |
| 密集连接 | 加强不同层之间的图像传播、利用、融合等 | SRFBN[74]、SRDenseNet[75]、ESRGAN[79]等 |
| 跳跃连接 | 增强层间联系以及特征信息流的传递等 | DRCN[67]、SRDenseNet[75]、EDSR[78]等 |
| 注意力机制 | 标定图像重点与非重点学习重建区域,充分挖掘层内特征信息等 | RCAN[63]、CBAM[64]、SMSR[83]、CDC[89]、SA-SR-GAN[91]、HAN[92]等 |
| 连续记忆机制 | 全局性图像特征融合,连续记忆性传递低频、高频特征信息等 | RDN[71]、DRRN[73]、SRFBN[74]、SRGAN[77]等 |
| 反馈机制 | 共享权重值,确保高级信息与低级信息间的表达与交流等 | SRFBN[74]、SRGAN[77]、ESRGAN[79]、SRFeat[84]等 |
注:表格中的内容整理于相关参考文献。
新窗口打开|下载** CSV**
本文将深入探讨两种基于深度学习技术的高分辨率图像重建方法:第一种方法利用卷积神经网络(convolutional neural network,CNN)构建的深度学习模型能够直接处理低分辨率(LR)与高分辨率(HR)图像之间的映射关系,显著弥补了传统方法在高频细节信息处理上的不足,同时也简化了模型的学习流程;第二种方法通过生成对抗网络(generative adversarial network,GAN)设计的深度学习架构,我们实现了无监督式的图像重建过程。该方法通过反向传播不断优化模型参数,从而缩小原始图片与重建图片之间的差异。
4.2.1 基于卷积神经网络
Dong等人[53]最先将卷积神经网络与超分辨率图像重建技术融合,构建SRCNN算法。通过大量卷积操作对输入的低分辨率图像进行特征提取,持续地学习众多图像中丰富的特征表达形式,该算法在重建效果和效率方面均显著优于现有方法,并且具有更好的泛化性能。SRCNN网络架构如 图 6 所示。
图6

图6 SRCNN网络结构
Fig.6 Network structure of SRCNN
随后,Kim等人[54]基于SRCNN算法的不足,在其研究基础上提出了FSRCNN(fast super-resolution convolutional neural network)算法.在处理过程中,FSRCNN采用了反卷积层来放大图像,以避免SRCnn在初始阶段对低分辨率(LR)图像进行上采样可能导致细节丢失的问题.此外,FSRCnn去除了SRCnn中的非线性映射模块,转而通过收缩、映射和扩展等技术实现相同效果.同时该方法利用多个小尺寸卷积核替代大型滤波器专门针对较小尺寸的LR图像提取多尺度特征.Lee等人[55]利用教师网络对HR图像进行二次采样提取图像中间特征再传递给学生网络进行训练大幅度提高了FSRCnn的网络性能
(1)VGG网络
Kim等人[56]采用VGG网络结构以提升网络层数;他们利用不同尺寸的感受野全面捕捉低层次特征、中间层次特征以及高层次特征的信息;从而克服了SRCNN算法仅依赖于小图像区域特征求解欠泛化问题。
(2)亚像素层
Shi等 [57] 开发了一种基于亚像素上采样层的新方法以扩大模型的感受野范围,并提出了ESPCN(efficient sub-pixel convolutional neural network)算法直接对低分辨率图像进行特征提取处理以减少每层网络结构中的计算量并有效缓解模型参数数量急剧上升的问题
(3)残差网络
He等人[58]通过叠加多个残差模块构建出残差网络体系(ResNet)以应对卷积神经网络深度过深所带来的退化现象,并在不同层次之间建立跳跃连接以促进图像特征信息的双向流动;一方面,在梯度回传过程中有效抑制消失现象。
由于每个残差块所提取的特征信息必须借助跳跃连接才能传递至下一个模块,并且随着这一过程向深层传播时会出现两个关键问题:其一是在传播过程中所获得的信息逐渐变得复杂化;其二是遗弃了原本简单的特性;因此,在现有残差网络架构的基础上提出了多种创新性设计来解决前述问题:
卷积残差记忆网络[59]。在深度残差网络中加入长短期记忆机制以持续提取图像特征数据,并通过这一机制增强图像特征在各层间的持续传递与综合运用
多尺度残差网络(标记为[60 -61])。为了在不改变网络整体深度的前提下提高其性能,在每个残差块中丰富其内含的各种类型残差函数以提高网络多样性;这种设计使得在网络训练过程中能够有效提取和融合图像的不同特征信息;从而解决了现有图像重建算法在图像特征提取尺度单一方面的不足。
深度并行残差网络[62]。通过调整其局部拓扑结构进行优化设计,在保留原始模型特性的同时将图像初始特征与复杂融合的全局特征相结合,并有效提升训练速度,并在卷积神经网络中强化图像特征信息的传播效率
(4)注意力机制
随着深度网络的逐步加深,残差网络倾向于忽视图像空间、结构以及纹理之间的影响。这种现象导致训练重心集中在低价值区域上,并对重建图像的质量产生了负面影响。
为此,Zhang等人[63]将通道注意力机制与残差结构相结合,构造更深的网络以减少低频信息对CNN性能表现的影响,并提出了RIR(ResNet在ResNet中的残差结构)。该结构使得低频信息能够绕过网络,通过自适应缩放每个通道的特征来提高图像特征信息处理效率及模型鲁棒性。Woo等人[64]将通道注意力模块与空间注意力模块融合,构建了CBAM(卷积块注意力模块)模型,从而将网络注意力转移至图像中特征较为丰富的区域,增强其对图像重点信息的关注能力。徐永兵等人[65]基于水下成像特性的特点,提出了双目重建算法,该算法由双层与视差层注意力机制引导实现,能够有效消除地理空间与人眼视觉差异等外界因素对成像质量的影响,从而既显著提升了空间分辨率,又成功保留了真实水下成像细节信息。此外,Lu正浩等人[66]在深层网络中引入混合注意力机制以及长短跳接连接,进一步强化了高频信息重建能力并优化了多尺度特征利用效率,有效改善了重建边缘与纹理结构的表现效果。
(5)递归神经网络
传统单一网络下的超分辨率重建算法主要基于单一网络提取低分辨与高分辨图像间的特征关联性,在此过程中浅层结构往往导致图像细节信息丢失,并因此限制了方法的实际应用效果;然而,在提升模型深度以增强重建质量的同时也会带来计算复杂度及训练时间上的显著增加。
Kim团队[67]在超分辨率重建任务中开发了DRCN算法,并通过深度反馈机制实现对低分辨率(LR)图像与高分辨率(HR)图像差异的学习过程。该方法采用反复应用卷积操作与深度反馈机制,在网络中实现信息的反复循环与提取高频细节效果的同时有效控制了参数规模的增长。程德强团队[68]则提出了基于多支路径的残差Recursive Inference Networks(m-RIN),通过循环迭代的方式重复利用残差块构建32层深度结构,并引入交错排列机制对不同支路的特征表示进行动态融合以提升整体重建性能。
(6)密集连接网络
残差网络、递归神经网络以及注意力机制等均需要在网络架构中构建各层之间的连接关系,而这一步骤在每个模块完成特征传递前必须确保其自身的提取结果与上一层输入的信息实现有效融合
对与此,旨在通过密集连接网络实现各层特征信息的高效融合与传播,Huang等 [69] 提出了一种称为DenseNet的新架构。通过跨越多个层级的跳跃式(直接)连接,成功整合了不同层次特征的信息。该方法显著提升了信号传输效率的同时,还有效降低了梯度消失问题及模型参数规模。从而进一步优化了整体性能并显著提升了图像重建质量。
(7)混合网络
但是过多的跳跃连接会增加模型的复杂度、参数规模以及运行内存占用。对此,程玉等人 [70]发展了一种基于密集残差注意力网络(Dense Residual Attention Network)的超分辨率图像重建算法,在提高训练效率的同时缓解了梯度消失的问题;该方法通过引入注意力机制实现了对图像低频与高频信息的有效提取,在降低运算开销的同时显著提升了重建质量;然而Zhang等人 [71]提出的稠密残差网络(Dense Residual Network, RDN)则通过在低分辨率图像上反复利用低级特征来还原高频细节信息;尽管该方法在实际应用中具有一定的价值但它因参数规模过大而导致计算效率不高;为了克服这一缺陷满开亮等人 [72]提出了一种增强型稠密残差网络(Enhanced Residual Dense Network, ERDN)其通过多组卷积核进行细致特征提取并结合全局特征复用模块实现了多层次信息的有效融合;这种改进方案较传统RDN减少了约50%的参数量却显著提升了重建质量;此外针对减少跳跃连接带来的计算负担还有多种相关算法如DRRN [73] SRFBN [74] SRDenseNet [75]等也都能够在保证特征传递完整性的同时有效降低了计算成本
(8)AdderNet
Song et al.76 employed additive operations to mitigate memory and computational costs inherent to convolutional multiplication, introducing AdderNet as a robust framework for capturing both low-frequency texture and high-frequency detail.
4.2.2 基于生成对抗网络
随着Goodfellow等人[52]提出GAN后,衍生出一系列基于GAN的超分辨率图像重建算法,这些算法普遍展现出出色的效果,在图像重建精度、网络计算效率以及运行速度等方面均表现优异。
SRGAN算法[77]开创性地将生成器网络与判别器网络的对抗训练方法应用于超分辨率图像重建领域中。该算法通过生成器成功生成高分辨率(HR)图像,并由判别器鉴别所重建的HR图像与原始HR图像之间的差异。该过程通过反向更新生成器网络与判别器网络来优化模型参数。为了提升细节恢复能力,“感知损失”被用来替代常用的均方误差(MSE)损失函数。“感知损失”能够更好地捕捉人类视觉系统中的细节信息特征,在实验结果中也展示了较高的重建图像质量。SRGAN的网络架构如图7所示
图7

图7 SRGAN网络结构
Fig.7 Network structure of SRGAN
(1)去掉BN层
SRGAN算法在保留丰富的图像细节特征方面表现突出,然而在生成器模块中引入了批归一化(Batch Normalization)层后带来了巨大的计算开销,显著增加了模型的计算负担并使网络性能略降。对此,Lim等研究者摒弃传统生成器中的批归一化模块,并提出了一种名为EDSR(Enhanced Deep Super-Resolution)的新架构设计,经过实验验证,这种改进策略不仅在不牺牲训练效果的前提下降低了计算复杂度,同时使重建图像的质量得到了明显提升
(2)改变卷积核大小
Wang等提出的增强型ESRGAN算法旨在通过优化设计以提升网络的泛化能力;该方法通过残差缩放技术不仅加速了深层网络的收敛速度,并且有效降低了网络的整体运算参数;其结果是重建出的人像具有更为丰富的纹理特征;这些特征的人像色彩与亮度表现得更加接近真实的人像细节;基于现有模型架构的小核卷积模块能够更高效地提取细节特征;尽管如此,在这种改进方案下计算复杂度得到了显著降低,并且能够有效抑制噪声干扰;Soh等提出了自然流形鉴别器的概念;基于此提出NatSR算法;尽管该方法提升了图像的质量(如PSNR值),但它可能导致图像出现失真或伪影现象
(3)引入特殊网络
Vu等人[82]采用了相对生成对抗网络替代SRGAN中的生成对抗网络,从而使图像细节提取与融合更加合理,并降低了由于噪声或模糊带来的负面影响。
该研究团队开发了一种名为SMSR(sparse mask super-resolution)的网络模型用于识别图像中无价值的区域并精确定位具有价值的关键区域。通过动态机制跳过冗余计算步骤有效提取关键图像信息。
Park等人[84]基于一种可应用于特征域的专业判别网络提出了一种名为SRFeat(super-resolution with feature discrimination)的新算法;通过融合感知损失与对抗损失,在成对生成的数据样本中成功提取出图像的高频细节信息。
Luo等人[85]基于轻量级网络参数数量少、计算效率高的特性提出了一种轻量级晶格网络——LatticeNet(lightweight SR model),该模型在将网络运算量减少一半的情况下仍然能达到与原有网络相当的重建效果。
姜玉宁团队基于VGG19网络构建了判别器的基本架构,并成功提升了重建图像的清晰度和色彩饱和度;丰富的细节纹理特征使其更加贴近原始高分辨率HR图像。
(4)改变采样方式
一般而言,在处理高分辨率(HR)图像时,在平衡存储空间与运行成本之间需要权衡。通常会采用一种缩放过程:首先将原始HR图像进行下采样以减少数据量,并在此基础上通过上采样将其恢复为高分辨率。然而这种缩放过程可能会导致在反向缩放时出现信息丢失以及重建图像质量下降的问题
Kim等人[87]开发出了一种基于多卷积核的Fire模块的轻量级图像重建算法SRAC(super-resolution using fire modules with asymmetric configuration)。该算法通过有效减少网络参数数量来实现细节信息捕捉能力的同时,在减少参数数量的过程中成功提取了图像细节信息;然而,在传统反卷积上采样的过程中导致了马赛克效应的发生
Xiao团队[88]开发了一种可逆缩放网络(invertible rescaling net,IRN)用于在水平、垂直及对角线方向上建模图像采样过程中的特征丢失信息,并实现了保真的高精度图像还原。Wei团队[89]则开发了组件分而治之(component divide-and-conquer,CDC)算法以决定网络在图像平面、边缘及对角线区域是否进行重点学习与重建。
LapSRN(super-resolution with deep Laplacian pyramids网络)[90]基于迭代上采样的方法,在多级放大处理的基础上生成高分辨率(HR)图像,并且在一定程度上解决了网络训练过程中因连续多次放大导致的信息丢失问题。
(5)融合注意力机制
蒋明峰等人[91]针对超分辨率磁共振图像重建需求,开发了一种新的深度学习算法,即基于生成对抗网络构建并集成自注意力机制的SA-SR-GAN模型,从而显著提升了图像重建精度并确保了网络训练过程中的稳定性
Niu等人[92]提出了全注意力网络(holistic attention network,HAN),通过层注意力机制自适应地提升"高贡献特征层"的表现并抑制"冗余特征层"的影响,在空间维度上提取通道内及跨通道的图像细节特征信息。Lu等人[93]则提出了MASA(matching acceleration and spatial adaptation)网络以解决HAN网络在处理低分辨率(LR)图像与重建高分辨率(HR)图像时存在对异质性特征信息利用不足的问题,在保证较强鲁棒性的基础上能够更有效地处理多样化的样本图像尺度与形式。通过一系列定量分析与定性评估证实了该模型的有效性
(6)适用场景
实际生活中,超分辨率图像重建算法的输入图像并非总是完美清晰,例如,Deng等人[94]采用曝光度失衡的图片作为输入,并结合反馈神经网络进行端到端训练以实现图像是的融合与恢复,Wang等人[95]则提出了基于"无监督退化表示学习"的新方法,通过退化编码器提取低分辨率(LR)图像特征信息以及图象退化信息的学习与抽象,并将提取出的参数输入到退化感知网络中用于预测卷积核与调制系数,从而实现灵活适应不同场景下的重建,Kong等人[96]针对不同难度的小块复原问题,开发了一种Pipeline-ClassSR网络以解决卷积操作所带来的图象干扰问题(如噪声模糊等)。值得注意的是,实际应用中放大倍数并非固定的,而是具有任意性的(如2.5倍、3.5倍、10倍及an倍等)。为此,研究者们致力于开发能够在任意倍数放大后依然保持清晰显示图象内容的关键技术,例如Chen等人[97]便根据人眼连续观览图象的特点,借鉴隐式函数思想,提出了一种局部隐式函数模型对自然图象进行连续表达的方式
此外, SRwarp算法[98]和Meta-SR算法[99]均具备对LR图像进行任意尺寸大小重建的能力。如表4所示, 深度学习后的各算法特点进行了详细对比
表4深度学习后的各算法特点对比
Table 4 Comparison of features of each algorithm after deep learning
| 算法 | 上采样方式 | 上采样方法 | 残差学习 | 递归学习 | 密集连接 | 注意力机制 | VGG****网络 | 损失 |
|---|---|---|---|---|---|---|---|---|
| SRCNN[53] | 预上采样 | 双三次插值 | — | — | — | — | — | L2损失 |
| FSRCNN[54] | 后上采样 | 反卷积 | — | — | — | — | — | L2损失 |
| FSRCNN*[55] | 后上采样 | 反卷积 | — | — | — | — | — | L2损失 |
| VDSR[56] | 后上采样 | 双三次插值 | √ | — | — | — | — | MSE损失 |
| ESPCN[57] | 预上采样 | 亚像素卷积 | — | — | — | — | — | L2损失 |
| RCAN[63] | 后上采样 | 亚像素卷积 | √ | — | — | √ | — | L1损失 |
| DRCN[67] | 预上采样 | 双三次插值 | √ | √ | — | — | — | L2损失 |
| RDN[71] | 后上采样 | 亚像素卷积 | — | √ | √ | — | — | L1损失 |
| DRRN[73] | 预上采样 | 双三次插值 | √ | √ | — | — | — | L2损失 |
| SRFBN[74] | 后上采样 | 反卷积 | √ | √ | √ | — | — | L1损失 |
| SRDenseNet[75] | 后上采样 | 亚像素卷积 | √ | — | — | — | — | L2损失 |
| SRGAN[77] | 后上采样 | 亚像素卷积 | √ | — | — | — | — | 对抗+内容损失 |
| EDSR[78] | 后上采样 | 亚像素卷积 | √ | — | — | — | — | L1损失 |
| ESRGAN[79] | 后上采样 | 亚像素卷积 | — | √ | √ | — | — | L1损失 |
| RFB-ESRGAN[80] | 后上采样 | 亚像素卷积 | √ | √ | √ | — | — | L1损失 |
| NatSR[81] | 后上采样 | 反卷积 | √ | — | √ | — | √ | 重建+对抗+自然度损失 |
| SMSR[83] | 后上采样 | 双三次插值 | √ | — | √ | √ | — | 稀疏正则化损失 |
| SRFeat[84] | 逐步上采样 | 亚像素卷积 | √ | — | √ | — | — | 感知+图像损失 |
| LatticeNet[85] | 后上采样 | 反卷积 | √ | — | — | √ | — | MAE损失 |
| IRN[88] | 逐步上采样 | 可逆双射变换 | — | — | √ | — | — | LR制导+重构+匹配+感知损失 |
| CDC[89] | 逐步上采样 | 反卷积 | √ | √ | — | √ | — | 梯度加权损失 |
| HAN[92] | 后上采样 | 亚像素卷积 | √ | — | — | √ | — | L1损失 |
| MASA-SR[93] | 迭代上采样 | 反卷积 | √ | — | — | — | — | 重建+感知+对抗损失 |
| CF-Net[94] | 迭代上采样 | 反卷积 | √ | — | — | — | — | MSSIM损失 |
| Class-SR[96] | 后上采样 | 反卷积 | — | — | — | — | — | L1损失+平均损失+类损失 |
| LIIF[97] | 后上采样 | 亚像素卷积 | √ | — | — | — | — | L1损失 |
| SRwarp[98] | 自适应重采样 | 双三次插值 | — | — | — | — | — | L1损失 |
| Meta-SR[99] | 后上采样 | Meta Upscale | — | √ | √ | — | — | L1损失 |
注释表明,在表格中的信息全部源自相应的参考文献中的实验部分。
新窗口打开|下载** CSV** 5****实验数据
深度学习之前大多数图像重建方法主要集中在小型数据集上进行测试与验证,在这一过程中文献[100]对传统图像重建方法所涉及的数据集进行了详细阐述。此外,本文系统性地归纳整理了基于深度学习的超分辨率图像重建算法中常用的典型数据集及相关研究内容。
用于深度学习的超分辨率图像重建中所涉及的数据集涵盖范围较广,具体包括人物形象类别的图像样本,各类动植物标本的照片,不同类型的建筑模型图片以及多样化的自然景观摄影作品.此外,众多开源数据集在定义域外因素如分辨率大小指标与采样密度以及文件存储格式等多个维度上存在显著差异;而在定义域内因素方面则主要体现在内容丰富度与纹理细节特征上.具体情况可参考 表 5
表5超分辨率图像重建的开源数据集
Table 5 Open source dataset for super-resolution image reconstruction
| 数据集 | 格式 | 张数 | 大小 | 内容 | 用途 | 来源 |
|---|---|---|---|---|---|---|
| Set5 | PNG | 5 | 1.6 MB | baby、bird、butterfly、head、woman | 测试 | 2012BMVC |
| Set14 | PNG | 14 | 4.2 MB | 人、动植物、漫画、幻灯片等 | 测试 | 2014CVPR |
| BSD100 | PNG | 100 | 142.0 MB | 人、动植物、建筑、自然景观、环境等 | 测试 | — |
| BSD300 | JPG | 300 | 93.0 MB | 人、动植物、食物、建筑、自然景观等 | 训练/验证 | 2001ICCV |
| BSD500 | JPG | 500 | 155.0 MB | 人、动植物、食物、建筑、自然景观等 | 训练/验证 | 2011IEEE |
| DIV2K2017 | PNG | 900 | 3.7 GB | 人、手工制品、环境、风景等 | 训练/验证 | 2017CVPR |
| Urban100 | PNG | 100 | 143.0 MB | 建筑 | 测试 | 2015CVPR |
| Manga109 | PNG | 109 | — | 漫画图 | 测试 | 2019ICML |
| SunHay80 | PNG | 80 | 77.0 MB | 建筑、自然景观 | 测试 | — |
| 91-Image | PNG | 91 | 13.8 MB | 人、植物、汽车等 | 训练 | 2010IEEE |
| Flickr2K | PNG | 2 650 | 10.8 GB | 人、动植物、建筑、自然景观等 | 训练 | 2017CVPR |
| Real SR | JPG | 1 352 | 11.7 GB | 相机照片 | 训练/验证 | 2019CVPR |
| Waterloo | PNG | 99 624 | 1.3 GB | 人、动植物、景观、交通等 | 训练 | 2017IEEE |
| Outdoor-Scenes | PNG | 337 189 | 4.4 GB | 动植物、建筑、山水、天空等 | 训练/测试 | 2018CVPR |
| PIRM | PNG | 200 | 59.8 MB | 人、物、环境、植物、自然风景等 | 验证/测试 | 2018ECCV |
| W2S | PNG | 144 000 | 1.9 GB | 显微镜图像 | 训练/测试 | 2020ECCV |
| PIPAL | PNG | 250 | 82.0 MB | 人、动植物、建筑等 | 测试 | 2020ECCV |
| L20 | PNG | 20 | 55.9 MB | 人、动植物、建筑、景观等 | 测试 | 2016CVPR |
| General-100 | BMP | 100 | 31.0 MB | 人、动植物、日用品、食物等 | 测试 | 2016ECCV |
注:“—”表示对应实验数据集来源无法得知。
新窗口打开|下载** CSV** 6****图像质量评价
图像质量评估(IQA)的方法主要包含基于人类视觉系统的主观评估维度以及基于实验数值计算的客观评估维度。
表6 基于五个方面对全参考图像、半参考图像以及盲参考图像三种类型的重建效果涉及的因素展开系统分析
表6影响不同图像重建效果的客观因素
Chart 6: Key influencing factors impacting on image reconstruction outcomes
| 类别 | 特点 | 过程 | 适用场景 | 优势 | 局限性 |
|---|---|---|---|---|---|
| 全参考图像 | HR图像 (真值图像) | HR→LR→HR | 相机图像、光学图像、医学图像等 | 高适用性和灵活性 | 训练时间长、经济成本高 |
| 半参考图像 | LR+HR (真值+失真图像) | HR→LR→HR或LR→HR | 遥感图像、医学图像、交通监控图像、SAR图像等 | 高对比性与参考性 | 图像差异较大,影响图像质量评价 |
| 盲参考图像 | LR图像 (失真图像) | LR→HR | 遥感图像、医学图像、交通监控图像、SAR图像等 | 图像来源不受限制 | 图像质量评价受限 |
新窗口打开|下载** CSV**
6.1 主观评价
主观评价[101 -102]是指观察者通过眼睛观察重建的HR图像,主要依据观察者在色彩、清晰度、噪音、质感等方面对图像的综合评价,但由于观察者在生理、心理等方面对图像颜色、结构、纹理的敏感度不同都会对图像质量评价产生直接或间接的影响,这容易使对图像质量的评价停留在图像表面信息,而忽略图像隐藏的深层信息。
6.2 客观评价
定量评估是指通过特定参数量化原始图像与重建图像间的相似程度[103]。在大多数情况下,与人类视觉感知高度相关的评估方法均需基于完整原数据的定量分析,即基于完整原数据的定量评估方法(full-reference IQA,FR-IQA)[104 -105]。
(1)均方误差(mean square error,MSE)[105]指原始图像和重建图像之间像素值均方差,是FR-IQA评价方式中运算最简单的度量方法:
MSE=∑i=1M∑j=1NIHRy(i,j)-IHRr(i,j)M×N
(4)
其中, IHRy代表原高分辨率(HR)图像; IHRr代表重建的高分辨率(HR)图像; M和N分别代表图像的宽度和高度;i和j分别代表每个像素的位置坐标
(2)peak signal-to-noise ratio [106]被定义为通过计算原始图像与重建图像之间的全局像素误差来评估图像质量的方法,在FR-IQA评价体系中最常用的技术之一。
PSNR=10lgMAX2MSE
(5)
其中(MAX)代表图像像素的最大值;PSNR的单位是分贝(dB);其数值越大,则表明重建后的图像失真程度越低;该重建图像的质量也越高。
(3)结构相似性(structural similarity,SSIM)[107]指充分考虑人类视觉系统对图像结构信息的敏感程度,从结构s、对比度c、亮度l三方面衡量原始图像与重建图像之间相似程度的度量方法:
SSIM=lα∙cβ∙sγ
(6)
l=2μxμy+C1μx2+μy2+C1
(7)
c=2σxσy+C2σx2+σy2+C2
(8)
s=σxy+C3σxσy+C3
(9)
其中α β γ为相似性控制参数其乘积等于1即αβγ=1 μ σ分别代表原始图像x及其重建图像y的均值与方差 而σxy则表示两者的协方差 令C₁=(K₁×L)/2 C₂=(K₂×L)/2 并且C₃=C₂/2 即可满足相关条件 当该参数越大时 则表明原始图象与重建图象越接近 并且重建图象的质量相应地越高
多层次结构相似度(MSSIM)[108]定义为在保持参数l恒定的条件下,在同一图像上应用低通滤波器以获得不同分辨率版本的s和c参数,并将其作为评估工具的方法。
MSSIM=lα∙∏i=1M(ci)βi∙(si)γi
(10)
FSIM(109)是一种基于相位一致性的图像特征提取方法与基于梯度幅度的人眼视觉敏感特性分析相结合的综合指标。该指标通过捕获图像局部之间的高度相关性和反映人眼视觉系统特性的对比度信息来量化评估图像局部相似性程度。
(6)研究感知图像块相似度(LPIPS)[110]旨在基于不同视觉层次特征所共有的感知特性来评估图像间的细微差异,在对比度、饱和度、噪声以及空间结构等方面进行精确匹配。
表7展示了基于深度学习的超分辨率图像重建算法针对特定数据集进行的PSNR与SSIM测试结果
表7深度学习后各算法的重建效果对比
Table 7 Comparative Analysis of Reconstructed Effects for Every Algorithm in Deep Learning Models
| 算法 | 大小 | Set5 | Set14 | Urban100 | BSD100 | Manga109 | DIV2K | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | ||
| SRCNN[53] | ×2 | 36.7 | 0.95 | 32.5 | 0.91 | 29.5 | 0.89 | 31.4 | 0.89 | 35.6 | 0.97 | — | — |
| FSRCNN[54] | 37.1 | 0.96 | 32.7 | 0.91 | 29.9 | 0.90 | 31.5 | 0.89 | 36.7 | 0.97 | — | — | |
| FSRCNN*[55] | 37.3 | 0.96 | 32.8 | 0.91 | 30.2 | 0.90 | — | — | — | — | — | — | |
| VDSR[56] | 37.5 | 0.96 | 33.0 | 0.91 | 30.8 | 0.91 | 31.9 | 0.90 | — | — | 37.2 | 0.98 | |
| RCAN[63] | 38.3 | 0.96 | 34.2 | 0.92 | 33.5 | 0.94 | 37.2 | 0.97 | 39.6 | 0.98 | — | — | |
| DRCN[67] | 37.6 | 0.96 | 33.0 | 0.91 | 30.8 | 0.91 | — | — | — | — | — | — | |
| RDN[71] | 38.3 | 0.96 | 34.1 | 0.92 | 33.1 | 0.94 | 27.7 | 0.74 | 39.4 | 0.98 | — | — | |
| DRRN[73] | 37.7 | 0.96 | 33.2 | 0.91 | 31.2 | 0.92 | 32.1 | 0.90 | — | — | — | — | |
| SRFBN[74] | 38.2 | 0.96 | 33.9 | 0.92 | 32.8 | 0.93 | — | — | 39.3 | 0.98 | — | — | |
| SRGAN[77] | 38.9 | 0.97 | 35.6 | 0.94 | 35.2 | 0.96 | 33.8 | 0.93 | 38.3 | 0.96 | 34.4 | 0.97 | |
| EDSR[78] | 38.2 | 0.96 | 34.0 | 0.92 | 33.1 | 0.94 | 27.7 | 0.74 | 39.1 | 0.98 | 35.1 | 0.97 | |
| ESRGAN[79] | 38.2 | 0.96 | 34.0 | 0.92 | 33.1 | 0.94 | 32.4 | 0.90 | — | — | 36.1 | 0.96 | |
| SMSR[83] | 38.0 | 0.96 | 33.6 | 0.91 | 32.2 | 0.93 | 32.2 | 0.90 | 38.8 | 0.98 | — | — | |
| SRFeat[84] | 32.3 | 0.89 | 28.7 | 0.78 | — | — | 27.6 | 0.74 | — | — | — | — | |
| IRN[88] | 44.0 | 0.98 | 40.8 | 0.97 | 39.9 | 0.98 | 41.3 | 0.98 | — | — | 44.3 | 0.99 | |
| HAN[92] | 38.3 | 0.96 | 34.2 | 0.92 | 33.5 | 0.93 | 32.5 | 0.90 | 39.6 | 0.98 | — | — | |
| Meta-SR[99] | 34.0 | 0.92 | 32.3 | 0.90 | — | — | — | — | 39.2 | 0.98 | 35.2 | 0.95 | |
| SRCNN[53] | ×3 | 32.8 | 0.91 | 29.3 | 0.82 | 26.2 | 0.80 | 28.4 | 0.79 | 30.5 | 0.91 | — | — |
| FSRCNN[54] | 33.2 | 0.91 | 29.4 | 0.82 | 26.4 | 0.81 | 28.5 | 0.79 | 31.1 | 0.92 | — | — | |
| FSRCNN*[55] | 33.3 | 0.92 | 29.6 | 0.83 | 26.7 | 0.82 | — | — | — | — | — | — | |
| VDSR[56] | 33.7 | 0.92 | 29.8 | 0.83 | 27.1 | 0.83 | 36.7 | 0.97 | 32.0 | 0.93 | — | — | |
| RCAN[63] | 34.9 | 0.93 | 30.8 | 0.85 | 29.3 | 0.87 | 29.3 | 0.81 | 34.8 | 0.95 | — | — | |
| DRCN[67] | 33.8 | 0.90 | 29.8 | 0.83 | 27.2 | 0.83 | — | — | — | — | — | — | |
| RDN[71] | 34.9 | 0.93 | 30.7 | 0.85 | 29.0 | 0.87 | 27.7 | 0.74 | 33.4 | 0.94 | — | — | |
| DRRN[73] | 34.0 | 0.92 | 30.0 | 0.83 | 27.5 | 0.84 | 29.0 | 0.80 | — | — | — | — | |
| SRFBN[74] | 34.8 | 0.93 | 30.6 | 0.85 | 28.9 | 0.87 | — | — | 34.4 | 0.95 | — | — | |
| SRGAN[77] | 33.7 | 0.93 | 30.2 | 0.87 | 26.9 | 0.84 | 29.6 | 0.84 | 31.0 | 0.94 | 30.9 | 0.93 | |
| EDSR[78] | 34.8 | 0.93 | 30.7 | 0.85 | 29.0 | 0.87 | 29.3 | 0.81 | 34.1 | 0.95 | 31.4 | 0.93 | |
| ESRGAN[79] | 36.2 | 0.95 | 32.7 | 0.90 | 31.4 | 0.92 | 31.6 | 0.88 | — | — | 35.1 | 0.93 | |
| SMSR[83] | 34.4 | 0.93 | 30.3 | 0.84 | 28.3 | 0.86 | 29.1 | 0.81 | 33.7 | 0.94 | — | — | |
| HAN[92] | 34.9 | 0.93 | 30.8 | 0.85 | 29.3 | 0.87 | 29.4 | 0.81 | 34.8 | 0.95 | — | — | |
| Meta-SR[99] | 30.6 | 0.85 | 29.3 | 0.81 | — | — | — | — | 34.1 | 0.95 | 31.4 | 0.89 | |
| SRCNN[53] | ×4 | 30.5 | 0.86 | 27.5 | 0.75 | 24.5 | 0.72 | 26.9 | 0.71 | 27.6 | 0.86 | — | — |
| FSRCNN[54] | 30.7 | 0.87 | 27.6 | 0.76 | 24.6 | 0.73 | 27.0 | 0.72 | 27.9 | 0.86 | — | — | |
| FSRCNN*[55] | 31.0 | 0.88 | 27.8 | 0.76 | 27.1 | 0.72 | — | — | — | — | — | — | |
| VDSR[56] | 31.4 | 0.88 | 28.0 | 0.77 | 25.2 | 0.75 | 27.9 | 0.86 | 28.8 | 0.89 | — | — | |
| RCAN[63] | 32.7 | 0.90 | 29.0 | 0.79 | 27.1 | 0.81 | 28.8 | 0.89 | 31.7 | 0.92 | — | — | |
| DRCN[67] | 31.5 | 0.89 | 28.0 | 0.77 | 25.1 | 0.75 | — | — | — | — | — | — | |
| RDN[71] | 32.6 | 0.90 | 28.9 | 0.79 | 26.8 | 0.81 | 27.7 | 0.74 | 31.4 | 0.92 | — | — | |
| DRRN[73] | 31.7 | 0.89 | 28.2 | 0.77 | 25.4 | 0.76 | 27.4 | 0.73 | — | — | — | — | |
| SRFBN[74] | 32.6 | 0.90 | 28.9 | 0.79 | 26.7 | 0.80 | — | — | 31.4 | 0.92 | — | — | |
| SRGAN[77] | 33.9 | 0.91 | 30.3 | 0.84 | 29.3 | 0.87 | 29.2 | 0.80 | 32.8 | 0.88 | 28.9 | 0.90 | |
| EDSR[78] | 32.5 | 0.90 | 28.8 | 0.79 | 26.6 | 0.80 | 27.7 | 0.74 | 31.0 | 0.91 | 29.4 | 0.90 | |
| ESRGAN[79] | 32.7 | 0.90 | 29.0 | 0.79 | 27.8 | 0.75 | 27.0 | 0.82 | — | — | 30.9 | 0.85 | |
| NatSR[81] | 31.0 | 0.86 | 27.4 | 0.73 | 25.5 | 0.76 | 26.4 | 0.68 | — | — | — | — | |
| SMSR[83] | 32.1 | 0.89 | 28.6 | 0.78 | 26.1 | 0.79 | 27.6 | 0.74 | 30.5 | 0.91 | — | — | |
| SRFeat[84] | 32.3 | 0.89 | 28.7 | 0.78 | — | — | 27.6 | 0.74 | — | — | — | — | |
| IRN[88] | 36.2 | 0.95 | 32.7 | 0.90 | 31.4 | 0.92 | 31.6 | 0.88 | — | — | 35.1 | 0.93 | |
| HAN[92] | 32.8 | 0.90 | 29.0 | 0.79 | 27.0 | 0.81 | 27.9 | 0.75 | 31.7 | 0.92 | — | — | |
| Meta-SR[99] | 28.8 | 0.79 | 27.8 | 0.74 | — | — | — | — | 31.0 | 0.92 | 29.4 | 0.85 |
其中的数据来自相匹配的参考文献中的实验数据显示,在这些数据集或图像放大倍数下,并没有对该情况进行实验。
新窗口打开|下载** CSV** 7****结束语
提升图像质量的主要途径有两种:第一种途径是升级设备源硬件性能;第二种途径是对图像分辨率处理相关的软件或算法进行优化。在超分辨率图像重建领域中,研究主要聚焦于提升图像处理算法的技术水平,在这一领域内已经有了诸多研究成果。特别是在引入卷积神经网络和生成对抗网络之后,在图象特征提取与融合方面已经取得了长足的进步。本文全面综述了超分辨率图像重建领域的各种算法,并发现其本质是在特定条件下运用相应的算法来提高重建图象的质量;以便将低分辨图象恢复为包含更多细节信息的高分辨图象这一目标得以实现。然而,在现有技术中发现要想构建一个在各方面均表现优异的算法(包括网络深度、运算速度、图象精度、时间复杂度等)仍然面临诸多困难;而且现有的许多算法所采用的对象多为特定场景下的图象;这往往导致其适用范围较为局限性明显地限制了技术的实际应用效果。因此未来的研究可以从以下几个方面展开:一是探索能够适应不同场景需求的通用型算法;二是深入研究如何在有限计算资源条件下实现更高效率的具体应用方案;三是寻求在保持较高重建质量的同时降低计算复杂度与运算速度的技术路径;四是关注交叉领域间的协同创新机制与技术融合路径
(1)均衡网络训练各方面的关系
①均衡速度与精度间的关系
大多数现有超分辨率图像重建算法往往以降低网络运算速度为代价来提升图像精度,并且旨在缓解从高分辨率图像中获取丢失的低频与高频信息的问题。与此同时,在当前图像是捕捉到细节能力的核心领域中提取包含丰富细节的信息如颜色和边缘等低频数据以及纹理与结构等高频数据则成为当前图像是捕捉到细节能力的核心领域中的核心关注点
②均衡效率与深度间的关系
在超分辨率图像重建算法中,加深网络深度能够在一定程度上提高图像细节质量,同时能够有效降低伪影现象的发生;然而,这种加深可能会导致整体计算复杂度上升,从而对系统效率造成一定影响。为了使系统效率得到保障的同时,我们应探讨适量增加网络层数的可能性
(2)传统方法在深度学习方法中的延续
基于深度学习的超分辨率重建技术能够深入挖掘图景细节特征;其中残差网络与密集连接网络等复杂深层结构能够提取多层细节特征,并通过跳跃连接机制进行整合融合;然而这也会导致某些基本特征缺失或高频信息被忽略;对此可采用某些传统算法特性以提升重建性能;具体而言可运用小波变换方法独立分析不同尺度下的信息特点;同时稀疏编码技术可协同提取多个图景块中的共性特征;此外样例学习方法可用于预先训练图景信息以构建丰富特征库;又或采用边缘导向插值技术提前聚焦于图景边缘信息从而弥补低分辨率图景中模糊不清的边缘纹理细节。
(3)面向生活中各类真实场景
考虑到交通、医疗以及航空等多个领域对图像质量的要求极为严格,在应用超分辨率图像重建技术于这些大范围领域的同时(如交通和医疗),也可应用于小范围任务(如人脸识别、指纹识别以及车牌识别)以解决相关技术难题
(4)重建图像的质量评估方式
本文对MSE、PSNR等方法进行综述,并指出这些指标通常被用作评估图像重建质量的标准。然而,这些指标仍存在无法完全真实反映图像重建质量的问题。探索更加符合人类视觉系统特性的图像质量评估标准仍将是未来研究的重要方向。
