Advertisement

2实现双线性插值_超分辨率领域综述!使用深度学习来实现图像超分辨率综述...

阅读量:

关注公众号“AI算法修炼营 ”,选择“星标 ”公众号,精选作品,第一时间送达。

本节将为大家介绍对图像超分辨率领域相关研究的综述。该综述系统梳理了多个重要方向包括:问题定义、数据集选择以及评估标准等,并重点分析了现有超分算法的优缺点及局限性。同时本文将深入探讨当前研究中存在的主要问题及挑战,并探讨未来的发展趋势与可能的研究方向。

84015cf5a06fbd7f815aca301524f829.png

论文地址https://arxiv.org/pdf/1902.06068.pdf

1、前言

超分辨率(Super Resolution, SR)是一种基于观测得到的一组低分辨数据而推导出其高分辨版本的技术,在计算机视觉领域具有重要地位的应用之一。SR通过软件或硬件方法对观测数据进行处理以重构其潜在细节信息,并非简单地提升已有图象的质量而是旨在还原被压缩失真信息的能力显著提升了现代科技水平的关键技术手段。在当前技术发展的背景下超分辨技术已在多个关键领域展现出广泛的应用潜力包括但不限于现代监控设备先进的卫星图象遥感系统精密的数字高清显示设备创新性的显微成像系统高效的数据传输与通信网络以及临床医学领域的高质量成像辅助诊断工具等。

近年来取得了使用深度学习技术在图像超分辨率方面取得显著成果。本文将现有研究工作系统性地分为三个关键领域:

1.supervised SR(有监督学习的图像超分辨率)

2.unsupervised SR(无监督学习的图像超分辨率)

3.domain-specific SR (特定应用领域的图像超分辨率)

83c5f68669d4075416cec95e6306f9a0.png

2、超分辨率SR问题定义

LR(低分辨率图像)图像为以下处理过程的输出:

06eca3ecd89cccdadc244c5a86fb8c01.png

其中D相当于一个降质映射函数,在此过程中对应的HR图像由Iy表示;δ则表示该过程中的其他一些参数(如比例因子或噪声项)。通常情况下,在这种场景下仅提供LR图像,并且需要恢复相应的Iy。

55e82ed5485dc5077623395ccbcfdcd6.png

其中,F被视为模型;θ被视为模型的参数表达。大部分研究通过将退化映射建模成单一降采样过程来处理这类问题。

41d61a2bfca70a538083e49e4c064ea0.png

其中↓s代表基于比例因子S的下采样操作,在图像处理领域中

52647376d0674e789ef2ec804309ceb1.png

其中,在卷积操作中使用Iy⊗κ表示模糊核k与HR图像之间的关系。nς被定义为服从均值为零、标准差为ς的高斯白噪声分布,在这种情况下相比之前的表达式更为贴近真实情况,并且在SR处理中具有更大的优势。

因此,SR的目标函数为:

8b2998617642edacc8b074d44735a322.png

其中,Φ(θ)是正则化项;SR中使用最常用的均方误差作为损失函数衡量每个像素之间的差异;更为先进的模型通常会综合运用多种不同的损失函数以提高性能效果。

3、数据集

某些数据集提供了HR与LR图像配对的数据,在这些场景中有的仅包含单分辨率(HR)图像是不够的——有的只提供HR图像的情况也较为常见。通常情况下,在MATLAB环境下使用默认的imresize函数(基于双三次插值并结合anti-aliasing技术)生成了LR图像。如表所示,则列举了一些常用的SR数据集


f24b5b7aa317c9081a7eda48798b4dcf.png

4、图像质量评估

为了定量评估模型性能,请问您有哪些具体需求?多种用于图像质量评估的技术(指标)具有相同的目标。这些指标可以大致分为两类——主观指标与客观指标。

  • 峰值信噪比 PSNR

峰值信噪比(PSNR)是一个被广泛使用的量化评估指标,在图像处理领域中常用于评估有损压缩后的图像质量。在超分辨率重建(SR)任务中,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下。

在超分辨率重建(SR)任务中,默认情况下。

在超分辨率重建(SR)任务中,默认情况下。

在超分辨率重建(SR)任务中,默认情况下。

在超分辨率重建(SR)任务中,默认情况下。

假设高分辨率(HR)图像是I, 重建后的图像是 ˆ I, 两者都具有N个像素,则MSE以及对应的PSNR(以dB为单位)如后文所述。

当MSE趋近于零时, PSNR趋于无限大;随着MSE增大, PSNR逐渐减小

59f0ba2ab9496a42db047075eb803cdc.png

在所述公式中,8bit代表像素点的取值,在图像处理领域其取值范围是从0到255。其中,在8位RGB图像中,默认设置为255作为最大值设定。通常PSNR指标数值在20至40之间波动,在此范围内数值越高表明图像去噪效果越佳。从式子可以看出当L固定时PNSR仅关注于像素之间均方误差的变化程度因此可知PSNR主要衡量的是不同像素之间的差异程度;然而由于缺乏感知质量评估标准依据这一特点限制了其在实际应用中的表现

  • 结构相似度 SSIM

结构相似度(SSIM)是建立在亮度、对比度以及结构这三个相对独立的方面进行比较的基础上,在此基础上最初由Jackway等专家提出的用于评估图像之间相似程度的一种指标。从理论上讲,SSIM公式具体来说就是其中包含了亮度、对比度以及结构这三个要素之间的加权乘积的形式。

5643a371883d1584938993cd4b68a757.png

在该公式中, α, β 和 γ 分别对应于明度, 对比度以及结构比较函数的重要性程度. 通常使用的 SSIM 计算公式如下所示:

c37113abed2bc914a32a18abc226d51b.png

在上述公式中,μ(I)是一种衡量特定图像均值的方法,在这里被用来描述目标区域的颜色信息。σ(I),即标准差,则用于衡量同一图像像素分布的程度;而σ(I,I’)则用于衡量两张不同图像之间的相关性。其中C1和C2是预设常数参数,在计算过程中起到稳定作用以避免数值计算中的不稳定现象。此外,在视觉感知模型中引入SSIM指标能够有效反映重建质量的表现特性,并且这种评价方法在实际应用中具有较高的可靠性

基于图像统计特征可能存在分布不均匀或受到外界因素影响的情况而言

  • Operating Channels

除了 RGB 外,在图像处理领域还得到了广泛应用的另一种色域变换方案是 YCbCr 颜色空间

其他的IQA分数

  • 均值满意评分(MOS)
  • 任务导向评估
  • 信息忠实准则(IFC)
  • 视觉信息忠实度(VIF)

4、监督式SR方法

基于现有技术中将低分辨率图片转换为高分辨率图片的方法属于深度学习领域。传统的监督式超分方法通常将高清晰度图片(Hr Image)及其对应的低清晰度版本(Lr Image)作为训练数据集。在监督式超分模型中通常会同时利用对应的高质量 HR 图像与其对应的低质量 LR 图像来进行训练与优化过程。

先来看看主要的算法:

d517b40cabd0309d28a8f1f8535573af.png
0c7d45200e1bb948a4a2421057daa602.png

监督式SR方法框架

通过上采样模块在模型中的位置 ,可以将这些模型分为四个框架。

1、前置上采样SR

该方法首先对低分辨率图像进行插值,得到“粗”的高分辨率图像

直接从低分辨率(LR)图像学习高分辨率(HR)图象存在一定的难度;传统的双三次插值方法用于对LR图像进行上采样,并通过神经网络优化来重建高质量细节;这是一种直接而有效的解决方案。 SRCNN模型则基于插值处理后的LR图象建立与对应的HR图象之间的映射关系。

优点: 采用传统的上采样方法,在神经网络中只需对低分辨率(LR)图像实施精细处理即可显著降低学习难度。该方法能够接受不同尺寸的插值后输出的图像作为输入,并能实现与其单尺度模型相当的效果程度。

预先上采样方法的潜在问题是噪声放大、导致图像变模糊以及在处理高维数据时会显著增加计算资源消耗。而由于未采用transpose convolution这种架构设计,在这种情况下生成图像可能出现明显的模式干扰或残留 artifact 可能会未能得到完全消除

45c7cff20668d79f20acc48e6b512a1c.png

2、后置上采样SR

在这种情况下,将低分辨率图像输入至CNNs。通过可学习的上采样机制,在网络末尾实现图像还原。将上采样过程放置于网络尾部,并在降维空间中建立特征映射关系

e7298b2ef9b967ae5abc88ab1ee98c70.png

该方法的优势在于通过在低维空间(在上采样之前)提取特征以降低计算复杂度,并且能够实现高效率的学习过程。此外利用一个可学习设计的上采化层能够使得模型能够实现端到端的学习过程。分辨率提升仅发生在网络后端部分并带来了显著提高的同时大尺寸上的插值运算较为困难因此每个不同的尺度都必须由独立设计的SR模块来处理以满足多尺度超分的需求

3、逐步上采样SR

在这一组中

2e40177e0adbb334476c9db8b1f91fbf.png

通过拆解一个看似难以完成的任务,并将其转化为一系列相对简单的子任务序列, 学习者的负担程度得到了显著的减轻, 并且能够实现更高的学习效率和输出质量. 另外一种常见的策略是 curriculum learning, 这种方法同样能够进一步减轻学习压力, 最终实现更高的 performance. The progressive SR architecture addresses the multi-scale challenges inherent to conventional up-sampling approaches by introducing a more sophisticated reconstruction mechanism. The network progressively reconstructs high-resolution images through a series of continuously optimized neural operations. Both MS-LapSRN and progressive SR frameworks leverage this advanced architecture, yet they each introduce distinct trade-offs in terms of computational complexity and training difficulty.

4、迭代上下采样SR

另一种流行的模型架构是Hourglass(称为U-Net)结构。有些变体中提到的Stacked Hourglass网络由多个连续的hourglass结构组成,并成功实现了上采样与下采样的相互作用。

d07386602fa29540ee4513211ae20d0e.png

该框架下的模型具有更强的能力去深入探究低分辨率图像和高分辨率图像对之间的深层关系进而提供更高质量的重建结果。为了更好地理解LR-HR图像对之间的关系**我们采用了一种迭代优化的方法——反向投影算法,并反复进行上采样和下采样的操作以不断提高图像质量。通过不断迭代实现反向投影的过程以精细化处理目标图像。随后我们通过计算重建误差并将其融入模型以提升HR图像的质量。DBPN架构则通过将一系列中间生成的HR结果逐步融合最终生成最终的高分辨率图像。

5、上采样方法

除了模型中的**1\times1卷积层之外,在特征图重构过程中同样需要关注细节信息的有效提取与保持这一问题也很值得探讨。(原文)为了实现图像重建质量的有效提升同时需要平衡重建速度与计算资源消耗之间的关系**。(原文)通过实验结果表明当图像分辨率达到256\times256时网络运行时间仅需约3.5秒满足实时处理需求**。(原文)

上采样方法有:

1、最近邻插值和双线性插值

该算法采用单点采样法,在图像缩放过程中仅取相邻像素点的灰度值作为被缩放点的灰度值替代其本身位置处的灰度值

双线性插值: 在每个轴向依次处理两次。在保证较高速度的前提下,性能显著优于最近邻插值方法。影响区域大小为2×2的双三次插值同样采用类似的方法,在三次插值的基础上对图像的两个维度分别进行三次多项式拟合计算(需注意的是,在这种情况下计算量会有所增加)。在应用anti-aliasing技术的基础上使用双三次插值算法是目前构建超分辨率数据集的主流方法。

基于插值的上采样方法**仅限于利用图像本身的细节信息来提升分辨率,并未增添额外信息。反而是会导致图像质量下降的现象包括噪声放大、计算开销加大以及模糊不清等情况。

2、转置卷积

利用零填充执行卷积操作来提升图像分辨率。基于转置卷积能够保持与卷积相容的连接模式并实现图像尺寸的增长,在此背景下转置卷积被广泛用作超分模型中的上采样层。

9f237f0447a67631c338976c8f44a816.png

然而,在每个轴上容易导致"不均匀重叠"出现;这些相乘的结果进一步形成了大小变化的棋盘状图案;从而影响了SR性能。

3、亚像素层

通过对卷积产生的多个通道进行reshape,实现上采样。


ce97f13db2efe53ec36b026e2b7831cb.png

相较于转置卷积层而言,亚像素层具备显著更大的感受野范围,从而能够更充分地捕捉并整合丰富的细节信息,有助于生成更加逼真的图像内容。然而,由于感受野在空间分布上存在不均匀性,并且相邻的块域共享相同的感受野区域这一特性,因此可能会导致边缘区域出现一些模糊或不一致的现象。另一方面,在对各个块域内的相邻像素独立预测时,可能会造成输出图像整体平滑性降低的问题

4、Meta upscale module

传统的方案需预先设定缩放比例,并为此必须分别训练不同倍率的上采样模块以适应具体情况。然而这样的方法存在计算效率较低的问题且难以满足实际应用需求。Meta upscale 模块基于元学习技术专门解决任意倍率下的超分辨率问题。具体而言该模块通过将HR图像中的每个目标点映射到对应的LR特征图中的一个小区域(尺寸为k × k × cin)并结合密集层输出的偏移信息与预设缩放比率来推导出合适的卷积权重矩阵(大小为k × k × cin × cout)。然后执行卷积运算以生成高分辨率图像。

f7889602525d324f813856149426a95e.png

通过单一模型实现任意倍率的连续放大能力。此外,在丰富训练数据集下,在固定倍率下展示了相当甚至更好的性能水平。然而该方法依赖于一组与图像内容无关的关键参数集合来推导每个目标像素的大量卷积权重矩阵,在处理较高倍率缩放时可能导致预测结果不稳定和计算效率下降。

6、常用网络结构设计

除了现有的二维卷积技术之外,在实际应用中发现了一些创新性设计来提升效果。扩张卷积能够显著扩展感受野范围,并且能够在一定程度上捕捉到长距离空间关系。通过引入这些模块推动低级特征与高级特征的有效融合,在一定程度上提升了模型的整体性能表现。

9e00a59b861389255042e7c4ab58f5d1.png

1、Residual Learning

全局残差学习:基于输入与输出图像之间的高度关联性,在研究领域中出现了一种新的方法论——全局残差学习。该方法的核心思想是通过分析输入与输出之间的关系来优化模型结构,并在此基础上提出了一种新的算法框架——基于全连接深度神经网络的学习方法。

局部残差学习 :旨在通过缓解网络不断加深过程中产生的梯度消失及梯度爆炸问题而显著提升网络的学习性能。

通过跳跃连接和逐像素加法完成计算, 前者将输入与输出相连, 后者则在不同网络层之间建立连接.

2、Recursive Learning

为了更广的感受野范围和更深层次的特征提取,并在减少额外参数的前提下

DDRN采用了残差块作为其递归单元,并在经过25次的递归操作后表现出色。

随后 Tai et al. 提出了 MemNet 模型,该模型以其独特的记忆机制著称。该模型将信息存储在具有6个递归残差模块的记忆块中,并通过进一步使用1×1卷积层来实现记忆信息的提取与遗忘操作。同样地,在CARN结构中也采用了多组残差块组成的递归单元以增强模型性能。

Han团队开发了一种称为双态网络(DSRN)的结构来实现高分辨率(HR)与低分辨率(LR)图像之间信号的交换。该架构在每一步时序中基于当前输入的状态信息逐步推导出新的LR与HR相关联的状态,并将其传输至下一个时序用于进一步推演以获得精确的状态更新结果。通过深度的双态循环机制(最多七次迭代),该方法能够有效地发现并建模复杂的数据关联性从而实现高精度的数据重建效果;与此同时Lai则采用多模块协同的方式设计其网络架构每一模块都对应一个特定的任务从而实现了更为高效的参数共享策略

递归学习使得参数数目大幅降低,并带来了梯度消失与梯度爆炸的问题。鉴于此,在实际应用中一般采用残差学习与递归学习相结合的方式以有效缓解这些问题。

3、Multi-path Learning

多路径学习即指模型通过多个路径传播特性,在不同路径上执行各自不同的操作从而提升建模能力

Global Multi-path Learning: 全局多路径学习通过多个路径提取图像的不同方面特征。这些路径在传递过程中相互交错以提高特征提取能力

LapSRN 基于从粗到细预测子带残差的特征提取路径,并提供了一种利用两种信息重建清晰HR图像的方法。

此外,在DSRN中使用LR(长距离关系)路径和HR(高分辨率)路径分别在低维空间和高维空间中提取信息。这些路径持续交换信息以实现对学习性能的显著提升。

Local Multi-path Learning: MSRN采用了基于多尺度的新特征提取机制,在其中利用大小分别为3x3和5x5的两个卷积层并行提取深层特征。随后又执行了另一个附加的一维卷积操作。随后又执行了另一个附加的一维卷积操作。此外,在此模块与输入端之间建立了关系网络通道,并通过逐元素加法实现了信息传递。基于这种局部位置的学习框架设计使得MSRN能够更有效地从多层次捕捉图像细节,并进一步提升超分网络的整体性能水平。

Scale-specific Multi-path Learning: 各个不同的尺度均经历相同的特征提取流程,并基于此设计一种架构以解决同一网络内部的多尺度超分辨率问题。

具体来说,在网络架构中它们共享模型的核心模块,并在网络两端分别添加了与不同尺度相关的预处理模块和上采样模块;在训练过程中仅激活与选定比例对应的模块;从而使得大部分参数能够在多个尺度下共用

4、Dense Connections

5、Channel Attention

6、Advanced Convolution

Dilated Convolution. 空洞卷积, 增大感受野,有助于生成逼真的细节

Group Convolution:群卷积机制。已有研究表明,在性能损失可控的前提下(即仅减少约50%的参数数量),群卷积机制能够有效降低计算复杂度。研究表明,在保证性能几乎不受损的前提下(即仅减少约50%的参数数量),CARN-M实现了计算效率的显著提升。

7、Pixel Recursive Learning

大部分SR模型将SR视为一个基于像素独立的任务,并且无法有效地捕获生成像素之间的相互依赖关系

基于PixelCNN的思想启发下,Dahl团队首次提出了像素级递归学习机制。该方法通过两个独立网络分别捕捉全局背景信息和序列生成关联性,并按部就班地完成逐个像素生成任务。尽管这些技术在一定程度上展现了较好的性能水平,但较长传播路径所导致的递归计算复杂度显著提升以及训练难度加大,则主要集中在处理高分辨率HR图像方面。

8、Pyramid Pooling

基于空间金字塔池层的设计理念,开发出了一种新的金字塔池模块;该模块通过引导技术的应用,在整合全局与局部语境特征方面表现出了显著的优势。

9、Wavelet Transformation

10、Desubpixel

11、xUnit

7、常用损失函数

通过损失函数评估生成高分辨率图像与 ground truth 高分辨率图像之间的差异性。随后利用这一差异(误差)来优化监督学习模型。现有多种类型的损失函数,在监督学习中这些损失函数分别对生成图像的不同特征施加相应的惩罚机制

一般而言,在每个损失函数对应的误差分别经过加权汇总后进行求和运算时,则可整合使用多种不同的损失函数。这使模型得以同时重视来自各个不同损失函数所贡献的具体方面。

复制代码
     total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

像素损失

像所有其他类型的损失一样,像素损失是最基本的一种。
其中生成图像与基准图像(ground-truth)中对应位置的每一个像素都会被逐一比较。
在实践中广泛使用的几种常见的_loss_函数包括但不限于_L1_和_L2_两种基本形式及其更为复杂的变种。
例如,在计算机视觉领域中常用的是基于距离度量的方法来衡量两个图象之间的差异程度。
然而,在实际应用中发现仅依赖于单个 pixels 的位置信息可能会导致模型过于敏感于噪声干扰。
因此,在深度学习模型的设计过程中通常会引入额外的信息融合机制以提高鲁棒性。
综上所述,在选择合适的_loss_函数时需要综合考虑多个因素包括计算效率以及模型对噪声数据的感受能力等多方面的权衡因素以达到最佳的效果平衡

f0a6e1751254289120175838c4ea1f73.png

该PSNR指标与像素失真程度呈高度相关性(将在后续章节中进行讨论)。由此可知,在满足一定条件下直接减小像素失真程度可以有效提升该PSNR指标值(反映性能优势)。然而必须注意到的是,在计算过程中并未充分考虑图像的真实质量。这通常会导致输出图像在主观感知上欠佳(多寡于高频细节)。

内容损失

这种损失是由基于图像感知质量而定义出来的用于评估图像质量的标准。这种方法比较生成与ground truth之间的高层特征以提高判别能力。为了提取生成与ground truth之间的高级特征我们采用了一个预先训练好的网络模型如VGG-Net或ResNet等。

903453f4348b459d4c97a9668caa003b.png

该函数计算两个图像之间的内容损失。给定预训练网络Φ及其第I层输出后,网络会计算这两个图像之间的差异。这种差异被设计用来鼓励生成的图片在感知上与参考图像是相似的,并被称为感知差异。

纹理损失

为了使生成...相同的视觉风格(包括纹理特征、色调和对比度等),通过应用纹理损失(或样式重建损失)来实现这一目标。按照Gatys等人所提出的理论,在其研究中指出:其中图像 textures 被定义为其不同 feature channels 之间的相关性;并且这些 feature channels 通常由预训练 image classification 网络Φ来进行提取。

f1fcc6eb62d048aa1a36260a049009fd.png

a. 计算Gram矩阵

特征图间的相关性可通过Gram矩阵(G)来表示。其中G代表的是两个不同特征图向量在第I层中的内积(见上文)。一旦我们为每对图像计算出对应的Gram矩阵值(见下文),那么纹理损失的计算就变得简便。如前所述:

b4e9a800574d392e7e863d085e5523b0.png

b. 计算纹理损失

c. 基于所采用的损失函数,在促进模型生成高质量的纹理特征的同时,也实现了更具视觉吸引力的结果

Total Variation损失

通过Total Variation (TV)度量来抑制生成图像中的噪声。同时计算相邻像素之间的绝对差值之和,并评估这些差值总和对应的噪声水平。在生成的图像中进行Total Variation (TV)损失计算时,则是通过计算相邻像素之间绝对差值之和来进行。

b9b97498f22511f877d84dd5a5c80f1b.png

这里, i,j,k 分别对高度,宽度和通道进行迭代。

对抗损失

生成对抗网络(GANs)如今已被广泛应用于包括超分辨率在内的多种图像相关应用领域。GANs一般由生成器和鉴别器这两个神经网络构成,并相互竞争。

给定一组目标样本集合S_tg, 生成器G试图通过映射函数f: S_tg → S_gen, 使得S_gen能够欺骗判别器D, 让其误以为S_gen中的样本属于真实数据集S_tr. 判别器D则旨在从假样本(S_gen)中识别出真实样本(S_tr). 通过这一迭代训练过程, 我们最终训练出一个高效能的生成模型G*, 它能够高效地产生与目标示例高度相似的内容. 如图所示, 这是一个典型的Generative Adversarial Network (GAN)架构图.

d15de32e892d54997fa5f3832ede5bb5.png

为了优化性能, 对基本GAN架构进行了优化; 此外,Park et.\ al采用了特征级鉴别器以捕获真实高分辨率图像中具有更多意义的潜在属性; 你可以参考这篇博客获取更多信息

Recent progress on the development of generative models has been made through advancements in adversarial networks.

一般来说,在采用对抗损失机制进行模型训练的情况下(即通过对抗损失函数优化参数以实现生成器与判别器之间的博弈),该种方法能够展现出较高的感知性能;尽管它们在PSNR指标上可能不如基于像素损失训练的方法(即通过最小化像素级误差来优化生成图像的质量)。一个潜在的问题是,在实际应用中可能存在一些难以解决的技术难题;然而,在研究如何稳定地进行GAN模型训练方面仍有许多探索和改进的空间。

8、特定领域的应用

1、深度图超分辨率

空间中的各个位置与物体的特征点之间的距离关系被深度图所反映。该技术参数在姿态估计与语义分割等多领域应用中具有关键作用。受限于硬件条件与数据采集成本等因素的影响,在实际应用中由深度传感器所得的数据通常整体画质不高,并受到噪声、量化误差以及部分数据缺失等问题的影响。研究人员通过开发超分辨率技术来提升图像的空间细节。

2、人脸图像超分辨率

facial super-resolution techniques, also known as face hallucination (abbreviated as FH), typically enable the execution of other tasks related to facial recognition and analysis. Compared to ordinary images, facial images contain more structured information specifically related to the human face. Therefore, integrating prior knowledge about facial features into FH represents a widely adopted and promising approach.

3、超光谱图像超分辨率

与全色图像(panchromatic image, PAN)相比, 超光谱图像(HSI)包含了数百个不同波段的高光谱数据, 其丰富的光谱特征能够有效解决多种视觉问题. 但受限于硬件限制, 获取高质量HSI所面临的挑战比PAN更高, 并且所得HSI图像的空间分辨率通常会低于PAN. 因此, 在这一领域中, 超分辨率技术应运而生, 广泛采用将高分辨率全色图(HR PAN)与低分辨率超光谱图(LR HSI)相结合的方法来重建高分辨率超光谱图(HR HSI).

4、视频超分辨率

在视频超分辨率研究领域中

5、其它应用

基于深度学习的超分辨率技术已被成功应用于多个领域,并展现出卓越的效果。特别地,RACNN借助SR模型提升了低分辨率图像细节的可识别性。类似地,感知生成对抗网络(GAN)通过表征超分辨率的小目标解决了小目标检测问题,实现了与大目标相媲美的特征提取能力。FRS-GAN通过提升特征空间的小图像分辨率而非像素级别,将低质量原始特征转化为高区分度的新特征,这对提升图像检索性能大有裨益。此外,Dai等人展示了SR技术在多个视觉领域的有效性及其实际价值,包括边缘检测、语义分割、数字识别和场景分析。黄 et al 开发了一种专为超分辨率遥感图像设计的深度学习架构RS-DRL. Jeon等人基于立体成像中的视差信息构建了高分辨率配准算法。

9、未来发展方向

1、Network Design(网络结构设计)

可考虑从如下方面改进网络结构:

Combining Local and Global Information, 融合局部与全局信息, 较大的感受野能够提供更多丰富的纹理细节, 从而能够生成更加真实 HR 图像.

Combining Low- and High-level Information is crucial for effective image processing. In deep CNNs, the shallower layers are more adept at extracting low-level features such as colors and edges, while deeper layers are better suited for capturing higher-order representations like object recognition. By integrating the low-level details from the lower layers with the high-level textures from the deeper layers, we can achieve HR images with improved quality.

基于情境特定注意力机制(Context-specific Attention),通过利用特定内容的信息来强化关键特征的能力能够使生成的人工智能形象(AI-generated imagery)在细节上更为丰富且具象地呈现。

Lightweight Architectures在现代神经网络体系中占据重要地位,在此背景下如何降低模型体积的同时提高预测速度并维持性能水平仍是一个重要研究方向

upsampling layers, 如何设计出efficient and highly efficient upsampling layers is a valuable research direction, particularly in the context of high magnification image super-resolution problems.

2.Learning Strategies(学习策略)

现有的损失函数主要基于LR、HR和SR图像间的限制性条件以及优化层面的设计。在实际应用中,则常通过赋予不同权重的方式整合这些损失函数。就超分辨率(SR)问题而言,在现有研究中尚未完全确定最优的有效损失函数。因此开展研究工作具有重要意义的是探索LR、HR和SR图像间潜在关联关系并构建更为精确的损失函数模型。

然而,在视觉问题上尽管如此,在SR问题上BN并非最优选择;有时候采用BN可能会导致不佳的效果。因此,在SR领域提出其他有效的规范化技术是必要的。

3.Evaluation Metrics(评价方法)

更为精准的指标,传统的PSNR/SSIM等指标无法全面反映图像的真实视觉感受,MOS评估标准耗时耗力且缺乏可重复性.鉴于此,我们亟需开发更为精确且高效的图像质量评估方法

Blind评估方法(IQA Methods),在当前讨论中的超分辨率(SR)问题都基于LR \rightarrow HR图像对展开研究与分析。然而,在这些领域中获取高质量的数据集极其困难;大多是由人工方式获取的质量提升样本集合与重建结果对比数据集。在此背景下,在评估此类问题时就转化为了反向预测退化过程的问题;因此开发不依赖先验知识的图像质量评价标准具有迫切的需求与重要性

4.Unsupervised Super-resolution(无监督图像超分辨率)

文中提到了一些已有的无监督超分辨率工作:

A. Shocher, N. Cohen, and M. Irani, “无标签高分辨率重建基于深度内部学习算法,” in CVPR, 2018.

A. Bulat, J. Yang, and G. Tzimiropoulos, “To learn image super- resolution, use a gan to learn how to do image degradation first,” in ECCV, 2018.

Y. Yuan et al., "Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks," presented at the CVPRW conference in 2018

D. Ulyanov, A. Vedaldi, and V. Lempitsky, “Deep image prior,” in CVPR, 2018.

目前有许多SR方法主要依赖于Matlab Bicubic算法来生成LR图像,并将这些LR-HR图像对作为训练数据集来构建SR网络。由于这一预设化的退化模型会导致在真实低分辨率图像上的处理效果欠佳,在这一背景下未来研究应当关注无监督条件下不依赖先验知识的超分辨率重建技术。

5.Towards Real-world Scenarios(面向真实场景)

Image super-resolution在实际应用中通常会遇到'模糊的图像降质过程'以及'缺乏LR-HR图像对'等条件限制,在这种情况下现有的超分辨率(SR)算法难以得到广泛应用。

Processing Various Degradation Problems

Domain-specific applications

Multi-scale super-resolution technology has become increasingly important in recent years. While most SR networks are limited to fixed magnification factors, practical applications often face challenges in handling diverse scaling factors. Utilizing a single network for multi-scale image super-resolution offers significant research potential. In 2019 at CVPR, the research group of Peking University introduced Meta-SR, which is a magnification-arbitrary network designed to achieve super-resolution with arbitrary scaling factors. This breakthrough represents the latest advancement in the field.

更多细节,请记得查看原论文。

参考文章

【1】

【2】

【3】使用深度学习来实现超分辨率的介绍

【4】

5

5

5

5

96455660f0fc1c80adefb80ac2a52176.png

关注上方微信公众号后,请加入我们的学习群。这些技术领域包括目标检测、图像分割、自动驾驶、机器人以及面试经验的分享。由于名额有限,机会难得。

全部评论 (0)

还没有任何评论哟~