Advertisement

图像超分辨率综述:Deep Learning for Image Super-resolution: A Survey 阅读笔记

阅读量:

图像超分辨率领域的研究综述 图像超分辨率领域的研究综述 Reading Notes on a Survey Paper about Deep Learning in Image Super-Resolution

  • Deep Learning for Image Super-resolution: A Survey
    • 简介
    • 问题简介和术语
      • 问题定义
      • 数据集
      • 图像质量评估方法
      • 操作通道

监督式超分技术是一种先进的图像增强方法

复制代码
  * 学习策略
  * * 损失函数
* 批量标准化/批量归一化

  * State-of-the-art 超分辨率模型

* 无监督的超分方法
* 总结

Deep Learning for Image Super-resolution: A Survey

这篇综述文章于今年发布。

简介

本文旨在为近年来发展起来的基于深度学习技术的图像超分辨率方法提供全面概述。现有基于深度学习技术实现图像超分的方法主要可分为三类:监督式超分、无监督式超分以及领域专用型超分。此外,在文章中我们还对几个关键术语进行了阐述说明,包括但不限于用于衡量评估标准中使用的公开数据集及其性能评估指标等。

在这里插入图片描述

问题简介和术语

问题定义

Ix=D(Iy; δ) 其中Ix代表低分辨率图像,Iy代表高分辨率图像,D代表降噪处理流程,而δ则被用作参数来控制降噪水平以及去除噪声的影响。超分辨率重建的过程可以用以下数学表达式来描述:

在这里插入图片描述

Iˆy代表重建图像,F代表超分辨率模型,θ是F中的参数

在这里插入图片描述

上式中k symbolizes a fuzzy kernel, while nς denotes Gaussian additive white noise. The method generates images that are closer to the true image, thereby enhancing the effectiveness of subsequent reconstruction operations.

数据集

下表列举了图像超分辨率任务中常用的各个数据集的详细信息, 包括它们各自的图像数量、平均尺寸以及格式等。

在这里插入图片描述

图像质量评估方法

峰值信噪比PSNR(objective),结构相似性SSIM(objective),平均主观意见分MOS(subjective)

操作通道

常用的图像颜色编码方案主要包括RGB模式以及其变形形式之一YCbCr。其中,在传统编码标准中较为常见的是针对视频流中的亮度(即Y)通道执行特定优化;而现代一些高级算法则更常采取对RGB三色通道实施超分的技术。值得注意的是,在实际应用中选择何种颜色编码方案将直接影响生成结果的质量。

有监督的超分方法

超分网络框架

有监督方法的核心是基于LR-HR图像对的网络架构设计,在网络模型的构建过程中其结构呈现出多样化的特点 本文将详细阐述四种典型的网络架构形式

a.pre-upsampling SR

在直接学习低分辨率与高分辨率图像之间的映射关系时会面临较大难度

在这里插入图片描述

b.Post-upsampling SR

为了优化计算效率的同时充分运用深度学习技术, 该研究者建议在低维空间执行大部分运算, 并于网络尾部实施上采样操作。这一方法的优势在于, 由于特征提取过程因拥有巨额计算开销而局限于低维空间, 因此大大降低了运算量与空间复杂度, 这一架构如今已脱颖而出成为主流选择, 在近期模型中得到了广泛应用。

在这里插入图片描述

c. Progressive upsampling SR

尽管Post-upsampling SR在一定程度上降低了计算难度(降低难度),但对于比例因子较大的情况(4倍、8倍超分),使用Post-upsampling SR方法仍存在较高的学习难度(高难度)。此外,在不同比例因子下需要分别训练独立的SR网络模型(分别训练),这使得无法满足多尺度SR的需求(需求不满足)。Progressive upsampling SR框架下的模型采用了级联CNN结构(采用级联结构),逐步构建高分辨率图像(逐步构建)。在每个阶段中,图像会被上采样到更高分辨率(更高分辨率),LapSRN网络则采用上述框架(采用上述框架)。通过将复杂任务分解为简单步骤(步骤分解),该框架下的模型显著降低了学习难度(降低难度),尤其是在处理大比例因子时表现出较好的学习效果(较好效果)。然而该类模型也面临着模型设计复杂度高、训练稳定性差等问题(问题存在)、以及对建模指导和训练策略要求高等问题(要求高)

在这里插入图片描述

d.Iterative up-and-down Sampling SR

为了更有效地捕捉LR-HR图像对之间的相互依赖关系,在SR领域引入了一种高效的迭代机制被称为反投影方法DBPN就是基于这种核心架构的一个典型代表它通过交错连接上采样层与下采样层并综合所有中间环节的信息来生成最终高分辨率图像在这一框架下设计的模型能够更深入地揭示LR-HR图像对中的潜在联系从而实现更高质量的结果重建然而反投影模块的设计标准仍待进一步完善由于该机制尚处于基于深度学习的超分辨率重建领域的起步阶段其潜力巨大仍需持续深入探索

在这里插入图片描述

上采样方法

采用基于插值的技术手段实现图像放大:包括最近邻插值算法、双线性插值算法以及双三次插值算法。这类上采样技术仅依赖于图像原有的信号数据以提升分辨率,并未增添额外的信息。

基于学习的上采样方法:转置卷积、亚像素卷积

转置卷积
原理如图所示:

在这里插入图片描述

该操作分为两个步骤:首先对输入图片实施插值(通常采用补零的方式),使其尺寸放大;接着对该放大的图片执行卷积运算。以示例图为例:输入图片大小为3×3,在执行补零操作后变为6×6;对该图执行卷积运算将生成目标输出图像是一个6×6的矩阵,并实现了两倍的上采样效果。转置卷积的一个显著问题是会产生棋盘格 artifact。

亚像素卷积
其工作原理如图所示。具体而言,在该框架中首先通过卷积处理输入图像,并生成 s×s 个特征图(其中 s 代表上采样因子)。随后将这 s×s 个特征图进行 reshape 处理,最终得到目标图像。(其中 reshape 方法及其过程 如 图所示)

在这里插入图片描述

网络设计

残差学习

分为全局残差学习和局部残差学习两种。

全局残差学习
在图像是超分辨率(SR)任务中,默认情况下是一种将输入转化为输出的过程,在这种情况下输入与输出之间具有高度的相关性。基于这一观察,在全局残差网络中我们只需关注输出与输入之间的差异即可建立相应的映射关系。这种情况下无需从完整的输入图像重建完整的输出图像是可行的,并且能够有效恢复丢失的部分高频细节信息。此外由于大部分区域的空间频率特性接近于零频点因此在这样的区域范围内模型的学习压力相对较小从而显著降低了模型复杂度和训练难度。

局部残差学习 类似于ResNet中的残差学习方案, shortcut连接的设计能够有效缓解因网络深度增加而产生的模型退化问题, 这种方法不仅降低了训练难度, 并且拓宽了其应用范围, 广泛应用于超分任务领域

在这里插入图片描述

其名称为SRGAN(全真实单图像超分辨率重建方法)是一种基于生成对抗网络(GAN)的强大工具,在图像增强领域取得了显著成果

在这里插入图片描述

RCAN: High-resolution image reconstruction method based on deep residual channel attention network structure

在这里插入图片描述
递归学习

为避免引入过多参数而导致复杂性上升,在超分任务中通过反复运用相同的模块结构进行深度迭代来获取更高级的特征

在这里插入图片描述

通常情况下

MemNet: A Enduring Memory Network of Image Restoration

在这里插入图片描述
多路径学习

多路径学习主要指通过多种途径传播特征信息,并确保每条路径都会执行各自独特的操作步骤。随后将这些操作的结果进行整合处理以实现更好的建模能力。具体而言它主要可分为全局范围内的、局部区域内的以及特定规模下的多路径学习机制。

全局多路径学习主要通过多条不同的传播路径来获取图像的多样特征信息。各传播路径之间能够相互交错作用,并在这一过程中共同完成对图像关键特征的精准捕捉与建模。这种设计不仅显著提升了该方法的学习效能,在实验结果中也展现了其优越的性能表现。(e.g. LapSRN、DSRN)

基于该算法的深度拉普拉斯金字塔网络架构实现了高效的超分辨率重建过程

在这里插入图片描述

局部多路径学习

模块架构如图所示,在该模块内分别使用3×3和5×5大小的卷积层来进行特征提取。随后将输出连接后继续执行相同的操作。. . . 最终完成1×1尺寸的卷积操作。通过这种局部多路径学习机制,在SR模型中实现了多尺度图像特征的有效提取与性能提升。

在这里插入图片描述

CVPR2020中的CSNLN 主要应用了基于局部多路径的学习策略,并成功地将三个通道的信息进行了融合与汇总。其中包含了原始输入的不同层级处理(下层输入)、中间层关注的重要特征(中间层关注)以及上层关注的关键信息(上层关键信息)。

Image Super Resolution incorporating cross-scale non-local attention mechanisms along with exhaustive self-exemplar mining.

在这里插入图片描述

特定尺度的多路径学习

由于不同尺度下的SR模型均需进行类似的特征提取过程,在这一共同需求的基础上,Lim等人提出了一种基于特定规模的学习机制,并将该机制应用于单网络架构以实现多级重建效果。具体而言,这些方法共享了主要组件(即用于特征提取的部分),并在网络两端添加了相应比例预处理模块以及上采样结构(如图所示)。在训练阶段,仅激活并更新与选定比例对应的模块,从而使得所提出的MDSR能够通过共享大部分参数显著减少模型规模的同时,仍能保持与单一分辨率水平相当的整体性能表现,CARN与ProSR等相关研究亦采用了类似的方法进行探索

在这里插入图片描述
稠密连接

(Dense Connections 不知道是不是这样翻译)

自Huang及其团队提出基于稠密块(DenseBlock)的设计以来,在视觉任务领域中"稠密连接"模式的应用愈发广泛。具体而言,在每一个DenseBlock中所处理的一层神经网络单元会整合来自前一层的所有特征图信息,并将自身生成的特征图传递给所有后续单元进行进一步处理。这种连接模式不仅能够有效缓解梯度消失问题、促进信号传播,并推动模型共享有用的特征;同时也能通过使用低增长因子(即每个DenseBlock中新增的通道数量较少)以及对所有输入特征进行融合后进行通道数量缩减的方法来降低模型参数量。

在这里插入图片描述

RDN用于图像超分辨率处理(High-Definition Image Reconstruction)

RDN中的Residual dense block

SRDenseNet: Image Super-Resolution Based on Dense Skip Connections

在这里插入图片描述
注意力机制

基于通道间的相互依赖关系的考量,Hu等人提出了一种名为SENet的方法。该方法通过增强网络的学习能力来处理不同通道之间的特征关联问题。具体而言,在该模块中采用全局平均池化(GAP)技术将每个输入信道压缩为一个通道描述符,并将其输入至两个独立的密集层中以生成各通道对应的权重因子。最近的研究表明,在超分任务中应用通道注意机制能显著提升模型性能,在这一领域Zhang等人提出了RCAN架构并取得了突破性进展。为了深入探索特征间的相关性关系,Dai等人进一步开发了二阶通道注意力(SOCA)模块。该模块通过采用二阶特征统计量替代传统的全局平均池化方法,从而提取了更为精细且更具代表性的特征统计量,进一步提升了模型对复杂模式信息的学习能力。

SENet: Squeeze-and-Excitation Networks

在这里插入图片描述

RCAN: High-Quality Image Super-Resolution Employing Very Deep Residual Channel Attention Networks

RCAN: High-Quality Image Super-Resolution Employing Very Deep Residual Channel Attention Networks

在这里插入图片描述

SAN: 二阶注意力机制网络用于单图像超分辨率

在这里插入图片描述

High-Quality Image Super-Resolution via Cross-Scale Non-local Attention and Comprehensive Self-Example Learning

在这里插入图片描述
高级卷积

由于卷积运算作为深度神经网络的核心组件,在提升模型性能方面发挥着关键作用。研究者们致力于优化这一核心组件以进一步提升模型效能与计算效率,并探索出多种创新方法:包括采用空洞卷(dilated convolutions)、组态卷(grouped convolutions)以及深度可分离卷(depth separable convolutions)等技术手段来改善其性能表现。

学习策略

损失函数

像素(级)损失 pixel loss
分为L1损失和L2损失。

在这里插入图片描述

在早期阶段, 研究者们常常用L2范数来表示模型的损失函数, 但后来他们发现这一方法无法有效地评估重建质量. 相较于L1范数, L2范数会对较大的误差进行严厉惩罚, 对较小误差则更为宽容, 这种特性往往会导致结果呈现过度光滑的特点. 由于PSNR指标紧密关联于"对应像素之间的差异程度", 因此通过最小化这些差异即可实现PSNR的最大值. 随着该指标的重要性日益凸显, 像素级差异度量逐渐成为图像处理领域中被广泛应用的一种关键指标.

内容损失 content loss

评估不同图像通过预训练模型所得特征图之间的差异,并量化评估图像间的感知相似程度

在这里插入图片描述

φ是预先训练好的图像分类网络,如VGG、ResNet;l指该网络的第l层。

为了确保重建图像在视觉感知上与目标图像保持一致的一致性特征(包括色彩丰富度、纹理复杂性和对比鲜明度),我们将图像的纹理特征视为各特征通道间的相互关联性

对抗训练
在生成对抗网络中,判别器用于识别输入信号的真实性,而生成器则努力生成看似真实的信号以欺骗判别器识别。

在这里插入图片描述

循环一致性损失
该损失被应用于cycleGAN中,在其设计目标中旨在确保生成器输出的所有图像都应保留原始图像的关键特征特性,在超分场景中进行处理时,在实际应用中需要考虑以下几点:首先,在超分任务中需要考虑的是高清晰度重建效果;其次,在实际应用过程中需要考虑到数据预处理以及模型训练的具体实现细节;最后,在评估模型性能时需要引入专门的设计目标函数来进行衡量评估指标之间的关系等关键问题

在这里插入图片描述

采用一种称为总变化损失(CTV)的方法来减少生成图像中的噪声;计算方式基于相邻像素之间的绝对差异之和

在这里插入图片描述
批量标准化/批量归一化

为了加速训练并提升深层神经网络的稳定性,Sergey等人提出了批量归一化方法(BN)以缓解网络内部的变化偏差问题。具体而言,该方法对每个小批量执行归一化处理,并对每个通道估计并学习了两个额外的转换参数,从而保持了模型的表现力。值得注意的是,Lim等人指出,在EDSR框架中采用BN会导致图像比例信息丢失,并削弱了模型对范围变化的适应能力。由于批归一化层与 preceding卷积层所消耗相同的内存资源,因此移除批归一化层后可显著降低GPU内存占用需求。与 baseline对比实验表明,相较于SRResNet结构,去除了批归一化层后的新架构能够在有限计算资源下实现大约40%的记忆效率提升。因此,基于现有计算条件构建性能更为优越的大规模ResNet结构成为可能

在这里插入图片描述

State-of-the-art 超分辨率模型

下表总结了一些有代表性的模型及其关键策略。

在这里插入图片描述

无监督的超分方法

现有研究主要集中在基于匹配的低分辨率(LR)到高分辨率(HR)图像对的学习方法上。然而由于同一场景中不同分辨率的数据获取具有挑战性 常用的方法是先生成低质量版本作为对应的低分辨率图 为此近年来研究人员逐渐转向无监督的方法 这种方法仅依赖于单个模态的数据进行训练 最终使得生成网络能够更好地适应复杂的实际应用需求

基于单个图像内部的图像统计信息

ZSSR: 基于深度内部学习的零样本高分辨率重建

ZSSR有以下几点贡献:

(1)第一篇采用无监督学习框架构建了CNN超分辨率算法;
(2)该模型在非理想条件下具有图像处理能力;
(3)该模型无需预训练过程且具有较低计算开销;
(4)该模型不受输入输出尺寸比限制且适用于任意超分辨率任务。

下面这篇是CVPR2020中的一篇无监督超分文章,数据集为非配对的LR、HR,同时加入了CycleGAN的思想。

A study on Unpaired Image Super-Resolution techniques employing Pseudo-Supervision for enhanced image restoration.

在这里插入图片描述

总结

本文对图像超分辨率进行了系统深入的分析,并提出了未来研究的重点领域。

1.网络设计

Combining Local and Global Information. 结合局部和全局信息

I Integrating Low-level and High-level Information. They use fusion techniques to integrate low-frequency information, such as colors, with high-frequency features extracted by deep CNNs.

Context-specific Attention.

在实际应用中,在保证系统的性能需求的前提下, 高度复杂的模型结构难以被广泛接受.

Up-sampling Approaches上采样方法。如何实现高效率和高效果的上采样仍需深入研究,在特定的比例因子情况下。

2.学习策略

该研究中的现有模型主要基于多尺度特征提取方法,并通过引入残差学习技术提升网络性能,在目标检测领域展现出良好的推广价值与实用性。

BN然而BN在视觉任务中得到了广泛应用,并显著提升了训练速度和性能;对于超分辨率处理而言其表现欠佳因此值得研究的是其他的高效归一化方法

3. 评价方法
目前广泛应用于超分辨率(SR)领域的大多数盲域图像质量评估(Blind IQA)指标均基于参考方法构建而成。然而由于获取高质量数据集较为困难 常用的评价数据集会通过人为降低图像质量的方式来模拟实际应用环境 在这种背景下 我们的评估任务实际上相当于对预定义降级过程进行逆运算 因此开发盲域图像质量评估方法仍面临较大的需求。

4.无监督超分辨率

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~