Advertisement

Deep Learning for Single Image Super-Resolution: A Brief Review_架构部分

阅读量:

这篇论文是2018年的,所以总结的SR网络截止到2018年,后续会持续更新…

基于SRCNN作为基准模型,在图1所示架构下存在以下三个主要问题:
(a) 双三次插值可能会引入细节平滑效果导致输入估计的图像结构出现偏差;此外这一特性带来了较高的计算开销。(b) 由于上采样核的具体信息未知,在这种情况下不宜采用固定的插值方法来生成输入;相反地应寻求一种能够适应不同上采样核的方法。(c) 由于上采样核的具体信息未知,在这种情况下不宜采用固定的插值方法来生成输入;相反地应寻求一种能够适应不同上采样核的方法。
(b) 在深度方面存在局限性:虽然SRCNN仅有三层结构但更深层的网络可能会带来更好的性能。(c) 设计中未充分考虑如何将损失函数与超分辨率任务相结合。

图1 SRCNN架构

图1

问题(1)解决:
直接使用LR图像作为input → 网络中进行上采样 → deconvolution/transposed convolution
FSRCNN是第一个使用deconvolution层的,如图2(1),给定上采样因子,先对其进行插值,然后用步长为1对其进行卷积,通常插值用的是最近邻插值。有两个优势:(a) 计算量降低,速度增加;(b) 更适合下采样核未知的情况。但仍存在两个问题:(a)deconvolution层无法完全恢复好图像中缺失的信息;(b) 最近邻插值中每个方向上的被上采样的特征被重复使用,产生冗余。
为解决该问题,ESPCN提出一种新的deconvolution方式,如图2(2)。ESPCN扩展了输出特性的通道,用于存储额外的点以提高分辨率,然后重新排列这些点以通过特定的映射标准获得HR输出。由于扩展是在通道维度上进行的,一个较小的内核大小就足够了,且进一步表明,在ESPCN中,将普通但冗余的最近邻插值替换为用零填充子像素的插值后,反卷积层可以简化为亚像素卷积。显然,与最近邻插值相比,这种插值更有效。

2(1)FSRCNN
2(2)ESPCN

图2

问题(2)应对:
两个方案:(a)增加卷积层层数;(b)引入skip-connection
(a)
VDSR是一种采用非常深模型的SR网络架构(如图3所示),其优点在于适用于不同上采样因子的超分辨率任务,并采用了残差结构以提升性能。然而该网络存在大量参数待训练的问题。
针对这一问题,DRCN网络被提出,其架构同样基于图3中的框架(2)。为了改善训练效果,提出了多监督学习策略,不仅通过构建有助于反向传播过程梯度平滑流动的捷径提升了训练效果,还指导所有中间表示对原始高分辨率输出进行重构。然而这一策略在融合过程中存在两个局限性:第一,一旦确定了权重标量,这些参数在不同输入下无法自适应地变化;第二,仅使用一个全局标量对高分辨率输出进行加权,未能充分考虑像素级别的差异性,导致无法对不同区域进行精细区分。目前尚未提出对此网络的进一步优化方案

3(1)VDSR
3(2)DRCN

图3

将ResNet引入图像超分辨率任务中,则提出了SRResNet和DRRN两种网络架构。它们继承了ResNet中的残差块结构(如图4所示)。然而,在这两个网络中采用带BN(Batch Normalization)的残差块是为了实现分类目标,并且其内部表示具有高度抽象性。这些表示对于BN带来的均值偏移并不具备很强的鲁棒性。对于像图像超分辨率这样的输入与输出高度相关的任务而言,在不显著影响收敛性的前提下进行这种知识迁移可能会导致最终性能下降的问题。为此,EDSR通过这种方式解决了上述问题(如图4所示),同时在一定程度上实现了每一层输出特征数量的最大化延伸。此外,在深入理解不同尺度因子之间的SISR过程具有较强相关性的基础上,在已训练好的双倍放大网络基础上成功训练出三倍及四倍放大因子版本(如图4所示)。

4(1)SRResNet
4(2)DRRN
4(3)EDSR
4(4)MDSR

图4

然而残差块在SR重建方面表现尚可获得认可。另有学者认为ResNet架构的优势在于支持特性重用机制而DenseNet则擅长新特性探索路径。基于此提出的SRDensNet与MemNet架构体系如图5所示在此基础上,并将来自各不同模块的特征进行整合形成统一的学习空间从而实现信息的有效融合表现出良好的性能。其中具体而言SRDensNet设计中通过循环利用残差模块替代传统的密集连接并增强了各模块间的关联性而MemNet则通过递归使用残差单元替代常规密集层同时实现了短期间记忆与长期记忆相互补充的目的

5(1)SRDensNet
5(2)MemNet

图5

针对问题(3),我们进行了解决方案的设计:共有7种神经网络架构与传统算法相结合的形式。(a)其中一种关键方式是基于稀疏编码的技术。自然图像中蕴含着稀疏先验特性,在此基础之上构建HR与LR空间的关系模型。该模型在性能上表现出色,并且有坚实的理论基础支撑。为了提升计算效率,在文献研究中SCN方法被提出者建议采用迭代收缩阈值算法(LISTA)。随后同一位研究者又提出了改进型CSCN网络结构,在设计过程中采用了多个SCN模块进行集成(如图6所示)。

图6 CSCN

图6

(b)基于神经网络的学习ensembles:
从集成学习的角度分析可知,在像素级别上对不同目标模型进行自适应性融合能带来更好的效果。这一思路启发下被提出了一个名为MSCN的方法;如图7所示,在其设计中增加了额外的一个模块,并采用CNN架构处理低分辨率(LR)输入数据以便生成多个与高分辨率(HR)形状一致的张量。这些张量可视为对每个原始HR输出施加了自适应元素级权重;通过将神经网络选作原始超分辨率(SR)推断模块并对其估计部分与融合过程进行协同优化能显著提升性能;然而,在现有设计中每一个像素处的所有系数之和并非等于1这一特性可能会导致潜在的问题存在

图7 MSCN

图7

(c)基于分阶段的方法(DEGREE,)结合ResNet的技术基础,将ResNet的递进性与传统的小波重构方法相结合; LapSRN则采用分步的方式依次生成不同分辨率的超分辨率图像(SR);此外,PixelSR则通过条件自回归模型实现逐像素地生成超分辨率图像

8(1)LapSR
8(2)PixelSR
8(3)DEGREE

图8

(d)从LR图像中提取辅助信息 有研究者指出,利用语义先验能有效提升SR性能。具体而言,在DEGREE方法中,它将LR图像中的边缘特征作为额外输入;而在SFT-GAN方法中,则采用了LR图像的语义分割结果作为输入;此外,在SRMD方法中,则将降解程度纳入多因素考虑。

9(1)DEGREE
9(2)SFT-GAN
9(3)SRMD

图9

(e)基于深度神经网络提供的先验重构框架
复杂的先验是高效重构型SISR算法的核心要素之一,在多种情况下都能展现出其适用性。研究表明,在这一领域中存在两种主要的研究方向:第一种方向是通过即插即用的方式提前学习数据并直接完成重建;第二种方向则是利用了深度架构本身所具有的有趣但尚未完全理解的潜在信息。
IRCNN被认为是最早解决该问题的方法(如图10)。在IRCNN中,在低分辨率重建过程中进行了多次反投影迭代操作,并将其与一系列不同噪声水平下的CNN去噪器相结合使用。具体而言,在低分辨率重建过程中进行了多次反投影迭代操作后,并应用这些预训练好的去噪器对图像进行降噪处理;随着反投影次数增加,降噪效果逐渐减弱。

图10 IRCNN

图10

(f)基于内部示例的设计
ZSSR[是首个将深层架构与内部示例学习有效结合的研究。在该方法中,在除了测试数据之外,并不需要额外的数据源;所有的训练块都源自不同退化版本的数据集中的对应区域(如图11所示)。

图11 ZSSR

图11

全部评论 (0)

还没有任何评论哟~