【论文阅读笔记】Accurate Image Super-Resolution Using Very Deep Convolutional Networks
提出背景
在VDSR提出之前,在卷积神经网络(CNN)领域中已被广泛应用于超分辨率图像重建(SISR)任务,并取得了显著的进步。然而,在之前的阶段中所存在的这些模型还存在以下几个主要缺陷:
Context information is limited : SRCNN and similar models primarily rely on local image regions, failing to effectively utilize global context information for image detail restoration.
模型训练收敛缓慢:因网络架构较为简单而导至该模型在训练期间的收敛速率较低,并进而降低了整体训练效率水平。
单一放大倍率:这些模型通常仅适用于单一放大倍率场景,并未能有效处理多种不同放大的情况。
解决方案
通过构建更深的网络架构来增加网络深度 :采用包含20层深度卷积神经网络的设计方案,并增强各向异性空间感知能力。该设计显著提升图像细节恢复的效果。
通过残差学习策略提升训练效率:其高分辨率图像与低分辨率图像之间的差异被模型识别为(即)残差,并用于优化网络参数配置。
多尺度训练方法在实际应用中通过融合不同放大倍率的数据集来优化单一模型架构
模型架构

该网络架构通过重复级联一个卷积层与一个非线性激活层的方式构建。将经过预处理的低分辨率图像通过各层变换得到高分辨率图像。该网络生成一个残差映射图,并将其与预处理后的低分辨率图像叠加以恢复目标图像。在每个卷积层中使用64个过滤器参数,并生成若干特征图用于可视化分析。经过整流线性单元激活后,大部分特征通道的响应值趋近于零。
该网络采用一个包含20层深度的卷积神经网络;其中每一层均由尺寸为3×3的小卷积核构成。除首层与末层之外,剩余各层均配置64个大小为3×3的小卷积核;其中首层用于接收输入图像数据,末 layer则生成残差图像数据。该设计目标在于通过堆叠多组小尺寸卷积滤镜来扩展感受野并获取广泛的空间关联性;从而显著提升了超分辨率重建的效果水平。(高效是因为卷积核比较小)
需要注意的细节:
1.输入图像并不是原始的低分辨率图像,而是插值后的低分辨率图像
2.在卷积前填充0以保证输入的图像大小和输出图像大小相同
模型训练
目标函数:VDSR旨在通过均方误差损失函数优化模型参数。该网络采用均方误差(MSE)作为优化目标的损失函数。针对经过插值处理后的输入低分辨率图像

和对应的真实高分辨率图像

,模型

的输出记为预测的残差图像,由此得到目标函数

在使用高学习率的同时实施梯度截断:考虑到VDSR网络具有20个连续的卷积层,在实际应用中直接使用较高的学习率可能会引发梯度爆炸的问题而导致训练过程中的不稳定性。为了应对这一挑战,在训练过程中作者采用了动态调整裁剪幅度的方法。通过动态地调整裁剪阈值来限制更新步长的变化范围,在每次迭代中根据当前的学习率来决定具体的限制程度。这种方法不仅能够有效避免因较大的步长而导致的不稳定现象,并且能够在保证模型收敛性的前提下提升整体训练效果
实验
实验证明了两件事:
复杂的网络结构在深度分辨率增强(SR)任务中具有重要意义。这些深层网络能够有效提取图像中的丰富细节,并通过更多的非线性层来模拟复杂的数学函数。

- 单个网络方案与多尺度训练方案相比,在性能上表现同样出色,并且相比而言,在参数数量上更为简洁

当train与Test采用相同的缩放因子(如×2, ×2)时,在模型性能方面表现良好。然而,在train与Test采用不同缩放因子(如×2, ×3)的情况下,则会导致模型性能显著下降。这表明仅基于单一尺度训练的网络难以适应不同尺度的数据
当缩放因子较小时(倍率分别为2倍+3倍)、(倍率分别为2倍+4倍)、(倍率分别为2倍+3倍)进行训练所取得的效果与仅采用单一缩放因子进行训练所得出的网络性能相媲美;而随着缩放因子值的增大,在多因子缩放策略下获得的网络性能将显著优于单一缩放因子策略所得到的结果。
总结
VDSR该方法基于深度网络架构和残差学习机制,在单图像超分辨率任务中取得了显著成果。这种方法不仅提升了图像还原的精度水平,并且具备灵活的多尺度适应能力。
