(Single image super-resolution using multi-scale feature enhancement attention residual network)论文阅读

论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0030402621000954
这篇论文主要是提出了多尺度注意力模块。
目前基于卷积神经网络的大多数的方法都是通过更深的网络结构获取更好的特征,但是这种方法导致很高的计算量和复杂的模型。此外,利用不同尺度的特征仍然是一项挑战。而且,双三次插值被大多数作为预处理,这将产生不好的影响在特征提取的过程中。为了解决这些问题,作者提出了一种浅和深的网络,一种多尺度特征提取和注意力模块(为了更好提取低级和高级特征)。为了抑制反卷积的影响,这里选择亚像素卷积作为上采样模块。
引言

通过增加深度来提高模型的性能会带来很多问题。通过 网络的宽度 ,残差学习,反卷积用于上采样称为解决这些问题的备选方案。甚至一些研究者尝试金字塔结构和密集连接。
尽管基于CNN的方法已经获得相当好的效果。但是仍然有一些缺陷。首先,为了更好的利用提取的特征,通常在网络中会添加大量的非线性映射层。这将导致计算量增加,并且模型的性能也不会提升。然后,大多使用双三次插值上采样LR图像,之后传入网络中。这将导致特征提取过程不好的影响,而且会增加计算量和内存。第三,在SR使用反卷积,由于在特征图相邻像素缺乏直接的关系将会导致棋盘效应。
为了解决这些问题,本文提出了基于CNN的算法。该算法包含两个并行的网络,分别是浅网络和深网络。浅网络为了减轻双三次插值的问题,深网络用于残差学习恢复HR的高频信息(包含边缘信息和纹理信息)。两个网络融合在一起用于端到端的训练。
在这个篇论文里,一个多尺度特征提取和注意力模块被提出。主要包含三个部分:1 特征提取 2 上采样 3 图像重建


在特征提取的过程中,最关键的因素是感受野的大小。通常,小的卷积核提取低频信息,大的卷积核提取高频信息。为了获得两种特征,作者提出了多尺度卷积。
注意力机制
注意力机制是模仿人类大脑,选择集中关注某一部分,而忽略另一部分。


作者受 End-to-End Image Super-Resolution via Deep and Shallow Convolutional Networks 启发,才提出这个算法
论文地址 :https://ieeexplore.ieee.org/abstract/document/8666711
代码地址 :https://github.com/MarkPrecursor/EEDS-keras


浅网络

浅网络是三层网络,交错使用ReLU激活函数增加非线性。
第一层卷积层用来非线性特征提取,执行3*3的卷积操作。
第二层卷积层用来上采样,放大到指定大小,使用亚像素卷积层。
第三层卷积层用重建,使用5*5的卷积层。
深网络
深网络可以分为三部分:特征提取,上采样,重建
特征提取

上图是多尺度特征提取和注意力模块

多尺度模块的怎么改进
这篇论文使用不同大小的卷积核并行连接来提取不同大小的特征,有没有其他多尺度模块
这篇论文还使用了注意力机制,主要是衡量多尺度特征和低分辨特征的差别,那么多尺度模块里面添加注意力机制呢
这篇论文里面有多处跳跃连接,这样连接的目的是什么
双路径的网络结构,一般分为深网络和浅网络,分别用于提取深层特征和浅层特征。深层网络特征和浅层网络特征的特征融合方式是什么,有没有可以改进的地方。
上采样模块一般是什么样的,放在什么位置。
网络一般包含几部分
多尺度特征:在提取特征的过程中,卷积核的大小至关重要。小卷积核可以更好的提取低频特征。大的卷积核更好的提取高频特征。
在上图使用四种大小的卷积核。这可以提取低频和高频特征。

注意力模块:


上采样模块
上采样模块被放置在特征提取模块之后,包含三层,卷积核的大小是3*3
实验部分
数据集
训练集:BSD200和T91用来图像训练。为了避免过拟合和增强模型的准确率,采用了数据增强。旋转90,180,270,水平翻转。裁剪96*96大小的图像,然后通过相应的尺度因子进行双三次插值下采样去形成LR。
测试集:BSD100,Set5,Set14
这里训练过程只在Y通道上进行。其他两个通道直接使用双三次插值上采样,然后加入Y通道形成最后的图像。
实验设置
采用mini-batch sgd 作为优化器。batch size 设置为256.权值衰减设置为0.005.动量设置为0.9
除了亚像素卷积其他卷积核使用零均值和标准差为0.01的高斯函数进行初始化。亚像素卷积使用双三次插值进行初始化。


消融实验。验证提出模块的有效性。

