【论文笔记】Learning Enriched Features for Real Image Restoration and Enhancement
Extracting High-Dimensional Feature Representations for the Restoration and Enhancement of Real-World Images
- Abstract
- Contribution
- Method(MIRNet)
- Result
Abstract
首先介绍高质量图像获取在各个领域的广泛应用及其重要性。传统的CNN架构主要应用于全分辨率或低分辨率图像表达,在空域上表现出良好的效果但在鲁棒性方面存在不足;相比之下,在语义层面表现得较为可靠但在细节定位方面仍有提升空间。针对这些问题,本研究提出了一种新型网络架构:其核心创新点包括以下四个方面:
一是在网络架构中引入了并行多分辨率卷积流以提取多层次特征;
二是通过多分辨流动信息实现各层之间的有效交互;
三是设计了融合空间与时序注意力机制以捕捉场景细节;
四是采用多尺度特征融合模块提升整体性能。
Contribution
该论文提出了一种复杂但有效的图像处理网络架构。主要创新点包括:第一,在保留原始分辨率细节的前提下(即不丢失细节信息),能够获取到多尺度空域下完备集的特征提取方法。第二,在处理过程中通过不断交换(多尺度)信息(即利用不同分辨率的信息),可以从多个分辨率分支中融合信息(即整合这些信息),从而显著提升表达学习能力。第三,在特征融合过程中采用了动态结合变化的感受野(即根据图像变化自动调整感受野大小)和保留不同空域分辨率下的原始特征信息(即不仅保留高分辨率的信息还保留低分辨率的信息)的方法。第四,在网络结构设计上采用了递归残差设计(即通过循环的方式逐步优化信号表示),分解输入信号以简化学习过程,并通过非常深的网络重建(即利用深层网络来恢复丢失的信息)。第五,在实际应用中该网络在去噪、超分、图像增强等领域的数据集上均达到了当前最优水平(SOTA)。
Method(MIRNet)
主要的网络结构如下:

RRG是一种递归残差块,并且构成整个网络主体结构的核心组件。为了优化重建质量,在网络中采用了名为Charbonnier损失函数的技术:
L(\hat{I}, I^{*}) = \sqrt{\begin{Vmatrix} \hat{I} - I^{*} \end{Vmatrix}_F^2 + \varepsilon^2};
这种设计本质上是一种带正则化的L1损失函数(L1 Loss),其在图像处理方面具有较高的稳定性,并且能够更好地恢复细节信息。与之相比,L2损失函数虽然对异常值较为敏感,但在实际应用中可能会导致重建效果受到一定影响。根据之前的文献研究与实验结果表明,相比于L1损失, L2损失在实际应用中表现出更强的人为痕迹特征,而通过个人实验发现,L2损失在人工观察条件下确实存在一些不足之处,然而我们仍然存在一些疑问:是否真的如理论分析所言,L2损失在某些特定场景下表现得更为优秀?基于现有研究结果与个人实验数据,我们得出结论:因此,在图像处理任务中更为适用的是L1损失这一技术方案
回归主题,在这一段中我们重点介绍了多尺度残差块(MRB模块)。在该模块中首先通过下采样操作获得不同尺度特征,并对其中的上采样过程进行了详细说明。值得注意的是,在这里不仅使用了传统的上采样和下采样方法,还引入了卷积操作来实现上采样的功能。这让我有点疑惑:相比传统的单纯上采样和下采样方法,这样的设计增加了哪些具体优势?

随后,在重构特征图时(f^c, f^s),我们采用了基于注意力机制的方法。其中一种是通道注意力机制(channel-wise attention),另一种是空域注意力机制(spatial-wise attention)。与Non-local块不同的是(这里),我们并未对每一对特征点进行关系建模(即关联计算),而是直接通过卷积层学习生成其权重参数。此外,在传统关注机制中存在一个局限性:即难以有效处理图像尺度的变化(如尺寸差异较大的目标检测任务)。为此提出了一种改进方案:通过全局平均池化和全局最大池化操作实现多通道权重共享(multi-scale weight sharing)。这种设计思路借鉴自CBAM模块中的概念(CBAM中的空域注意力模块)。

随后引入了核级选择机制与特征融合模块。多尺度带注意力机制的信息通过上采样模块获得一致的空间维度。再对各尺度提取的信息进行融合,并通过通道注意力机制筛选出最优特征组合。将筛选出的最佳特征图进行叠加汇总以生成最终输出结果。这相当于从不同尺度里选取对最终结果起到关键作用的映射结合,并对应论文中提出的特征间信息交换机制。

Result
最后是对去噪、超分及图像增强测试集的具体应用情况介绍,在论文中可以找到详细结果。从Ablation Study的角度来看, DAU模块确实起到了关键作用,同样值得注意的是, Attention机制在图像处理方面确实发挥了一定的作用,尤其是在提升视觉感知能力方面表现突出。个人认为,如果能够进一步优化Attention机制,能够在有效利用像素间相关性的同时进一步降低计算开销可能会带来不错的效果,但听起来似乎并不那么可行……
