【图像增强】Learning Enriched Features for Real Image Restoration and Enhancement 阅读笔记

🌟Paper: Learning Enriched Features for Real Image Restoration and Enhancement
🌟Code: https://github.com/swz30/MIRNet.
📖Abstract
图像修复技术在多个领域发挥着重要作用,在监控、计算摄影、医学成像以及遥感等领域均显示出显著应用价值。近年来,在图像修复任务方面取得显著进展的是卷积神经网络(CNN),相较于传统方法其效果有了质的提升。现有基于CNN的方法多采用全分辨率处理或逐步降分辨率的方式进行运算
In the former scenario, spatial precision is attained at the expense of reduced contextual robustness; conversely, in the latter scenario, semantic reliability is prioritized over compromised spatial accuracy.
本文提出了一种创新性的架构设计,在整体网络空间中实现了高精度的空间表征,并能够从低分辨率表征获取丰富且有深度的上下文信息。该架构的核心模块包括四个关键组件:
(a) 并行多分辨率卷积流网络被设计用于提取不同尺度的特征信息;
(b) 通过优化处理的信息交流机制确保各多分辨率流之间的有效通信;
© 专门用于捕获背景区域中的关键视觉信息的空间与通道注意力机制;
(d) 基于注意的多尺度特征聚合过程被明确设计为融合不同层次的信息
📖Introduction
随着各类设备普遍配备了无处不在的摄像头
图像修复任务就是从被破坏的图像中恢复原始干净图像的艺术。
最近的研究表明,在图像修复与增强领域中,深度学习模型展现出了显著成果。这些模型能够通过大规模数据集训练而获得强大的可概括先验能力。现有的卷积神经网络(CNN)通常会采用以下两种基本架构中的一种:(1)编码器-解码器架构;(2)基于高分辨率特征的一维端到端网络。
Encoder-decoder架构首先分阶段将输入转换为低分辨率特征接着通过逆向过程重建原始高分辨率特征尽管这种方法通过减少空间分辨率来获取更广泛的情境信息然而这种策略导致了细节丢失从而使后续恢复变得尤为困难相比之下单尺度高分辨模型避免了采样操作从而能够生成更具空间精细度的画面尽管如此受限于有限的感受野范围这些网络在编码上下文信息方面仍显不足
Image restoration process is a pixel-wise sensitive procedure, where a mapping between the input and output images needs to be established.
图像修复是一项对位置高度敏感的任务,并要求输入图像与输出图像之间的每个像素都必须一一对应地反应
与现有方法相比,在信息整合方面存在显著差异。
现有方法通常独立处理每个尺度层次,并仅采用单向的信息传递机制。
值得注意的是,在我们的方法中,在每个分辨率级别上我们会逐步融合所有尺度的信息。
这样不仅实现了自上而下的信息传递,并且也支持自下而上的逆向传播。
此外,在知识传递过程中还引入了一种新的选择性内核融合机制。
值得注意的是,在现有的多尺度图像处理方案中,
特征之间的连接通常采用简单的串联或平均方式,
而非从多分辨率分支中动态选择最优表征,
这种区别使得我们的模型在复杂特征关系建模方面具有显著优势。
📖Proposed Method
Multi-scale Residual Block (MRB)
为了实现上下文编码的目的,在现有研究中常用的卷积神经网络(CNN)通常采用了以下架构设计方案:
(a) 在各层/阶段中神经元的感受野保持固定不变
(b) 通过不断减小特征图的空间尺寸来生成具有语义深度的低分辨率特征表示
© 通过从低分辨率表征逐步恢复高分辨率表征来提升模型性能

在本文中提出了一种称为多尺度剩余块(MRB)的技术方案。该技术方案通过保留高分辨率特征来实现精确的空间输出,并且能够同时利用低分辨率数据获取丰富的背景信息。该架构由三个独立且完整的卷积分支并行构成,并使这些分支之间能够进行信息交互。这些分支不仅能够在低分辨率特征的支持下增强高分辨率特征的表示能力,并且反过来也成立。
Selective kernel feature fusion (SKFF)
神经元在视觉皮层中具有根据刺激物调整感受野的基本特性。
这种适应性调整的感受野机制可通过多尺度特征生成(在同一层)并在同一层结合后再进行CNN中的特征聚合与选择。
传统的特征融合方法通常采用串联或求和的方式。
然而这种方法在表达能力上仍显不足。
在MRB框架中我们引入了一种非线性程序它通过自我注意机制融合来自多个分辨率层级的深层特征求取其最优表示并命名为选择性内核特征融合(SKFF)。

SKFF模块通过两种操作对感受野进行动态调整:融合fuse和选择select。
Fuse能够基于多分辨率信息提取出全局特征描述符;Select则利用这些描述符对(不同数据流中的)特征图进行校正,并对其进行整合。

Dual attention unit (DAU)
同时使用了通道注意力和空间注意力。
注意力机制
注意力机制
注意力机制

Residual resizing modules
基于所提出的方法,在卷积神经网络架构中采用了带有跳跃连接的递归残差设计(即具有skip connections),从而有效缓解了在学习过程中信息流动的问题。为了维持架构的整体残差特性,在设计过程中我们引入了残差调整模块,并通过该模块执行下采样操作(如图4a所示)以及上采样操作(如图4b所示)。在MRB架构中,特征图尺寸在整个卷积流程中始终保持恒定。

(emm没怎么懂这一步的目的)
📖Experiments
都是使用相机采集的真实数据集
都是使用相机采集的真实数据集
均基于真实相机采集的数据集
(参数细节见原文)
图像去噪效果:

图像超分辨率效果:

提升蛮多。


Low-light图像增强

没接触过这个task,但是效果看起来真的挺好。

📖Concluding Remarks
传统图像修复与增强技术通常在全局分辨率域内实施;另一种方法则采用编码解码架构。
第一种方法能够较好地保持空间细节信息,在描述图像上下文方面表现更为突出;相比之下,则更适合特定场景下的复杂表征需求。然而,在现有研究中这些方案往往仅能满足其中任何一个需求;而实际场景中的图像修复任务要求综合运用这两种策略才能获得满意效果。本研究引入了一种创新性的架构设计,在主分支专注全分辨率处理的同时辅以一组多支并行分支以增强描述能力;此外我们开发了一种新的学习机制旨在探索各层级特征间的相互作用关系;通过改进型特征融合框架能够在保留原始细节的同时灵活调节感知范围;我们在多个图像修复与增强任务的数据集中实现了最优性能,并且该方法展现出显著的优势。
总体而言,这篇文章似乎是整合了许多现有的技巧,并带有一点杂乱的感觉。然而,在实际应用中其效果依然令人满意。
