论文笔记:FFA-Net Feature Fusion Attention Network for Single Image Dehazing
FFA-Net是一种端到端特征融合注意力网络,用于直接恢复无雾图像。该模型由三个关键模块组成:特征注意(Feature Attention, FA)模块、局部残差学习(Local Residual Learning, LRL)和特征融合注意(Feature Fusion Attention, FFA)结构。FA模块结合了通道注意和像素注意机制,以处理不同类型的信息并提供灵活性。LRL允许网络绕过薄雾区域和低频信息,而FFA结构通过自适应学习不同层次特征的权重,保留浅层信息并将其传递到深层。实验结果表明,FFA-Net在PSNR和SSIM指标上均优于现有方法,且在主观评估中表现优异。
摘要
作者开发了一种端到端的特征融合注意力网络(FFA-Net),该网络能够有效恢复无雾图像。主要由三个关键模块构成,其中感知器网络用于提取图像细节,注意力机制网络负责关注图像关键区域,特征融合模块则整合多模态信息。
我们提出了一种新的特征注意模块(Feature Attention,FA),该模块整合了通道注意机制与像素注意机制,考虑到不同宽度通道所携带的加权信息不同,且不同图像像素上的雾霾分布不均匀。FA对不同特征和像素的处理具有不平等性,这为处理不同类型的信息提供了额外的灵活性,显著提升了CNN的表达能力。
(2)基本块结构主要由局部残差学习和特征注意力机制构成,通过多级局部残差连接,局部残差学习能够有效过滤掉不重要的信息,如薄雾区域或低频区域,从而让主网络架构能够聚焦于更有效的信息。
(3)基于不同层次特征融合的FFA结构,其特征权重通过从特征注意(FA)模块中学习实现动态调整,赋予重要特征更高的权重。该结构不仅保留了浅层特征信息,还能将其有效地传递到深层结构中。
1. Introduction
单图像去雾(Single image dehazing)的目标是从带雾霾的输入图像中恢复或还原出清晰的图像。基于物理散射理论,雾化过程的数学表达式通常被定义为:

其中,I(z)和J(z)分别表示雾化图像和干净图像,A是全球大气光照(global atmosphere light),t(x)是透射图(transmission map)。透射图可以表示为t(z) = e^{-\beta d(z)},其中d(z)和\beta分别表示场景深度和大气散射参数。基于模糊图像I(z),除雾算法通常旨在估计t(z)和A,公式(1)同样可以表示为:

- 与传统方法相比,深度学习方法试图直接对中间传输图(intermediate transmission map)或最终无霾图像( the final haze-free image)进行回归。 随着大数据的应用,它们以健壮性获得了优异的性能。本文提出了一种新的用于单图像去雾的端到端特征融合网络(简称FFA网络)。
- 以前基于CNN的图像去叠网络对通道和像素特征的处理是一样的,但是薄雾在图像中的分布是不均匀的,薄雾的权重应该与厚雾区域像素的权重明显不同。DCP还发现,在至少一个颜色(RGB)通道中,一些像素具有非常低的强度是非常常见的,这进一步说明了不同的通道特征具有完全不同的加权信息。
- 作者进一步设计了一个新颖的特征注意力(Feature Attention, FA)模块。FA模块在信道和像素特征上分别结合了信道注意力机制和像素注意力机制。 FA不平等地处理不同的特征和像素,这可以在处理不同类型的信息时提供额外的灵活性。
- ResNet的出现使得训练一个非常深的网络成为可能。 我们采用跳过连接(skip connection)的思想和t特征注意力机制(feature attention),设计了一个由多个局部残差学习跳过连接和特征注意力组成的基本块。一方面,局部残差学习可以通过多个局部残差学习绕过薄雾区域和低频信息,使主网络学习到更多有用信息 。而信道注意力机制(channel attention)进一步提高了FFA网络的性能。
1.2 本文的贡献是以下四点:
(1)开发了一种新的用于单图像去雾的端到端特征融合注意力网络FFA网络。 FFA网络在很大程度上显著优于以往最先进的图像去雾方法,尤其在雾度大、纹理细节丰富的区域表现出色。如图一和图八所示。
(2)该模块引入了一种创新的特征注意力机制(Feature Attention, FA),整合了通道注意力和像素注意力。在处理不同类型信息的过程中,该模块展示了额外的灵活性,并特别关注了浓雾像素和具有重要性的通道信息。
该方法设计了一个由局部残差学习和特征注意力(Feature Attention, FA)构成的基本模块。通过多跳连接,局部残差学习能够绕过薄雾区域和低频信息。特征注意力(Feature Attention, FA)进一步增强了FFA网络的表现。
(4)提出了一种基于注意力的特征融合(FFA)模型,该模型通过引入注意力机制,能够有效保留浅层特征信息并传递到深层层次。此外,该模型不仅能够整合所有特征信息,还能够根据不同层次特征的重要性动态调整其权重分配。

图一
2. Related Work
3. Fusion Feature Attention Network (FFA-Net)
如图二所示,特征融合注意力网络FFA-Net 的输入为含有雾气的图像,该图像经由浅层特征提取模块传递至N组具有多个跳跃连接的群结构。各组结构输出的特征图通过作者所提出的特征注意模块进行融合,最终各模块输出的特征信息依次传递至重构模块与全局残差学习结构,从而生成无雾输出。此外,每组结构均将B个基本块结构与局部残差学习相结合,其中每个基本块均集成跳跃连接和特征注意(FA)模块。FA由通道注意模块和像素注意模块共同构成的注意机制结构。

图二
3.1 Feature Attention(FA)
*大多数图像去雾网络采用统一的通道和像素特征处理方式,无法有效处理雾度分布不均匀以及加权通道的图像。本文所提出的特征注意力机制(Feature Attention, FA)(如图3)由通道注意力模块和像素注意力模块(Channel Attention Module和Pixel Attention Module)组成,能够提供处理不同类型的输入信息的额外灵活性。

图三
FA对不同特征和像素区域的处理是非均等的,这不仅在处理不同类型的信息时展现出更大的灵活性,还能够提升CNNs在表示能力方面的性能。
主要的技术环节在于为每个通道和像素特征分别赋予独特的权重系数。我们的解决方案是通过创新性地引入多通道注意力机制,为每个通道和像素特征特征赋予其独特的权重系数,从而实现对不同通道和像素特征的精准调控。
3.1.1 Channel Attention (CA)
按照DCP理论,通道注意力(channel attention)主要聚焦于不同通道特征所具有的独特加权信息。首先地,通过全局平均池化(average pooling)操作,能够有效地提取全局空间信息并将其转换为通道描述符。

其中,X_c(i,j)表示位置(i,j)处的第c个通道X_c的值,H_p是全局池化操作。经过全局池化操作后,特征图的形状从C×H×W调整为C×1×1。通过两个卷积层和sigmoid激活函数,ReLu激活函数的应用,可以得到不同通道的权重系数。

其中,σ分别表示Sigmoid函数,而δ分别表示ReLu函数。最后,我们通过逐元素计算的方式,将输入F_c与通道CA_c的权重进行相乘。

3.1.2 Pixel Attention (PA)
由于不同图像像素上的雾度分布不均匀,作者设计了一种像素注意(PA)模块,使其能够更专注于图像中的关键特征。例如,具有较高雾度的像素和高频图像区域。
类似于CA,我们将输入F ∗(CA的输出)直接输入到两个带有ReLu和Sigmoid激活函数的卷积层中,通过两个带有ReLu和Sigmoid激活函数的卷积层进行处理。输出的形状由C×H×W转变为1×H×W。

在处理阶段,我们对输入F^∗和PA执行逐元素相乘操作,其中,\tilde{F}代表Future Attention(FA)模块的输出结果。

为了更直观地展示特征注意力机制的有效性,作者通过生成通道级别和像素级别的特征权重图实现了对特征映射的可视化分析。通过分析,我们能够观察到在不同权重下自适应地提取特征,从而更清晰地理解特征注意力机制的工作原理。
图四呈现了复杂程度较高的含雾图像中具有显著权重的边缘区域及其纹理特征。通过像素注意力(PA)机制,FFA网络得以聚焦于高频和密集的像素区域,从而显著提升了图像恢复效果。

图四
图五展示了3×64尺寸的图像,其中三行对应于在channel方向上输出的三个组架构的特征映射权重。该图像表明,不同特征根据自身特征动态调整了各自的权重。

图五
3.2 Basic Block Structure
如图六所示,基本块结构包含残差学习机制和注意力机制(FA),其中残差学习机制通过多级残差连接避开对精度影响较小的细节,主网络则聚焦于提取关键特征信息。

图六
实验数据显示,该结构能够进一步提升网络性能和训练稳定性,同时增强模型的稳定性。通过图七可以看出局部残差学习的效果。

图七
3.3 Group Architecture and Global Residual Learning
该组架构通过融合B基本块结构和跳过连接模块实现了网络性能的显著提升。通过连续的B块设计,FFA网络的深度和表现力得到了显著增强。跳过连接模块有效缓解了FFA -Net在训练过程中遇到的挑战。在FFA网络的末尾部分,我们通过施加两层卷积网络和一个长全局残差学习模块来补充和修复细节,最终恢复了所需的无雾图像。
3.4 Feature Fusion Attention
首先,通过将G组结构(G Group Architectures)输出的所有特征映射在通道方向进行连接,可以实现特征的有效整合。此外,通过自适应学习权重进行特征融合,能够更好地保留低层信息并将其传递到深层结构。基于权重机制的引导,FFA网络能够更加关注厚雾区、高频纹理和色彩保真度等关键信息。
3.5 Loss Function
均方误差(Mean Squared Error,MSE)或L2损失是目前应用最广泛的一种单图像去雾损失函数。然而,Lim等人指出,在PSNR和SSIM指标方面,许多使用L1损失的图像恢复任务的训练性能优于使用L2损失的方法。遵循这一策略,本文采用简单的L1损失作为默认选择。尽管许多去雾算法采用了感知损失( perceptual loss)和GAN损失,但我们选择优化L1损失。

其中,\Theta 表示FFA-Net的参数, I_{gt}表示ground truth,I_{haze}表示输入。
4. Experiments
4.1 Datasets and Metrics
Li等人(2018)基于深度和立体视觉数据构建了图像去雾基准RESIDE,该基准整合了NYU Depth V2(Silberman, 2012)和Middlebury Stereo数据集(Scharstein和Szeliski, 2003)的资源。
该室内训练套件包含1399张清晰图像,以及由每张清晰图像生成的13990张模糊图像。其整体大气亮度范围为0.8至1.0,散射参数的范围为0.04至0.2。为了与现有最新方法进行对比,我们在综合目标测试集(SOTS)中采用了PSNR和SSIM指标,并进行了全面的比较测试。该测试集包含了500张室内的图像和500张室外的图像。此外,我们还将在“具有雾的现实图像”上测试结果,以进行主观评估。
4.2 Training Settings
基于RGB通道,我们采用FFA-Net模型,并通过随机旋转90°、180°、270°及水平翻转等数据增强技术,显著提升了模型的泛化能力。随后,我们选取了两个240×240像素的有雾图像块,作为FFA-Net的输入数据。整个网络分别对室内和室外图像进行了5×10^5和1×10^6次训练迭代。在优化过程中,我们采用Adam优化器,并将动量参数β1和β2分别设置为0.9和0.999的默认值。
基于余弦退火策略(He et al.2019),我们设定初始学习率为1×10^4,通过遵循余弦函数将学习率逐步降至0。假设总的批次数量为T,初始学习率为η,则在批次t处的学习率η_t的计算式为:

PytTorch,使用RTX 2080Ti GPU来实现模型。
4.3 Results on RESIDE Dataset
在本节中,我们采用定量与定性分析的方式,对FFA-Net与现有最新图像去雾算法进行系统性对比。通过分析DCP、AOD-Net、DehazeNet、GCANet等四种新型除雾算法的性能特点,我们得出了全面的比较结果,具体数据详见表1。

可以看出,我们提出的一种名为FFA-Net的新方法在多个性能指标上均显著优于现有四种方法。在图像质量评估方面,该方法表现同样出色。此外,图八展示了不同方法在视觉效果上的对比结果,这有助于从定性角度进行分析和比较。


图八
室内与室外实验结果:其中,前三行展示了室内实验结果,后三行则呈现了室外实验结果。
通过观察,可以发现:
DCP因预设的先验模型而导致严重的颜色失真问题,最终导致图像深度细节的丢失。相比之下,AOD-Net无法彻底消除雾霾影响,其输出图像普遍偏暗。与真实场景相比,Dehazenet所涵盖的图像亮度过高。
Real and image results :我们的网络可以神奇地发现:
- 在第1行图像中,远处隐约可见一座塔楼。
- 关键的是,我们的网络结果几乎完全与真实场景信息一致,例如在第2行中显示的带有纹理和雨滴的潮湿路面。
- 然而,观察到第2行的GCANet结果的建筑物表面上不存在斑点。相比之下,其他网络恢复的图像并不令人满意。相比之下,我们的网络在图像细节和色彩保真度的逼真的表现上具有明显优势。
5. Ablation Analysis
为了进一步验证FFA-Net体系结构的优势,我们对所提出的FFA-Net的各个组成部分进行了消融分析。我们重点关注了以下三个关键因素:首先,FA模块的表现;其次,结合局部残差学习(LRL)与FA后的效果;最后,FFA结构的特性。通过3×10^5步的训练,我们将图像分割为48×48的尺寸,其余参数设置与原实现方案保持一致。实验结果如表2所示。

通过充分应用本文中的实现细节,PSNR值将显著提升至35.77dB。
