DEA-Net(2024 SCI 1区)
DEA-Net:基于细节增强卷积 和内容引导注意力 的单图像去雾技术
摘要
单图像去雾被认为是计算机视觉领域中的一个高度不适定的难题,在观测到的大气散射模糊图像中推断潜在的真实无雾图像一直是研究的核心目标之一。基于深度学习的方法虽然取得了显著进展[1-4],但现有研究仍存在诸多局限性:一方面过于依赖简单的全连接层设计;另一方面难以有效捕捉复杂的空间语义关系以及长程依赖信息[5,6]。为此我们提出了一种创新性的解决方案:通过构建一种自适应的空间重要性图驱动细节增强注意力机制(DEAB),系统地提升了去雾性能[7]。具体而言,在传统的卷积操作框架下:第一层采用了一种新型细节增强卷积(DEConv)结构;第二层则引入了内容引导注意力机制(CGA)。其中:第一层主要负责从低级到高级的空间特征提取;第二层则专注于强化高阶语义表示能力[8]。此外我们还设计了一种基于CGA的混合式融合策略:通过动态权重分配机制实现特征间的最优组合与协同作用[9]。在实验环节我们采用了多个典型的数据集进行了全面评估结果表明:所提出的深度增强注意力网络(DANet)不仅在去雾效果上达到了显著提升其峰值信噪比值超过41dB而且在模型参数规模方面也实现了突破性进展仅使用3.653M的有效参数便超越了目前国际上最前沿的研究成果
Introduction
在雾霾天气下的图像通常会呈现明显的视觉降质现象, 包括对比度下降和色彩扭曲[1]. 这种现象会导致当这些高级视觉系统(如目标检测与语义分割)处理这类图像时会出现性能明显下降的现象. 对于这类系统而言, 对无雾状态的需求具有极高的技术标准与应用价值. 因此, 基于单幅雾霾图的去模糊技术旨在重构清晰明净的观测场景. 作为一项基础性的低级图像恢复问题, 图像去模糊可被视为后续复杂视觉任务的重要组成部分. 在本研究工作中, 我们致力于开发一种高效的算法以消除雾霾影响并从带有多重雾霾叠加的状态中提取出细节信息.
最近,在深度学习快速发展的推动下,在卷积神经网络(CNN)的基础上实现了一种新型去雾技术并展现出出色性能[2]-[6]。传统的基于CNN的方法首先分别估计透射系数矩阵和大气光照,并通过应用大气散射模型(ASM)推导出无雾霾图像作为目标数据集的基础来源之一。通常情况下,在实际应用中这些参数会借助真实值进行监督学习来构建训练数据集。然而,在实际应用中若透射系数矩阵或大气光照估计不够精确,则会对图像恢复效果产生显著负面影响。近年来的一些新型方法[6]、[10]、[11]开始倾向于采用端到端的学习框架直接预测潜在无雾霾图像效果更为理想且前景光明;然而目前仍面临两大关键挑战:
普通卷积的表现相对较低 。先前的研究表明,在去雾算法中应用暗通道先验[12]、[15]等巧妙设计的指导原则能够显著提升去雾效果。然而,在大多数现有去雾方法中[5]、[6]、[16]仅依赖传统的卷积层进行特征提取,并未充分利用这些预先定义的设计原则。相比之下,在完全自由度的情况下(即无任何限制),普通卷积需在庞大的解决方案空间中进行搜索,这在一定程度上会限制其建模能力(或表达能力)。此外,在Transformer方法中[17],“接受域扩展到整个图像区域”的特性能够有效挖掘长距离依赖关系。然而,“需要复杂的训练策略并伴随繁重的超参数调节过程”的代价下,“计算开销大且对GPU内存需求高”。尽管如此,“不可忽视的计算成本问题依然存在”。因此,在这一领域中寻求一种理想的方法:既能融入精心设计的前提条件并将其嵌入到深度神经网络架构中(如CNN),又能显著提升特征提取的能力。
(2) 雾气分布的不均匀特性。
为了解决上述问题,我们提出了一种细节增强注意力块(DEAB)的设计方案

此外,在图像重建领域中提出了一种高精度的** attend-and-refine 块设计 ** ,该设计能够有效提升模型性能并降低计算开销
除了上述改进之外,在本研究中我们对并行卷积中提取出的核权重参数进行重新参数化处理。这一优化模型结构以显著降低计算复杂度,并提升模型训练与推理的速度。通过施加特定约束条件于核权重的同时利用卷积层本身的线性特性性质,在此过程中将原本复杂的五个并行卷积操作成功简化为一个普通的单个卷积层操作。由此提出的方法DEConv能够在保证与传统普通卷积层相同规模下(即相同数量)维持相同的计算成本前提下,在有效提取多样的特征信息的基础上进一步提升去雾效果表现(如图1所示)。以上改进均基于对传统深度学习框架优化的理解与实践。

根据参考文献[6]、[10]、[21]和[22]的研究成果,在本研究中我们参考了文献中的U-Net架构,并主要在低分辨率空间执行耗时的卷积运算以提升效率。这一过程主要依赖于浅层与深层特征之间的融合已被广泛应用,并且这种融合强化了从浅层到深层信息传递路径的有效性。由于它们分别具有不同的接收区域,在深层特征中每个像素对应于浅层特征中的一个像素区域这一特点使得直接采用简单的加法或连接操作无法完美解决现有问题。针对这一挑战我们提出了基于复数几何代数(CGA)改进型mixup方案并设计了一种自适应的空间权重调节机制以实现编码器部分低级特征求精与高级特征求精的有效结合
该方法如图2所示被提出。我们将基于细节增强注意力块(DEAB)开发单图像去雾模型,并命名为DEA-Net;该模型整合了细节增强卷积和内容引导注意力机制。
最后,我们有以下主要贡献:
- 我们开发了一个细节增强卷积(DEConv) ,它整合了并行普通卷积和差分卷积组件。据所知,在此之前尚无类似方法将差分卷积应用于图像去雾问题研究中。通过将先验信息编码至普通卷积层中以提升表示能力和泛化性能,并将DEConv等价转换为普通卷积而不增加额外参数及计算开销。
- 我们提出了一种内容引导注意力机制(CGA) ,能够按层次生成通道特定的空间重要性图(SIMs)。通过利用输入特征对SIMs进行指导生成过程,在每个通道中独立分配独特的SIM图谱以定位关键区域特征信息。这种机制能够有效提取并强调编码器中更为丰富的有用特征信息。
- 通过融合DEConv与CGA组件并采用基于CGA的mixup融合方案 ,我们构建了细节增强注意力网络(DEA-Net)。该模型旨在重建高质量无雾图像 。经过大量测试验证 ,DEA-Net在多个基准数据集上均展现出超越现有去雾算法的卓越性能 ,在保持较高重建质量的同时实现了高效的推理速度 。
本文其余部分的组织结构如下。首先,在本节中回顾了一些基于深度学习技术的去雾方法。然后,在本节中详细阐述了所提出的EDA-Net模型及其原理。接着,在第四节中系统地展示了实验结果及其分析过程。最后,在第五节中对全文进行了总结与展望。
Related Work
Single Image Dehazing
对于单图像去雾问题而言,现有的解决方案大致可分为两大类。一种则是通过分析雾图像与无雾图像之间的统计特性,并将其视为经验先验。另一种则是旨在直接或间接地基于大规模数据集学习映射函数。其中一类方法被称为经验驱动型解决方案,另一类则被归类为大数据导向型方法。
以先验为基础的方法已成为图像脱雾领域的开拓者 。这些方法通常依赖于大气散射模型(ASM) [9 ]以及人工设计的人工初始信息。广为人知的关键性假设有多种表现形式:例如暗通道假说 [
当前 ,随着深度学习的兴起,在数据驱动的方法领域中出现了新的研究方向。尽管如此,在这一领域中出现的传统方法仍面临诸多挑战。早期的数据驱动方法通常基于物理模型进行去雾处理工作。例如,在这一领域中具有重要地位的是DehazeNet [2] 和 MSCNN [7] 。随后 ,AOD-Net [3] 重新定义了ASM ,并同时估计了大气光与透射图这两个关键参数 。随后 ,DCPDN [8] 利用两个独立网络分别对透射图与大气光进行了精确建模 。值得注意的是 ,在实际应用中由于透射图与大气光估计不够精确所带来的累积误差可能导致系统性能有所下降 。
为了避免这种情况【
Difference Convolution
差分卷积技术的起源可追溯至局部二值模式(LBP)[25]这一方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。自Convolutional Neural Networks(CNNs)在计算机视觉领域取得显著成功以来,在文献研究中逐渐发展出多种变体方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。自Convolutional Neural Networks(CNNs)在计算机视觉领域取得显著成功以来,在文献研究中逐渐发展出多种变体方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。
随后,在文献研究中逐渐发展出多种变体方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。
随后,在文献研究中逐渐发展出多种变体方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。
随后,在文献研究中逐渐发展出多种变体方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。
随后,在文献研究中逐渐发展出多种变体方法论框架中,在该框架下通过将局部区域内的像素差异进行编码并转化为一个十进制数值来进行纹理分类任务。
随后,在文献研究中逐渐发展出多种变体方法论框架中,在该 frameworks framework framework framework framework framework framework framework framework framework framework framework framework
Methodology
如图2所示,请看文中框注部分所展示的整体架构体系。该系统主要由编码器模块、特征转换模块以及解码器模块三者构成。其中最为关键的部分即为特征转换模块,在其内部设计了一种叠加型细节增强注意力机制(DEABs)。这种机制能够有效提取并强化图像中的细节信息,并在此基础上完成无雾特性的学习过程。具体而言,在层次结构中分为三级:第一级与第二级均采用了基本端到端残差块(DEB),而第三级则应用了增强型细节增强注意力模块(DEAB)。给定一个雾输入图像(I\in\mathbb{R}^{3\times H\times W})时,请注意文中定义域与值域均为标准三维实数空间矩阵形式的情况下的系统目标是恢复出对应的无雾图像(J\in\mathbb{R}^{3\times H\times W})

Detail-enhanced Convolution
细节增强卷积

在单图像去雾领域中多采用标准卷积层来进行特征提取与学习过程。
在详细阐述所提出的DEConv之前,我们首先介绍差分卷积(DC) 。先前的研究工作[27]-[29]、[31]通常定义为一种基于像素差异的卷积操作(即先计算像素间的差异值,并将这些差异值与核权重进行卷积运算以生成特征图),这种方法旨在增强普通卷积网络在表示能力和泛化性方面的性能(Function)。其中两种典型的实现方式是中心差分卷积(CDC)和角度差分卷积(ADC),它们通过重新组织学习到的核权重矩阵来降低计算开销和内存占用[29]。实验结果表明该方法在边缘检测任务以及面部反欺骗任务中均取得了显著效果。据我们所知,在单图像去雾问题这一领域中这是首次提出利用Difference Convolution解决问题的方法。
注

在本设计中, 普通卷积模块主要负责提取图像强度信息, 而差分卷积模块则专注于提升梯度细节信息(Function). 通过简单的特征融合机制, 我们将提取到的不同层次特征进行叠加操作, 从而生成DEConv输出. 我们认为, 针对像素差异的更为精细计算方法可能会带来更好的图像修复效果, 但这也超出了本文的主要研究方向.
然而,在采用五个并行卷积层进行特征提取时,则会必然导致参数数量及推理时间上的显著增加。为了简化这种并行架构的形式化表示过程,在保留其功能性的同时将其转化为单个标准卷积结构成为我们的目标之一。我们发现,在特定条件下可以实现这一目标:当多个相同尺寸的二维核在相同的输入上以一致步长和填充模式生成输出,并将这些输出相叠加以得到最终结果时,在相应位置上对这些核进行相加即可得到一个等效的整体核。令人惊喜的是,在这种情况下我们的DEConv架构完美契合了这一特性。给定输入特征F_{in}的情况下,则可以通过应用重新参数化技术使得DEConv不仅保留了与常规卷积层相似的时间复杂度和推理速度优势还能生成与之匹配的结果特征F_{out}(此处省略了偏置项的具体描述)。

其中

图5清晰地呈现了重新参数化技术的过程(具体实现细节待补充)。反向传播过程中,在每个卷积层中其梯度更新采用了链式法则。具体而言,在正向传播阶段为其数值被固定后,在对应位置进行求和运算以获得转换后的核权重。值得注意的是该方法同时提升了训练与测试效率因为两个过程均涉及正向传递环节。
相较于传统卷积层而言,在捕捉图像特征方面DEConv能够提供更为丰富且高质量的表示能力. 该方法不仅在参数规模上实现了与普通卷积层相当的效果,并且在推理过程中未增加计算开销及占用内存. 有关进一步探讨的内容,请参阅第四章第1个小节.
Content-guided Attention
内容引导注意力
特征关注机制(FAM)由通道关注模块与空间关注模块构成,并行计算各维度上的注意权重。其中,通道关注模块通过线性变换生成一个矩阵级向量(W_c{\in}\mathbb{R}^{C\times1\times1})用于调整其输出特征强度;而空间关注模块则通过二维卷积操作生成一个二维重要性掩膜(W_s{\in}\mathbb{R}^{H \times W})来指导区域采样。值得注意的是,FAM采用有区别的处理方式对不同通道与像素进行区分,从而显著提升了去雾效果。
然而,在FAM内部的空间注意力机制仅能解决图像级的不均匀雾分布问题而忽略了特征级别的不均匀分布特性。尽管FAM中的通道注意力机制模拟了不同通道间的差异但并未考虑各通道之间的上下文信息关联。随着特征通道数量的增加雾分布信息被有效地编码到相应的特征图中每个通道代表不同的意义这取决于滤波器的作用机制在这种情况下需要针对每个渠道设计专门的空间互相关模型(SIM)来处理这种非均布现象另一个问题是两个注意力模块之间的计算缺乏相互作用机制其中(W_{c})和(W_{s})是按顺序进行计算的并与各自的目标子带进行增强
为此

我们首先按照[19]、[20]计算相应的(W_{c}) 和(W_{s}) 。

其中,
\operatorname{ReLU}(x)=\max(0,x)
是一种典型的激活函数,
\mathcal{C}_{k \times k}(\cdot)
表示使用k\times k尺寸的卷积核所执行的操作,
[\cdot]
代表在通道维度上进行的操作。
具体来说,
X^c_{GAP}, X^s_{GAP}, 和 X^s_{GMP}
分别表示:
- 通过空间维度上的全局平均池化操作提取特征;
- 通过全局平均池化操作在通道维度上提取特征;
- 通过全局最大池化操作在通道维度上提取特征。
为了降低模型复杂度和参数数量,
我们采用了两个连续的1\times1卷积层:
第一个卷积层将通道数目缩减至C_r个(其中r代表降维比例),
随后又将其扩展回原始的C个通道。
具体而言,
我们选择令降维比率为\frac{C}{16},
从而实现了对特征空间的有效压缩与重建。
然后我们通过基本的加法运算 将W_{c}和W_{s}结合在一起,并基于广播机制生成粗略的空间重要性图(SIM)W_{coa}\in \mathbb{R}^{C\times H\times W}。我们通过实验发现,乘积运算同样能实现相似的效果 。

以精细SIMs为目标,在基于输入特征对相应参数进行优化后得到结果W。我们通过交错排列各对应位置来重组W_{coa}和X中的各个通道

在我们的方法中,
通过σ操作符执行sigmoid函数,
通道洗牌操作由CS(⋅)函数实现,
基于k×k尺寸核的分组卷积模块,
具体设置为C个分支。
CGA将每个通道独特地分配给一个SIM,并引导模型聚焦于各通道的关键部位。因此,在特征中编码的丰富且有价值的信息能够被突出显示,并从而显著提升去雾效果。
如图2右侧所示,在不使用CGA的情况下,我们构建了基于所提出的DEConv和CGA细节增强注意力模块(DEAB)。这样处理后,我们获得了细节增强块(DEB)。

CGA-based Mixup Fusion Scheme
基于CGA的混合融合方案
基于文献[6]、[10]、[21]、[22]的研究基础之上, 我们对DEA-Net体系采用了编码器-解码器式的架构设计(亦即U型网络架构)。我们的研究发现, 将编码器与解码器提取出的特征进行融合是一种在去雾及其他低级视觉任务中行之有效的技巧, 如文献所提及的相关研究[6][10][36][37]. 在经历多层特征提取后, 低级特征如边缘与轮廓等虽然在图像恢复过程中发挥着关键作用, 但其影响随着深度层级递进而逐渐减弱。特征融合过程能够显著增强信息传递机制(Function), 这一机制不仅有助于维持特征完整性, 同时也有助于优化梯度反向传播过程的有效性。最简单的实现方法是逐元素相加的操作, 这一策略已被诸多先前的设计所采用[10][11][21]. 然而, 吴等人随后引入了一种更为灵活的自适应mixup策略(Why?)
然而,在该融合方案中存在一个问题在于接受域之间存在不匹配的情况。由于浅层特征与深层特征所编码的信息存在显著差异——这是因为它们具有完全不同的接受域——在深层特征中,每个单独的像素实际上对应着浅层特征中的一个像素区域。因此,在这种情况下仅通过简单的加法、连接操作或混合操作无法有效解决这一问题。
为了解决这一问题

图2(d)呈现了所提出的基于CGA的mixup融合方案的具体细节描述。在本方案中, 我们采用了CGA来进行特征调制的空间权重计算。具体而言, 将编码器产生的低级特性和对应高级特性输入至CGA中进行空间权重的计算过程。同时, 为了缓解梯度消失问题以及简化模型学习流程, 我们在融合模块中引入了跳跃连接机制用于辅助优化信息传递路径。经过上述操作后, 使用一个1\times1卷积层将融合后的中间表示映射至最终表示F_{fuse}

关于基于CGA的mixup融合方案的更多讨论可以在第IV-C3节中找到。
整体架构
通过以下三种技术构建了融合方案:(1)DEConv、(2)CGA以及(3)基于CGA的混合型mixup策略。该模型采用了由DEAB与DEB组成的三层基本模块构成。其下采样过程具体表现为:在普通卷积层的基础上将步幅设置为2,并将输出通道数量增为输入通道数的两倍。上采样过程则可视为对相应下采样操作进行逆向设计。各层的空间维度分别为C \times H \times W、2C\times\frac{H}{2}\times\frac{W}{2}以及4C\times\frac{H}{4}\times\frac{W}{4}等参数关系式。其中,在第一层与第二层中采用的是统一类型的特征提取模块(即DEB),而第三层则引入了另一种新型模块结构(即DEAB)。每一步骤中均会对相应的中间特征数据进行融合处理,并最终完成全尺寸重建目标。此外,在这一过程中我们特意将常数值设定为了32,并且在此基础上实现了对传统方法[6]、[22]所未及的关键优化机制
DEA-Net旨在减小预测的无雾图像J与相应的真实值GT在像素级别上的差异。在我们的实现中,我们采用了L1损失函数(即平均绝对误差)来指导训练过程。

Experiment
1. Datasets and Metrics
我们采用合成数据集与真实世界捕获数据集相结合的方法来训练与测试我们的DEA-Net模型。Realistic Single Image DEhazing (RESIDE) [38] 是一个广受欢迎的数据集合,并包含五个子集合:室内训练集合(ITS)、室外训练集合(OTS)、合成客观测试集合(SOTS)、真实世界任务驱动测试集合(RTTS)以及混合主观测试集合(HSTS)。在训练阶段选择了ITS与OTS数据集合,在测试过程中则采用了SOTS作为评估基准。值得注意的是,在完成对Sotts的划分后,默认将其划分为两类:室内场景测试(SOTS-indoor)与室外场景测试(Sotts-outdoor)。其中ITS集合包含了1399张室内清洁图像样本;对于每张清洁图像样本,则根据物理散射模型生成了10张模拟雾图像样本。针对OTTS,则选取了约29.6万张图像用于其模型的全生命周期训练过程。而针对这两类场景的具体评估工作,则分别由基于ITS生成的模拟雾图像以及基于OTTS的真实世界图像所支撑。此外还引入了Haze4K合成数据集[39] ,该数据集合共计提供了3000张合成型训练图像样本以及1000张合成型验证图像样本;通过这一部分的数据补充工作进一步提升了模型的整体性能表现能力。同时我们还利用了真实世界中的雾图像样本进行验证
信噪比(PSNR)和结构相似性指数(SSIM)[40]被认为是计算机视觉领域评估图像质量的重要指标。它们常用于评估去雾算法的效果,并且在进行公平比较时,我们采用未裁剪像素的RGB彩色图像来计算这些参数。
2. Implementation Details
该模型在单个NVIDIA RTX 3080 Ti GPU上的PyTorch深度学习平台上得以实现。研究团队分别在第1级、第2级和第3级层次上实施了DEB、DEB与DEAB模块化设计。研究者们通过设定块数[N₁, N₂, N₃, N₄, N₅] = [4, 4, 8, 4, 4]来决定各阶段模块数量分配。实验采用Adam [41]优化器完成模型优化,并将动量参数β₁与β₂设为默认值(分别为0.9与0.999),偏移量ε设置为1e-8。初始学习率设定为1e-4,并配合批量大小为16的数据输入策略进行模型训练。为了提高模型泛化能力,在训练过程中采用了余弦退火策略[42]动态调节学习率至最终值1e-6。研究者们从原始图像库中随机提取大小一致的256×256图像片段,并结合多维度数据增强技术展开实验:具体而言,本研究采用了90°/180°/270°旋转以及垂直/水平翻转两种操作手段来提升数据多样性。经过持续训练后,在ITS系统上耗时约5天时间完成对模型参数的更新迭代工作。
3. 消融研究
为了深入验证DEA-Net的有效性及其性能优势,在具体应用中我们系统地研究并评估以下三个关键组件:首先是最关键的部分(1)细节增强卷积(DEConv),其次是最关键的部分(2)内容引导注意力(CGA),最后是基于CGA设计的(3)混合融合方案及其性能评估。在此基础上通过精心设计的一系列消融实验深入分析并验证了每个组件对整体性能的贡献
DEConv
首先,在第3级阶段上部署经典的残差块(RB)[43]作为基础模块。该基线型被命名为Base RB。在去雾领域中常采用的基本模块基础上,在第3级阶段引入了特征注意力块(FAB)。所有超参数均按照原始论文所述的标准设置。将该基线型命名为我们的第二个基准型,并命名为Base FAB
为了提高特征提取的效果, 我们通过将传统结构中的RB与FAB分别替换为包含自适应卷积机制的新结构进行优化. 如图所示, 在原始的RB模块中, 基本卷积模块被提出的一种自适应卷积机制替代, 这一改进使得网络能够更好地捕捉复杂特征. 同时, 在第3级部署的块分别被指示为RB_{w/AD}与FAB_{w/AD}, 并命名为对应的优化架构即Model_RB_A与Model_FAB_A.

为确保比较的公平性,在实验中采用了四个不同模块(包括RB、FAB以及带有可逆卷积增强机制的变体RB_{w/DEConv}和FAB_{w/DEConv}),这些模块在第3级被串联6次,并采用一致的融合策略(即Mixup [5])。简而言之,在实验设计中我们省略了第1级和第2级的具体模块实现细节,并对模型进行了长时期训练(共计50万次迭代),同时设定初始学习率为2 \times 10^{-4}(这一参数设置仅用于消融研究)。所有实验均基于同一测试数据集SOTS-Indoor [38]展开评估。值得注意的是该模型相较于完全训练版本的表现稍逊于表V中的数值但其趋势与基准值具有一致性和意义性。
现有研究中提到的所有模型性能评估结果详细列举于表I中

为了有效解决该问题, 我们通过引入核权重的重新参数化技术, 将DEConv这一关键操作高效地转换为标准3×3卷积操作。表II列出了重新参数化前后Model FAB D在参数数量(# Param.)、浮点运算量(# FLOPs)以及推理时间方面的对比结果。通过对比分析可以看出, 该优化方法显著简化了网络架构而不影响其性能表现。特别值得注意的是, 在优化后模型依然保持了较Base FAB 0.6 dB的优势, 并未增加额外开销。

此外,在深入研究的基础上

CGA
在此基础上,我们深入探讨了所提出的两步式粗到细注意力机制(即CGA)的有效性。如前所述,在此过程中生成通道特定的空间重要性图SIMs,并标识出各通道的关键区域。进一步地,在现有研究中广泛采用的FAM及CBAM均包含顺序通道注意力与空间注意力两种基本组件,在具体实现上存在显著差异。
Model FAB D was subsequently connected at the third stage with a FAB_{w/DEConv} module. Within this module, the FAM architecture was implemented. Subsequently, CGA and CBAM were integrated into the FAB_{w/DEConv} module to produce two distinct variants: FAB_{w/DEConv} \& CGA, referred to as DEAB, and FAB_{w/DEConv} \& CBAM.
FAM或CBAM中所使用的空间注意力机制主要依赖于一个单一的通道来学习SIM(相似性矩阵),以便指示输入特征中具有相对较高通道数量的关键区域。这种做法未能充分考虑每个特征通道的独特属性,并在一定程度上限制了卷积神经网络(CNN)的强大表示能力。正如表I右侧三列所示,在PSNR(信噪比)指标上进行对比分析后发现:模型DEAB分别优于另外两种模型FAB D与FAB D CBAM 1.5 dB和1.01 dB。实验结果表明:基于通道特性的自适应相似性学习(CGA)能够更好地校准各通道间的雾分布差异。
图8 直观地展示了CGA和FAM在学习SIMs方面的差异及其处理效果。从图8e可以看出,FAM从单通道SIM中能够部分反映不均匀雾分布特性,但因为融合了其他轮廓模式的缘故,其精度仍有待提高(例如,红椅区域)。通过将输入特征信息用于SIM生成过程,CGA能够学习出更为精确的空间权重分布。图8f展示随机选取的八个通道对应的SIMs,以及所有SIMs的整体平均图(右下角)。每个通道特有的SIMs会对不同通道的特征采用不同的空间权重设置,这种机制有助于模型更加关注关键区域。图8c与8d则分别展示了相应结果对比图。我们发现,Model FAB D恢复出的拱门区域(用红色矩形标注)仍然存在明显的雾残留现象

CGA-based Mixup Fusion Scheme
为了进一步验证所提出的方法的有效性, 我们采用了混合对比实验. 在此过程中, 我们将模型DEAB设为基准版本, 并以此为基础评估了逐元素加法等方法以及我们的CGA基底mixup方案. 这些新旧方法分别命名为DEAB_A和DEAC_C. 通过实验分析发现, 除了PSNR指标略高于传统方法外, 其他指标表现并无明显优势. 此外, 我们还发现, 混合系数的选择对于最终效果具有重要影响. 最值得注意的是, 提出的方法在PSNR与SSIM两项指标上均优于现有算法

此外,在第1级和第2级部署特征提取模块以进一步优化性能。通过在第1级和第2级部署残差块(RB),并将其命名为Model MS后,在PSNR方面带来了显著提升(提升了2.52 dB)。这意味着即使是在高分辨率空间或全分辨率空间中转换特征也能恢复丢失的信息这一特性对于图像回归任务至关重要。经过在第1级和第2级引入DEB模块后设计而成的最终版本DEA-Net-S,在PSNR指标上实现了39.16 dB的显著提升,在SSIM方面则达到了接近完美的0.9921指标值。其中‘-S’后缀标识该模型是基于消融研究设置训练而来,并作为简化版本存在。对于Model MS与DEA-Net-S配置参数设置为[N₁, N₂, N₃, N₄, N₅]=[3, 3, 6, 3, 3]这一固定序列进行优化配置。值得注意的是考虑到模型复杂度以及避免复杂的超参数调优策略例如降维比例等我们对前两个层级进行了简化处理省略了CGA组件。
Comparisons with SOTA Methods
在本节中,我们将所提出的DEA-Net与DCP[12]、DehazeNet[2]、AOD-Net[3]及GFN[23]等4种早年提出的单图像去雾算法进行对比,同时涵盖FFA-Net[5]、MSBDN[10]、DMT-Net[39],以及GFN23等8种最新的单图像去雾算法(SOTA)进行比较.在此过程中,我们提出了三种基于DEA-网的变体:第一种为消融研究中的DEA-Net-S(即表IV中标注的最终版本),第二种为采用正常配置参数设置的标准DEA-网,第三种则是在标准配置基础上增加了CR正则化处理后的DEA-Net-CR.值得注意的是,CR正则化设置与现有的AECR-NET67设置完全一致.此外,CR不会增加额外的模型参数或推理时间,因为它可以在测试阶段直接移除.对于其他对比算法,若其官方代码或评估结果可通过公开渠道获取,我们将采用这些算法的结果进行公平对比;若无法获取代码或结果,则将采用相同的训练数据集对这些算法进行重新训练以获得一致性的实验结果.
定量分析

实验表格V展示了我们提出的基于深度神经网络的自监督学习框架(DANet)与其他现有最先进的方法在图像去噪任务中的量化评估结果。通过采用自监督学习策略(SSL),我们开发出的DANet及其增强版本(如DANet-CR)不仅能在室内外场景中实现显著去噪效果,在Haze4K数据集上的去噪效果更是达到了最高得分。此外,在多个基准测试集上的实验表明,在相同的计算资源下相比传统的方法能够获得更高的峰值信噪比值(PSNR)以及更高的保真度指标(SSIM)。
此外,在计算效率方面,我们主要通过参数数量(# Param.)、浮点运算数量(# FLOPs)以及运行时间这三个关键指标进行了评估与比较。传统的去雾技术往往伴随着性能大幅下降这一代价而被迫采用较小规模的参数设置。相比之下,在保证较低计算负担的前提下表现出高效计算速度的是本研究提出的方法族——DEA-Nets系列模型中的核心创新成果之一。值得注意的是,在各项评估维度上均表现优异的所有变体模型中任何一个,在同时兼顾参数规模与浮点运算强度方面均能位列第二名以内。这一发现表明,在保证图像复原质量的同时实现了模型复杂度与恢复速度之间的良好权衡效果。特别地,请注意上述各项评估数据均基于256×256分辨率下的彩色图像样本进行采集统计
定性分析
对比实验结果表明,在合成SOTS-Indoor数据集上进行可视化比较

总结
在本研究中,我们开发了一种DEA-Net架构来有效应对单图像去雾这一具有挑战性的任务。具体而言,在常规卷积结构的基础上增加了细节增强模块(DEModule),该模块通过差分卷积技术将局部特征嵌入到常规卷积结构中。与传统方法相比,在表示能力和泛化性能上均有显著提升,并且该模块能够等价地替代普通卷积结构而无需增加额外参数量和计算开销。在此基础上设计了一种基于内容的位置注意力机制(CGAN),该机制能够为每个通道生成独特的空间权重图(SIM)。通过CGAN机制处理后,在此基础上进一步提出了一种融合模块,在保证原有编码器输出特性的同时实现了对解码器高级特征的有效整合。经过大量实验验证表明,在定量评估指标和定性视觉效果两个维度上均展现了所提出的DEA-Net架构相较于现有方法的优势
