Advertisement

【论文阅读】LENFusion: A Joint Low-Light Enhancement and Fusion Network for Nighttime Infrared and

阅读量:

LENFusion: Integrated Handling of Nighttime Infrared and Visible Image Fusion, a Joint Low-Light Enhancement and Fusion Network (2024TIM)

现有方法存在问题:

受能见度有限这一限制 overnight image fusion 容易受到光谱干扰 在图像场景曝光不均或整体照度较低的情况下 融合结果通常会产生类似于图1(c)的效果 暗环境中的可见信息会被部分遮挡 常见的融合方法依赖于低光增强预处理来提取更多可见特征 这种传统方法虽然有助于提升可见特征 但在特定条件下仍难以满足对融合结果的高度需求 如图1(d)所示 在清晰度 对比度 和细节等方面仍存在进一步优化的空间

我们构建了一个名为LENFusion的创新性框架。该框架通过循环反馈机制实现联合增强与融合。通过基于反馈的引导机制,在融合图像中实现可见区域的协同增强,并促进整体系统的协同优化。

现有夜景图像融合的方法主要依赖于像素强度约束手段而导致纹理模糊现象。图 1(e) 中所展示的 DIVFusion 方法(一种夜景图像融合技术)通过利用解耦灯效网络成功地消除了光照退化现象并显著提升了图像特征的质量。然而这一方法虽然通过强度损失获得了更多红外信号数据但它所带来的弱纹理特性却会在捕捉细节信息时削弱可见光较低亮度区域的重要视觉信息。

在该网络架构中采用双注意力机制进行特征提取,在通道维度上去除了冗余信息,并通过空间关系建模进一步强化特征表达。

  1. 颜色分量受距离限制而难以获取,在夜间条件下色彩信息更加有限的情况下(图1(e)),这使得最佳解决方案的设计难度增加。传统的图像融合方法主要集中在灰度图像处理上。色彩失真问题仍是现代图像融合领域的研究难点之一,在自动驾驶道路检测中对交通标志的颜色等关键信息处理方面尤为重要。现有的融合方法通常将可见光图像分解为YCbCr空间,并在Y通道中进行强度融合,在处理缺乏足够颜色信息的暗可见图像时显示出了明显的局限性:如图1(e)所示,在增强像素强度的同时局部区域呈现灰色状态

基于平衡概念的基础上,我们提出了一种 RGB 通道的无参考颜色失真度指标设计方法。该指标旨在消除暗可见图像中的视觉残留效果。

本文贡献

我们采用反馈循环系统,在图像融合与弱光增强之间建立双向指导关系,并整合所有信息以优化夜景融合效果。

为了应对增强与融合过程中可能出现的局部干扰问题,在RFN系统中整合了特征增强、滤波技术和融合机制。通过结合这些技术手段实现更高的融合性能

我们开发了一种具有创新性的无参考颜色损失技术,以应对从暗可见原始图像中有效保留颜色分量的挑战。

与现有的前沿技术(SOTA)融合方法相比,在夜间红外图像和可见光图像之间进行了深度整合,并以此达到了全面且高质量的场景表征

研究方法

整体框架

Ivis 和 Iir 分别代表暗可见光和红外图像。其初始增强后的可见图像为In vis。随后,在融合过程中实现了再增强与融合,并生成最终的融合图像If。如图2所示……

首先, 亮度调整网络 (LAN) 根据 RGB 通道自动调节以提升可见图像亮度, 在 I en vis 中实现平衡的色度分布. 这种操作通常被称为可见图像的初始增强处理.

其次,在frared以及visible light images中, RFN network employs AE to extract features. Furthermore, the dual-channel attention fusion module (DAFM) integrates the fused features and further enhances them, thereby strengthening the coupling between enhancement and fusion.

最后阶段,亮度反馈网络 (LFN) 对来自参考网络 (RFN) 的I_f进行评估,判断其是否可被视为最佳亮度值。该网络通过计算融合图像在不同光照条件下的概率分布情况,并设计出相应的亮度反馈损失函数L_{\text{loss}}^{\text{lf}}。这一机制有助于约束参考网络(RFN)以确保生成的图像能够有效增强边缘细节特征。

亮度调节网络

黑暗掩盖了暗可见图像的背景信息这一行为,不仅干扰了详细可见图像特征的提取过程,并且进一步导致夜间红外与可见图像融合效果的下降。进而实现了对各通道像素强度的有效均衡提升。该系统通过自适应权重获取模块(AWAM)接收自适应权重特征图φm vis作为输入信号。

然后,
φ m 被划分为八个基于通道数的权重特征图:
φ m ₁,
φ m ₂,
…,
φ m ₈。
通过迭代相乘的方式将权重图与Ivis结合使用,
则可实现对亮度的自适应调节。
在黑暗环境中恢复图像信息时,
则需采用专门设计的放大器来提升亮度水平。
AAN则输出了一幅经过色彩平衡调整后的增强可见度图像I_en^vis.

关于Ivis的空间维度H×W(其中H代表高度维度而W代表宽度维度),通道数C对于灰度图像而言等于1。该研究参考了来源图像中乘法权重图[14]的设计思想,在AWAM网络中采用变分U-Net架构来提取自适应亮度调整权重特征图φm vis。具体而言,在AWAM模块中学习函数f_map_vis用于提取φm_vis特征。这一过程可表示为φm_vis = f_map_vis(Ivis)。如图3所示所示的整体加权特征图生成流程可以表示为:

其中 conv(\cdot) 表示卷积操作,在本研究中采用了 3\times3 大小的内核,并设置了填充和步长均为 1 的参数配置。通过 concatenate 操作完成各通道输出的融合处理。经过计算得到 \phi_{m}^{vis} = \phi_{7}^{vis}。随后,在通道维度上对 \phi_{m}^{vis} 层进行多次分割处理。基于实验结果将输出分解为八个加权特征层,并进行了八次迭代优化过程。对于每个输出层 \phi_{m}^{vis} 的第 \alpha 个特征图的定义如下:

在其中,在通道维度(channel-wise)上进行图像分割的过程中,我们设计了一个名为fen vis(·) 的函数来表示迭代乘法过程中的乘数因子。这个因子被设计成单调递增且可导的形式,在保证相邻像素之间对比度得以保留的同时也能正确实现梯度反向传播过程。为了防止在增强过程中发生数值溢出导致截断问题,并且最大限度地增强低光区域(low-light)位置的可见性得到最大提升,在输入图像中应用归一化处理使其范围限定在[0, 1]区间内。在此框架下定义的迭代函数f en vis(·) 的极点设置为固定值0.382,在此参数设置下能够有效提升强度值较低像素点的空间细节表现能力,并通过逐步优化实现目标函数的最大化求解过程

其中初始可见图像I₀定义为I_{0} = I_{\text{vis}}。在每次迭代中,在线生成当前次可见图像I_n以及对应的迭代函数f_n(\cdot)。在权重计算阶段,在第n次迭代中生成加权图\phi_{m,n}作为权重矩阵\Phi_{\text{vis}}^{(n)}的具体元素值表示方法。特别地,在该权重计算过程中,在第m次子迭代中使用相同的加权系数\phi_{m,\alpha}作为权重矩阵\Phi_{\text{vis}}^{(n)}的具体元素值表示方法。
此外,在整个计算过程中引入了欧拉数e作为重要参数。

损失函数

在增强过程中确保图像边缘信息至关重要。为了降低图像噪声并保证相邻图像块的连续性,在方法中采用了平滑度损失 LTV 作为评价标准。全变分正则化[33]通过有效降低图像噪声,并使像素梯度变化更加平滑,在提升空间平滑度方面发挥了重要作用。输入图像 I 的平滑度损失定义为:

基于增强图像与原始图像中相邻像素的空间一致性的考虑[34],我们提出了空间一致性损失Lspatial及其定义

τ(·) 实现了平均池化操作。其中 K 表示平均池化的窗口大小,并且 K=4。对于(i),它表示以 i 为中心的相邻区域,并包含上、下、左、右四个方向。

挑战在于通过提升图像与原始图像对比度来测量颜色变化。基于统计方差这一指标的启发下,我们提出了一种无参考颜色损失Lcolor。它能够有效防止或避免颜色失真现象。值得注意的是,在计算RGB通道值时使用了L2范数结合平均运算的方法来抑制异常值的影响。Lcolor定义如下:

注意:这个改写版本在保持原文含义的基础上做了以下改动:

  1. 将"为了防止"改为"为了避免"
  2. 将"设置"改为"设定"
  3. 调整了语序
  4. 增加了部分描述性词语以使表述更加详细

其中M设置为8。由于RFN中也有重新增强,因此我们将阈值ε设置为0.5。

LAN损失包括TV损失、空间一致性损失、色彩损失和曝光损失,可以表示为:

网络架构

如图3所示,在本研究中我们采用了AWAM架构并将其设计为七层变分U-Net模式以生成权重图。相较于传统的U-Net架构[35]该方法未进行下采样操作从而避免了信息细节丢失的问题。为了实现这一目标我们采用了七个卷积层均采用具有相同大小(3×3)的卷积核作为基础结构。其中激活函数方面第一至第六层均采用了标准的整流线性单元(ReLU)激活函数以保证输出始终为正值而最后一层则采用了双曲正切激活函数(Tanh)。值得注意的是Tanh函数其输出范围限定在(-1,1)区间内这种设定不仅有助于加快网络收敛速度同时也带来了潜在的问题即当输入值小于零时该函数会输出负数值。根据具体需求负值对应于图像中较暗的区域而正值则对应于明亮区域因此在某些特定条件下我们需要将迭代乘子限定在(0,1)范围内以避免出现超出预期的结果。

再增强和融合网络

通过 RFN 融合并重新强化特征图以生成照明良好的融合图像;由 LAN 的增强图像所呈现的是初始级别的增强效果;与那些主要关注于保留信息完整性的工作不同,在本研究中我们发现可以更加有效地整合融合过程与注意力机制来强化特征图的信息内容;弱背景信号也被成功抑制;非目标热信号如 LLVIP 数据集中的路面热效应 [36] 则被排除在外;正如引言所述,在融合图像中保留暗可见细节更有助于提升性能

如图4所示,I en vis和Iir经过编码器处理后生成特征图φen vi,y和φir.编码器设计有助于LENFusion促进清晰度.通过结合密集连接与Sobel算子提取边缘信息并确保其在融合之前拥有充足的高频细节.随后我们将φen vi,y与φir作为DAFM的输入使用.DAFM由通道与空间注意力模块构成.最后,增强的特征被整合后传递至解码器以输出融合图像I f.

将 I En Vis 和 IIR 转换为 YCbCr 域后 随后处理亮度信息(Y通道)进行后续操作 参考文献[37]中所描述的自适应直方图均衡启发下 我们采用 clahe(·) 函数来提升对比度 该方法将多余的概率均匀分配到其他像素上以防止出现亮度突变 因此它提高了局部对比度 降低了噪声 并保留了更多细节

其中 φir 和 φvi 分别是红外和可见光图像的特征图。 E代表编码器。

DAFMs通过注意力机制计算特征融合所需的权重,并通过其强化红外与可见光特征;通道与空间注意力分别参与整合来自不同通道的信息,并着重于关注信息丰富区域的作用;融合特征 φ f 定义如下:

我们使用全局最大池化(GMP)和最大操作 max(·) 来提取 DAFM 中的权重向量。这一选择是出于两个因素。首先,对于模型设计,编码器使用密集连接和Sobel算子作为resblock来提取边缘信息,使得提取的特征包含丰富的高频信息。它有助于避免由于平均池化而导致的局部信息丢失。其次,为了过滤弱背景信息并保留高频信息,我们结合了最大和软最大操作来进行同步增强和过滤,以减少局部干扰。由于 φ1 = φir 和 φ2 = φvi,ˆ φm i 和 ̃ φm i 分别表示通道注意力的 GMP 和空间注意力的 max(·) 后的特征向量。双注意力融合的过程可以定义为:

生成融合特征 φ f 之后

损失函数

为了使DAFM中融合特征重新增强的过程得到指导, 我们采用了Lssim作为一种损失函数来避免偏离原始图像. Lssim通过结合亮度、对比度以及图像结构等方面来模拟失真情况[38]. 它被定义为

除了先前提到的损失外,我们还采用梯度损失 Lgrad 来捕捉或保持源图像中的细节梯度特征和结构信息。其中,梯度损失 Lgrad 被定义为:

我们致力于促进关键数据的整合,在RFN框架中设计了一个新的损失函数LRFN。其定义如下:

网络架构

如图4所示的RFN架构是一个基于残差学习的特征提取模块。该编码器能够从不同模态的数据中提取出具有256通道的特征图,并通过结合残差连接机制与密集连接技术,实现对梯度信息的有效整合。通过结合残差连接机制与密集连接技术,Resblock模块实现了对梯度信息的有效整合。此外,在整个网络结构中,默认采用了所有卷积操作均采用步长为1且无填充的方式处理。

亮度反馈网络

LFN通过评估输入图像是白天或夜晚的概率,并基于这些概率进行亮度反馈损失的评估。这有助于判断融合图像是否正确曝光,并使得融合图像的亮度信息指导图像增强。

损失函数

为了确保预测结果的准确性, LFN的有效计算出两类概率起到关键作用。基于PIA方法[39], 我们采用了常见的交叉熵损失函数来进行二元分类任务, 该损失值作为优化模型参数的关键指标, 在衡量预测与实际结果之间差距方面发挥了重要作用[40]. 其具体定义如下:

其中y被定义为one-hot编码,在标识输入图像属于白天或夜晚状态时发挥重要作用;其预测概率向量由[ pd , pn]组成,在数值上限定于0至1之间;这种表示方法不仅便于后续计算处理,并且能够清晰地反映模型对不同类别图像的信任程度;其预测概率向量由[ pd , pn]组成,在数值上限定于0至1之间;这种表示方法不仅便于后续计算处理,并且能够清晰地反映模型对不同类别图像的信任程度;亮度反馈损失如下:

在训练过程中,在每一轮迭代中,在优化目标函数时,在考虑各子网络关系时

网络架构

如图5所示, 将融合图像I_f通过LFN处理后得到其输出结果为[p_d, p_n]两个参数值。在Local Response Normalization(LRN)中, 通过使用三个不同尺度的卷积核进行卷积操作以提取多分辨率下的亮度特征;之后, 通过构建一个3×3的卷积层来进行空间信息压缩;最后一步中, 应用全局平均池化(GAP)和全连接(FC)层来进行亮度概率计算;为了进一步提高网络性能, 通过引入带线性激活函数的Leaky ReLU激活函数以引入非线性特性并提升预测精度;同时, 在全连接层中使用ReLU激活函数滤除负值, 并保证预测的概率值始终位于0至1之间

全部评论 (0)

还没有任何评论哟~