Advertisement

图像融合论文阅读:DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion

阅读量:

一、创新点:

第一款专门针对IVIF任务设计的深度学习图像分解系统,在其架构中融合与分离过程均依赖于AE网络的支持

对三个数据集进行了模型测试,并涵盖 TNO、FLIR 和 NIR 这三种类型的数据集。共进行了 132 张图像的测试工作,其中包含了不同环境下的场景——室内与室外,并基于不同光照条件进行测试。其中,在生成融合图像的过程中展现了显著的优势,在清晰度与细节完整性方面表现更为突出。相较于现有最优方法(SOTA),本研究提出的方法展现出显著优势,在生成融合图像的清晰度与细节完整性方面表现更为突出。

二、知识点与收获:

**1.**整体流程

编码器与解码器各自负责图像的分解与重建过程。在训练阶段中,在分解阶段时,损失函数被设计为使两个源图像的背景特征图与细节特征图保持相似或不相似。同时,在重建阶段中,在保持源图像与重建图像之间的像素强度的同时,在可见区域中保持梯度细节。在测试阶段中根据预设的融合策略分别将测试对中的背景特征图与细节特征图进行融合随后利用解码器生成最终融合后的图像。

**2.**网络架构

由编码器与解码器组成的神经网络架构中包含两个主要组件:编码器与解码器。如图1所示,在接收红外或可见光时,在通道方向上连接这两种特征图随后在通道方向上连接这两种特征图随后将在通道方向上进行融合处理以便提取更丰富的表征信息之后通过解码器恢复出原始图像这一设计有助于提高模型对细节信息的捕捉能力同时也能够有效减少计算复杂度为了进一步优化性能我们采用了一种创新的设计方案具体而言是在每次卷积操作中将沿通道相应的中间结果进行融合处理从而使得模型能够更加高效地学习到深层语义表征这一改进不仅能够提升模型的整体性能还能够显著降低训练所需的时间并且在测试阶段表现出更好的鲁棒性

**3.**网络配置

表1详细列出了网络配置方案。编码器与解码器各自拥有四个与三个卷积层结构设计。每一种卷积操作均包含填充操作、紧接着进行的是标准的3×3卷积运算,并配合批量归一化处理,并配以激活函数完成数据传输过程。其中,在编码器的第一层级以及解码器的最后一层级中使用反射填充策略以避免融合图像边缘产生伪影现象的发生。而针对中间的conv3与conv4两个关键层级,则采用了双曲正切函数(tanh)作为其激活机制,在输出背景及细节特征图时展现出较好的表现效果;相比之下,在解码器中的最后一个卷积层级(即conv7)采用了sigmoid激活函数以还原原始图像特征信息;其余各层级之后接有参数修正线性单元(PReLU),用于进一步优化网络性能

**4.**损失函数

在训练阶段, 目标是旨在获取一个对源图象执行双分辨率分析(双分辨率分析将输入图象分割为包含大尺寸像素强度变化的部分以及反映小尺寸变化部分的内容)。此外还获得了具备有效融合图象的能力, 并且能够充分地保持源图象的信息的一个关键组件。该过程如图(a)所示

4.1****图像分解

背景特征图用于提取源图像的关键共同特性(...),而细节特征求异器则负责捕捉红外与可见光图像的独特差异(...)。基于此分析结果可知,在优化目标中应当缩小背景特征求异器之间的间距(...),而相比之下细节特征求异器之间的差异应当显著扩大(...)。基于此原则构建的目标函数定义如下:

其中 BV 和 DV 分别代表可见光图像 V 的背景和细节特征图;而 BI 和 DI 则代表红外图像 I 的背景和细节特征图。Φ(·)作为tanh函数被采用以将间隙限制在区间(−1, 1)之间。

4.2****图像重建

对于图像重建,在有效保持输入图像细节中的亮度值、明暗层次以及图像细节结构的情况下

其中红外图像的输入与重建分别用I 和 I(^\wedge) 表示;可见图像的输入与重建分别用 V 和 V(^\wedge) 表示。 梯度算子 ∇ 用于表示边缘检测运算,并且:

其中变量X及其增强版本X^代表上述输入图像及其重建版本。λ被定义为一个超参数,在优化过程中对其取值范围进行限定以避免模型过拟合现象的发生。此外,在深度学习模型中使用该参数有助于提升模型的泛化能力。其中SSIM即为结构相似度指数,在评价两个图像质量方面具有重要参考价值。这些内容构成了...

使用欧几里得范数来评估原始图像与重建图像在像素级强度的一致性;
SSIM指标用于评估亮度分量、对比度分量以及结构分量之间的差异;
值得注意的是,在实际应用中,默认假设可见区域具有丰富的纹理特征;
为了确保重建后的可见区域在纹理特征上与原图一致,在优化过程中引入了基于梯度的稀疏性惩罚项;
结合上述方程(1)和(2),总损失函数 Ltotal 由以下公式给出:

其中 α1、α2、α3、α4 是调整参数。

**5.**融合策略

经过训练时域数据会被编码成低维特征序列;同时也会生成相应的解码序列。在测试阶段的主要任务是在测试阶段实现红外与可见光图像信息的结合。工作流程如图(b)所示

不同于训练阶段,在测试阶段引入了一个融合层。该融合层分别整合了背景特征图和细节特征图。在公式推导中可以看到:

其中 BF 和 DF 分别表示融合的背景和细节特征图。

考虑以下三种融合策略:

  • 求和方法:

其中符号⊕表示按元素相加。

  • 加权平均法:

其中 γ1 + γ2 = γ3 + γ4 = 1,γi(i = 1, · · ·, 4) 的默认设置均等于0.5。

*L₁范式:基于 ‖B_i(x,y)‖_1‖D_i(x,y)‖_1(其中 i=1,2)生成融合背景与细节特征图的空间活动强度分布。具体而言:

  • B_1B_2 分别代表 BI(Background Image)与 BV(Visible Boundary);
  • D_1D_2 则分别代表 DI(Detail Image)与 DV(Vanishing Vanish);
  • 对应位置 (x,y) 表示原始特征图与其融合后的特征图的空间坐标。
    因此可以引入加权系数来计算其空间位置上的权重值:

其中 ψ(·) 是 3 × 3 框模糊(也称为均值滤波器算子)。因此:

其中 ⊗ 表示逐元素乘法。

三、思考

DIDFuse模型利用精心设计的损失函数有效地分离了源图像中的背景特征与细节特征。该模型使得在两个源图中呈现出相似性的背景特征得以保留,并且通过突出细节区域之间的显著差异实现了信息的有效融合。

DIFFuse系统输出的融合图像包含明锐的目标区域、显著的边界结构以及复杂的纹理特征,并且能够保证高保真度的一致性以及高效的追踪识别能力。

3.尽管DIDFuse在某些特定数据集及应用场景下表现出色,但它仍需进一步验证在复杂非典型光照条件下其泛化能力以及适应性方面的性能表现

该文中所提及的超参数配置属于经验性设置,在不同环境下可能需要进行相应优化以实现最佳效果

虽然DIDFuse提高了细节表现和边界清晰度,在极弱光线或者非常模糊的条件下进行优化仍是一个重要研究方向。

全部评论 (0)

还没有任何评论哟~