Advertisement

DGLT-Fusion/ A decoupled global–local infrared and visible image fusion transformer

阅读量:

1.摘要

卷积神经网络CNN与生成对抗网络GAN等基于深度学习的方法在图像融合领域展现出显著的性能然而这些方法主要集中在提取局部特征而对学习全局依赖关系关注不足近年来基于Transformer的方法凭借其出色的竞争性长程依赖建模能力取得了令人瞩目的成就但该方法同时处理长程对应关系与短期特征可能导致全局-局部信息交互出现不足为此我们提出了一种解耦型全局-局部红外与可见光图像融合Transformer模型DGLT-Fusion为此我们采用模块化设计策略将整个网络分解为两个独立的学习模块

2.引言

近年来,在计算机视觉领域中应用Transformer技术已取得了显著成效。研究者们基于Transformer架构开发出了一种空间变换机制(Spatio-Transformer融合机制)。他们采用了空间卷积神经网络与 Transformer 并行架构来综合全局与局部特征信息。尽管这些方法展现出一定的性能潜力,在实际应用中仍存在一些局限性:首先,在结合卷积神经网络(CNN)与生成对抗网络(GAN)的方法中,默认情况下忽视了源图像中的长期依赖关系。这是因为卷积神经网络主要关注于局部特征提取这一特性导致的一些复杂且重要的全局纹理信息被遗漏;其次,在采用 Transformer 基础的方法时设计相对复杂,在处理长程对应关系的同时兼顾短期特征提取这一特性会导致全局与局部信息交互不足。

基于解决上述问题并受其启发, 我们开发出一种能够分离空间域与频域特征以实现红外与可见光图像高效融合的新架构(DGLT-Fusion). 相较于专注于提取局部位置信息的传统深度学习模型而言, 我们的 fusion 网络采用了更加灵活的方式去处理各向异性问题, 这一改进使得整体性能有了质的提升

将Transformer模块与局部解耦卷积模块分别用于建模长期依赖性和短期特征。其堆叠结构采用交织设计以促进两种特性间的深度融合。通过其交织结构实现长期依赖性与短期特征的深度融合。此外,在全局解耦Transformer模块中引入稠密连接机制以借鉴DenseNet网络架构并避免由网络复杂性导致的信息丢失。

该工作的主要贡献可以总结如下:

  • 本研究提出了一种解耦的全局-局部红外图像融合Transformer(DGLT-Fusion)模型。通过将长程依赖性和短程特征相结合的方式,在细节纹理信息提取方面取得了显著提升效果。该模型将全局-局部信息学习过程成功分解为独立的Transformer模块和卷积神经网络模块两部分进行处理:全局解耦Transformer块专门建模长程依赖关系特性,而局部解耦卷积块则专注于快速提取短程特征细节信息。两个模块以交错叠层的方式有机整合在一起,在提升整体性能的同时实现了更加灵活的信息交互机制。
  • 在全局解耦Transformer模块中巧妙地引入了密集连接机制设计,在防止网络复杂性带来的长程依赖性信息丢失问题上展现出独特优势。
  • 对比实验表明,在定性和定量评估八种典型图像融合方法的基础上,DGLT-Fusion模型均展现出超越现有方法的性能优势。

3.方法

3.1 Framework overview

所提出的解耦的全局-局部红外和可见光图像融合Transformer(DGLT-Fusion)是一个端到端的融合网络,旨在生成一个包含红外目标和纹理细节的融合图像。令I_i 表示红外图像,I _v 表示可见光图像。DGLT-Fusion 将 I_iI_v 作为输入,并输出融合图像 I_f。DGLT-Fusion 的整体框架如图2所示。

我们采用通道结构对源图像进行初始阶段的融合实现。随后被DGLT网络用于对连接图像的深度融合过程完成这一目标。DGLT网络由多个顺序排列的全局-局部特征提取模块构成每一模块均遵循一致的架构设计特点即交错的设计原理使得其能够有效整合并输出各层次信息最终形成完整的深度学习模型框架如图所示

其中 DGLT 融合网络表示为:

在本研究中,
𝑇 代表长期Transformer模型,
𝐶 则是用于提取短期卷积特征,
𝑁 则代表全局与局部特征提取层的数量。
◦ 这一符号表示将长短期模块串联起来。

3.2. Decoupled global–local feature extraction layer

DGLT-Fusion网络由多个全局-局部特征提取模块依次组合而成,旨在学习并提取图像中的长期依赖关系和局部特征.大多数基于CNN的方法主要关注于从输入图像中获取具有代表性的局部特征信息,并通过预设架构对这些特征进行融合处理.然而,这种方法忽略了输入图像中存在的长期依赖关系这一关键特性,在实际应用中可能导致关键区域的信息在融合过程中被遗漏或弱化.

因此,我们采用了能够学习输入序列长期依赖性的Transformer。

如图2所示,在深度学习框架中,默认设置下的模型存在明显的性能瓶颈。通过对比实验发现,在不同复杂度的数据集上表现差异显著。为了进一步提升模型性能,在现有模型基础上增加了深度聚合机制以提高分类精度。此外,在模型训练过程中发现参数初始化策略对最终结果有重要影响,在此基础之上提出了自适应初始化方法以加速收敛速度和提升模型泛化能力。实验结果表明所提出的改进方案能够有效缓解传统方法存在的不足,并在多个公开数据集上取得了优越的实验效果

值得注意的是,在现有研究中通常会同时提取图像的全局与局部特征并进行融合以构建高效的视觉模型(IFT),然而我们提出了一种解耦式的全局-局部特征提取模块,并采用分阶段的方式分别单独学习这两种类型的具体表征方法

3.3. Long-term transformer block

源图像的全局特征是由一个长期Transformer块来进行学习的。该编码器架构采用了基于标准Transformer架构的设计。值得注意的是,在1D信号处理中,标准Transformer通常采用token作为输入单元。为了有效处理二维图像信号,请参考文献[30]中的方法进行具体操作:

(i)将图像分成一个 𝑚 × 𝑚 的网格,然后将这些块展平成一个序列。

(ii)通过对该序列进行线性投影,获得1D块嵌入序列。

(iii)在添加特定位置嵌入后,块嵌入 Z_0

可以作为Transformer编码器层的输入。图3展示了长期Transformer块的详细架构。在块设计中,我们堆叠了 𝐿 个Transformer编码器以充分学习长期依赖性。从图3可以看出,我们保持了原始的Transformer编码器结构[26],因为DGLT-Fusion中更倾向于其全局信息建模能力。第 𝑙 层Transformer编码器输入序列与输出特征之间的映射函数可以定义为:
![

该文件可通过访问该连接快速查看。

其中Z_l是第𝑙层Transformer编码器输出的结果,𝐿表示Transformer编码器的层数.多头自注意层(𝑀𝑆𝐴)是其基本组件之一,承担着自注意机制的具体计算工作.多层感知器层(𝑀𝐿𝑃)则是Vision Transformer的基本构成单元,其功能相当于卷积神经网络中的全连接层.

其中,X_N,代表第 𝑁 个长期Transformer块的输入;而,T_{N−1},则是经过第 (N-1) 个长期Transformer模块处理后的输出结果;同时,C_{N−1},是由第 (𝑁-1) 个短期卷积模块生成的结果;通过⊕表示模块间的连接操作。

通过将其编码器层的输出进行映射至特征图空间后得到结果矩阵X_L^enc,并将其重塑为独立块后再通过上采样模块整合回完整特征图 \hat{T}_N。其架构由两个逐次可逆卷积模块、一个ReLU激活子网络以及一个上采样模块组成。

3.4. Loss function

基于以往的分析可知

其中 𝛼 作为一个权重参数的基础,在红外图像中考虑其热辐射特性以及可见图像部分纹理特征时,则可以通过像素强度值来进行合理的表征。在此基础上我们引入强度损失函数作为约束项从而实现融合结果既保留更多红外目标特征又不失可见背景细节的特点。基于此我们可以将像素相似性损失的具体计算过程描述如下:首先提取两张图像对应区域的梯度幅值差分向量对每个分量分别进行归一化处理然后计算各分量平方之和最后取平方根得到最终的距离指标作为衡量两组像素间相似程度的标准

其中 𝛽 是一个权重参数,用于约束损失函数的两个分量之间的影响。

同时,在考虑到梯度场能够表征可见图像的纹理细节特征的基础上,在此基础上我们引入了基于梯度损失的计算方法来整合图像纹理信息以实现更加丰富的特征提取效果。在此基础上建立起来的基于多尺度张量的纹理相似性损失组织框架如下所示

基于损失函数的独特架构设计的DGLT-Fusion网络不仅能够捕获丰富的红外成像数据而且还能有效提取关键可见纹理特征。

4. Experimental results and analysis

4.1. Implementation detail

在DGLT-Fusion网络的训练过程中,我们采用了Adam优化器算法,并将学习率设定为1e-4(即0.0001)。实验中采用的小批量尺寸设定为4。为了提高模型性能,在每个长期Transformer块中的Transformer编码器层数被设定为6层。此外,在数据加载方面采取了以下措施:首先,在实验环境中,我们利用一张配备32GB内存的NVIDIA Tesla T4 GPU进行模型训练,并确保所有数据加载操作均基于CPU进行加速;其次,在计算资源分配上采用动态批次策略以平衡硬件利用率与训练效率之间的关系;最后,在分布式训练框架下引入了参数服务器机制以提高模型的扩展性与可维护性。整个算法框架的具体实现细节已详细描述于附录一中。

基于 roadscene 公开发布的数据集 roadscene 为我们提供了涵盖常见道路场景的高质量图像对集合。这些图像不仅具备高分辨率,并且带有丰富的红外细节信息。为了保证统一的数据格式和质量要求,在获取路景图时我们采用了严格的一一对应方法。经过这一系列处理后我们获得了 221 对高质量路景图每副图片均被裁剪成大小一致的 60 × 60 像素样本步长设置为 30 像素从而进一步提升了数据利用率最终生成了 78,305 张样本图片以满足深度学习模型的需求对于测试阶段我们同样采用了 tano dataset 并对其进行了类似的预处理工作该数据集中的图像同样实现了严格的对齐并且特别关注军事场景中的士兵、车辆以及飞机等元素

对于对比方案的选择工作而言

为了定性和定量评估融合结果的质量, 我们首先基于人类视觉系统对融合图像进行主观质量评估, 然后根据四个选定的评估指标客观地估计融合与源图像之间的相关性. 这四个选定的指标包括互信息(MI)、结构相似性指数(SSIM)、峰值信噪比(PSNR)和N𝑎𝑏𝑓. MI用于衡量源图像所携带的信息量. 具体而言, MI越高, 融合后的图像越能保留源图中的关键信息. SSIM则从亮度、对比度和结构三个方面反映图像质量, 其数值越大表明失真程度越低. PSNR则衡量有用信息与噪声的比例, 较高的PSNR值意味着更好的保真度. N𝑎𝑏𝑓则是用于量化融合图像中的噪声水平及伪影现象. 在这四个指标中, MI、SSIM以及PSNR数值越大, 表明融合效果越佳; 相反地, N𝑎𝑏𝑓值越小, 则表示源图与目标图之间的融合效果越好. 为便于比较分析, 在定量研究中我们取N𝑎𝑏𝑓值的负数作为评价标准

4.2. Parameter analysis

首先,我们讨论了𝛼的选择,并将𝛽设置为1。𝛼是平衡总损失函数中像素相似性损失和纹理相似性损失影响的权重参数。我们首先将𝛼设置为0.1、1、10和50,所示的示例融合图像如图4所示。从图4中可以看出,当𝛼 = 0.1和𝛼 = 1时,车辆变得模糊。𝛼 = 50和𝛼 = 10的结果中的车辆具有更多的纹理细节。为了选择确切的值,我们计算了𝛼 = 50和𝛼 = 10的示例图像的定量评估,结果如表1所示。显然,当𝛼 = 10时,融合图像在三个评估指标上表现更好。因此,𝛼的值确定为10。

当𝛼固定为10时,我们进一步探讨𝛽的选择。其中,𝛽被定义为调节两个像素相似性损失组件之间相互影响程度的加权参数。具体而言,在实验中我们设置了不同的Beta值(如0.1、1、10和0.5),旨在考察其对融合效果的不同影响。参考图5所示的结果图,在选取较小的Beta值(如Beta=0.1)时,在一定程度上融合结果接近红外图像特征,并保留了较少可见信息量。反之,在Beta取较大值(如Beta=10)的情况下,则能够较好地保留可见信息内容的同时几乎消除红外信号的影响。值得注意的是,在Beta取中间值(如Beta=1或Beta=0.5)时,在融合结果中同时保留了红外与可见信息特征,并且发现当选择较小的Beta值(如Beta=0.5)时所得图像具有更加丰富的细节纹理特征(例如天空中的线条分布更加清晰)。为了确定一个更为合理的数值范围,在实验中我们还计算了不同Beta取值下的定量评估指标(如表2所示)。综合定性和定量分析结果表明:基于实验效果最佳化的目标要求,在本研究中建议将Beta参数设置为较为适中的数值范围即选择较小时 Beta 值(即 Beta= 0.5)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-deoDTtla-1692346526492)(/Users/zhangkai/Library/Application Support/t

在这里插入图片描述

ypora-user-images/image-20230818160024581.png)]

外部链接中的图片无法正常上传至当前平台,请访问该网站时注意检查是否存在防盗链配置问题。为了确保上传成功,请将图片先保存至本地设备再尝试重新上传至平台。

此外,在此基础上还涉及全局与局部特征提取层数量的选择问题(记作N)。该网络体系由多个依次连接的全局与局部特征提取层构成,在所使用GPU计算能力的基础上将N设定为1至4个层次进行测试分析(参考图6所示的结果分析)。实验发现:当N=1时仅能保留有限的细节纹理信息以及红外信号特性;这种单级全局与局部特征提取层难以充分从源图像中捕获有价值的信息资源;而随着层级数量逐渐增加(即采用多级全局与局部特征提取),最终获得更好的融合效果(见表3)。通过对比实验发现:当取值范围限定于N=3及N=4时,在三个关键评价指标上均呈现出显著提升趋势;因此最终确定该网络体系中全局与局部特征提取层的数量应设为最佳解点即N=4

4.3. Results of ablation analysis

为了证明CNN块和Transformer块内部的密集连接的有效性,以及将Transformer架构引入图像融合网络的优势,我们进行了几项消融实验,并在定性和定量上评估了其性能。这些消融实验包括不包含密集连接短期卷积块的融合网络(称为Without_denseC),不包含密集连接长期Transformer块的融合网络(称为Without_denseT),以及不包含长期Transformer块的融合网络(称为Without_T)。消融实验的视觉结果如图7和图8所示。

在本研究中,我们进行了没有长期Transformer块网络的消融实验研究。选择两个典型图像对进行消融效果评估(如图7所示)。所采用的Transformer架构旨在有效学习输入源图像中的长期依赖关系特征。结果显示,在移除该模型中的Transformer模块后,在第一个测试案例中突出显示的部分(如图7所示),Without_T网络未能有效保持源图像的视觉特征信息。同样地,在第二个测试案例中发现该模型无法捕捉到关键细节特征(如图7所示的道路边缘小线条纹理)

与Without_T网络相比,DGLT网络在融合图像中保留了更多的详细纹理。长凳因其独特的纹理信息可读性强,道路上的线条在结果中也融合得很好。示例图像的定量结果如表4所示。可以看出,DGLT网络在综合性能上具有更好的融合性能。这表明在Transformer块的参与下,我们的融合网络能够检测源图像中的重要全局纹理信息,并导致更好的融合结果。

对未集成短时卷积块及未整合长期Transformer模块的网络体系进行了消融实验研究。具体消融结果可在图8和表5中查看。以图8为例,在前两行展示的是原始图像对比;中间至后三行为各体系融合后的输出效果。观察图8可见,在视觉效果对比中本研究提出的DGLT融合架构展现出显著优势;其输出不仅忠实于原始红外信息特征,在可见光域同样成功捕获了细节纹理特征。

具体来说,在第三行融合的结果未能保留两个源图像中含有丰富的纹理细节。例如,在四幅图像中都无法很好地保留第一幅图中的电线与天空云朵等元素。车辆与建筑物等细节同样未能被其他三幅图很好地捕捉到。值得注意的是,在第四行同样存在源图像中详细信息不足的问题。可以看出,在第一幅结果图中云朵呈现模糊状态

全部评论 (0)

还没有任何评论哟~