Advertisement

【IVIF】CS2Fusion: Contrastive learning for Self-Supervised infrared and visible image fusion by estim

阅读量:

该研究发表于顶级期刊Information fusion技术领域。然而,在该研究中并未提供相应的代码实现。经检测结果表明该研究被判定为'shi'(希望作者尽快看到我的反馈并给予指导)。

1、摘要/Motivation

在红外与可见光图像融合(IVIF)领域中,在基于图象级别的信息构建先验知识约束时往往会忽视源图象间的统一性和差异性。为此, 我们构建了基于对比学习框架下的自监督融合模型CS2Fusion: 将红外图象作为可见光图象的信息补充, 并发展出补偿感知网络(CPN), 通过推估红外图象的特征补充图来引导主体网络生成综合图象。该方法的核心思路基于以下观察发现:

Motivation

(1) 不同模态间的语义信息普遍存在明显的差别;
(2) 然而同一模态下的特征之间具有一定的自相关性和显著性分布特征。基于这一观察结果,在构建正负对的过程中,在对比度损失得到合理控制的前提下,在骨干网络中融合自相关与显著性操作(SSO),从而生成多个负样本实例,在这一基础上有效提升了模型对红外图像与可见光图像互补特性的学习能力;此外还引入了自我监督学习机制,在图像重建过程中通过随机裁剪可见光图像中的局部区域来模拟视觉障碍效应;这种操作不仅能够提供丰富的场景视角信息,并能主动关注改善层间细节信息的变化情况;最终能够整合更为全面的空间结构信息以实现模型性能的持续提升;值得注意的是:作为核心组件之一的 CPN 仅在训练阶段使用 ,其主要作用是通过自我监督的方式驱动骨干网络完成深度互易感知任务(IVIF)的过程。

域间特征

域间特性

2、引言总结

在缺乏 ground truth 的情况下,在某些方法中会依照经典的 IVIF 定义(即融合图像需保留红外图像中的高对比度区域以及可见光图像中的背景纹理特征)[4-6] 对训练数据集进行人工注标工作。然而,在此定义下注标的数据显示出较大的主观性差异,并且注标成本较高程度上限制了训练数据集的整体规模(如图 1(a)和(b)所示)。

在这里插入图片描述

a和b分别是STDFusion和CoCoNet的结果

某些方法避免依赖人工标注手段而直接利用源图像固有的属性特征包括显著性信息[2,7,8]语义信息[9,10]以及光照信息[11]作为软标签来约束模型优化过程从而提高融合效果.然而将它们作为软标签用于约束模型优化过程可能会削弱模型感知互补特征的能力进而导致特征退化如图 1© (d) 和 (e) 所展示.此外一些基于图像级融合的方法采用经典的融合标准来激励网络自主学习源图像的特性但这会导致融合结果中经常出现的整体信息衰减具体表现为背景纹理以及高亮目标表现欠佳[12-15].虽然基于图像级的信息能够部分缓解因缺乏地面实测数据所带来的困境但这种仅针对浅层特性的利用难以建立融合图像与原生图像之间的依赖关系例如图 1(f) 和 (g) 所展示.回想起IVIF任务中红外成像通常被用作补充材料以弥补可见光成像在外界环境影响下所造成的性能缺失因此如何通过有效提取红外成像中的特性信息并将其转化为热信号来辅助补偿可见光成像的信息便成为了亟待解决的关键问题.

贡献

(1) 我们开发了一种端到端的自监督红外融合框架,在设计主干网络与辅助网络的基础上,采用自监督学习方法推导红外图像特征,并通过该架构引导主干网络生成高质量的融合图像。值得注意的是,在实际应用中,辅助网络仅用于模型训练阶段而不参与最终模型部署。
(2) 在完成红外图像源特征分析后,在此基础上构建了基于红外图像源特征的正负样本集并提出了一种基于对比度学习的补偿感知网络(CPN)。作为辅助组件之一,CPN通过对比度学习方法实现各特征层级间的交互估计,在减少主干计算负担的同时显著提升了融合效果。
(3) 针对辅助组件与主干架构部分我们创新性地设计了一种基于数据驱动的自监督训练策略及需求驱动模块(DDM)。前者促进了CPN在补偿特征方面的性能提升;后者则以一种更为便捷的形式增强了主干架构的空间重建能力。两者的协同优化进一步强化了整体系统的融合性能表现。

描述其他对比学习的方法

CLF-Net

CoCoNet

我们的做法

CLF-Net

3、我们的方法

在这里插入图片描述

mproved regularization of convolutional neural networks with cutout

在这里插入图片描述

该编码器提取了四层特征随后这些作用共有三种需要耐心梳理清楚(个人觉得可能没有太多实际意义)

  1. 将四个CB模块产生的特征拼接起来构成解码器的数据源。
  2. 将第四个CB模块输出中的语义信息进行拼接处理后提供给CPN模块,并各自用于生成包含正面与负面样本对的数据集。
  3. 该拼接结果被解码器接收,并将其作为DDM模块的操作查询。
在这里插入图片描述

DDM块,这里的Fin应该就是(不知道,看不懂)反正大概就是个通道注意力。

在这里插入图片描述

backbone的损失函数

在这里插入图片描述
在这里插入图片描述

CPN

在这里插入图片描述

这边就比较类似于那种基于显著性检测生成掩码图M的方法了

损失函数:

基于传感器特性的影响,在此框架下,原始特征呈现出一致性与多样性。通过对比机制来分析红外图像相对于可见光图像的补偿特性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

不太懂这是什么表示:

在这里插入图片描述

但是对比学习的核心理念在于通过缩小IR与VIS之间的差距,并分别在VIS内部区域以及IR内部区域进行细致的划分与优化。

全部评论 (0)

还没有任何评论哟~