【论文阅读】SDCFusion:A semantic-driven coupled network for infrared and visible image fusion
A semantically driven integrated network for infrared and visible image fusion(2024InfFus)
现有方法存在的问题
1.传统方法需要手工设计融合规则;时间消耗较高。
2.现有的图像融合方法只关注像素级融合,忽略了场景中的高级语义信息。
研究方法
整体框架
由一个双分支共享编码器和两个解码器(结构相同、参数不同)组成。

联合优化

验证策略

通过将融合网络的输出与红外图像同时馈入分割网络进行处理,能够得到基于融合图像生成的分割结果,并计算上述分割结果与真实标签之间的mIoU分数。
通过该mIoU值来实时调节该语义度量权重,在训练过程中实现对融合损失与语义损失之间以及验证损失之间的自适应平衡。
这样,在分割网络性能得到不断提升的情况下,我们能够逐步增强对像素级语义信息重建的关注;从而使得融合图像在高级视觉任务中的性能获得显著提升。
CDIM的结构
基于融合技术整合了跨模态像素与语义信息从而实现了适用于分割与融合任务的鲁棒融合特征这一目标我们开发了一个跨域交互模块即CDIM

该模块包括两组局部空间注意机制(LSA)以及一个单独的部分全局交互语义机制(GISA)。
LSA的结构
LSA主要通过最大池化和平均池化操作对红外图像或可见光图像的空间信息进行降维处理,在通道维度上压缩其原始特征表示,并最终生成两个深度空间表征。
这两个深度特征图随后被整合,并经过通道收缩卷积与另一个基于sigmoid函数的非线性变换处理而生成空间注意力图。
基于元素级别的乘法运算而结合原始的单模态特征与空间注意力图相融合,则能够增强核心细节的空间注意力特征。

GISA的结构
以满足融合与分割任务所具有的语义特征为基础,在多维度分析两种模式间的相互关联关系的基础上,基于全局交互机制构建了语义注意机制(GISA)。

第一步操作是通过整合经过下采样处理后的红外与可见光特征值(V),以提取多模态全局特征

对于每种模态而言,在分别计算查询、键以及值(包含位置信息)的基础上,并以此生成单模态的全局注意力图。

基于位置编码信息和跨模态语义特征的组合模型能够生成跨模态全局注意力图,并用于展示各模态间的语义关联性。

通过卷积模块对单模态和跨模态下的注意力机制输出的特征表示进行融合运算,得到多模态语义表示。
损失函数

融合损失

内容损失项:经过优化处理融合图像与源图像之间的像素级差异以保证内容的一致性。通常涉及可见光频段的光谱数据以及红外频段中显著的目标特征信息。

梯度损失:以降低融合图像与源图像之间梯度差异为目标来保持纹理细节。这有助于在融合图像中保持边缘和纹理信息。

语义损失和验证损失


基于mIoU的语义度量权重
这个权重取决于分割网络在每个训练批次中计算得出的具体数值——即mIoU值。当该网络在语义理解方面表现较弱(对应的mIoU值较低)时,适当提高了对语义损失项的关注程度;随着训练进程推进,在该网络逐渐增强其语义理解能力的过程中(对应的mIoU值上升),适当降低了对语义损失项的关注程度,并相应地提高了对验证域相关损失项的关注程度,并促使模型更加注重像素级融合结果的质量。

实验结果
融合结果
在MSRS、M3FD、FMB三个数据集上进行定性定量分析。



语义分割和目标检测结果
定性分析

定量分析

