【红外与可见光图像融合】Infrared and visible image fusion based on a two-stage class conditioned auto-encoder ne
本文探讨了一些基于共享编码器的方法用于从源图像中提取特征,并采用了手工设计的融合策略以整合不同模态的信息。我们的研究目标是通过在编码器中引入类嵌入模块来增强多模态特征表示的能力,并根据输入数据自动调节中间层特征的比例系数以优化表示效果。在融合策略方面,则采用了通道注意力机制与空间注意力机制相结合的方式对各子网络输出的特征图进行加权融合处理。
实验过程与RFN-NEST方法具有相似性,在模型训练过程中采用了两阶段优化策略,在损失函数设计上做了适当调整。
需要注意的是本研究未对外界提供相关代码实现,
完整的研究成果发表在Neurocomputing期刊上,
时间戳为2023年。
作者的核心观点是通过编码器学习不同模态图像的独特特征。为此引入了一个类嵌入向量,并经过初始阶段的训练促使编码器建立基于不同图像的模型结构。并采用了交叉熵损失函数作为评估标准,在这部分的数据中作者可能对训练集进行了优化或调整。例如进行人工标注分类任务,并根据结果进行相应的优化和改进。

第一阶段训练:
IR和VIS分别提取特征,就是双分支
没有融合层,初始化类嵌入向量

(训练后就与encoder一起固定了)
这两个初始化操作通过5个全连接层实现输出向量Ec的生成。随后将各层输出经拼接处理后输入到分类器中,在网络结构中嵌入这3个特定模块。
编码器利用紧密连接将经过调整的特征与小分类器头部的模态分类任务相联系,并将其发送到这里以完成该任务。这一任务隐含地促使编码器从不同模态中提取特定的特征。

在第二阶段的训练中不再依赖该分类器,在此期间通过固定类嵌入以及源图像进行训练,并在此处插入融合层

Ec根据类执行AdaIN操作:

CCB利用潜在类嵌入EC中的类特定差异信息进行归一化处理过程, 使得编码器能够根据输入图像的类别灵活地调整特征, 并增强编码器对输入图像的理解能力。
Pixel difference networks for efficient edge detection
Pixel difference networks for efficient edge detection
Pixel difference networks for efficient edge detection

这个分支仅使用卷积操作,并命名为content path;通过其与另一条路径的交互实现了预融合。

第一阶段损失:

第二阶段损失:


sobel 算子
我们主张两个源图像中的梯度同样重要,并引入一个辅助目标以约束融合图像的梯度信息。

这里参数设置为0.6,也就是更偏向IR一点点。
消融实验:

作者这里输出了不添加类嵌入向量和添加之后的编码器提取的特征


典型主观图


告示牌上的白条纹依然清晰可见,并非完全光滑无瑕;除了左上角外,在其余位置均未发现明显的雕刻痕迹。(某一篇论文里的表述)
