Advertisement

【论文阅读】Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion

阅读量:

Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion

现有方法存在的问题

现有方法只捕获二阶空间交互,忽略了空间和通道维度的高阶交互。这种限制阻碍了多模式之间协同作用的利用。

本文贡献

1.本研究中新颖的协同高阶交互范式(SHIP)探索了红外和可见光图像融合中复杂的高阶交互。通过在空间和通道维度上整合高阶相互作用,SHIP 成为一种开创性的方法,研究模态之间的协同相关性。

2.该范式研究涉及空间细粒度和全局统计的高阶交互,协作聚合补充信息并区分源模式的相互依赖性。

3.我们对多个红外-可见光基准的实验表明,所提出的框架优于最先进的方法。此外,我们还证明了它在全色锐化任务中的有效性。

研究方法

整体框架

所提出的范例如图 2 所示,操作如下:给定红外图像 IR ∈ RH×W ×1 和可见图像 IV ∈ RH×W ×3,我们提取相应的浅层特征对每种模态使用单独的卷积层,产生 FR ∈ RH×W×C 和 FV ∈ RH×W×C。然后,这些模态感知特征经历一系列核心协同高阶交互范式(SHIP),结合空间和通道维度。该过程探索了两种模式在空间细粒度细节和全局统计方面的协同作用。最后,将这些特征投影回图像空间以生成融合结果,IF ∈ RH×W ×1。融合过程专门针对 YCbCr 颜色空间中的 Y 通道,遵循先前工作的方法。总而言之,该范式可以表述如下:

其中 ψ(·) 和 φ(·) 表示特征提取器,L 表示 SHIP 的迭代次数。

高阶空间相互作用

重新审视自注意力。 自注意力机制是 Transformer 的关键组成部分,它通过键、查询和值组件之间的矩阵乘法促进二阶空间交互。此过程使模型能够动态区分和聚合基于查询模式的补充信息。对于红外和可见光图像融合,查询 Q、密钥 K 和值 V 的推导如下:

其中 WQ、WK 和 WV 表示应用于投影模态感知特征表示的线性变换。自注意力机制捕获以输入 FV 为中心的二阶空间交互,是通过这些组件之间的点积运算实现的:

其中dk表示key的维度,⊗表示点积运算,A ∈ RHW×HW是相关矩阵,OS((FV )2)表示自注意力模块的输出,捕获二阶空间关于输入特征 FV 的交互。

然而,尽管点积很有效,但它会带来巨大的计算成本,使得它无法通过级联自注意力机制实现高阶运算。

等效有效的形式。 A 的每个元素都可以通过内积重新定义:Aij = 〈qi, kj〉 ,qi ∈ Q,kj ∈ K,〈·〉 表示内积。卷积定理确定两个信号在空间域中的相关或卷积等于它们在频域中的哈达玛积。为了利用这一特性,我们将频域纳入自注意力机制中,将矩阵乘法简化为轻量级的逐元素运算。最初,我们使用快速傅里叶变换(FFT)将模态感知特征 FR 和 FV 转换到频域。相关性计算如下:

其中F(·)和F -1(·)表示FFT和逆FFT,⊙表示Hadamard积,F(·)表示共轭转置运算。此外,还获得了具有二阶空间相互作用的综合特征:

其中 Norm 表示应用于 A 的层归一化。

深入研究高阶格式。 最近的方法,例如[3,4,73],显示出强烈的偏好采用自我注意机制。然而,这些方法经常出现在级联自注意力块中,往往会生成以查询特征为中心的多个二阶交互,而不是实现高阶建模。形式上,L个级联自注意力的递归格式可以表示为:

其中 1 ≤ i ≤ L。显然,这个过程仅捕获关于输入特征 FVi−1 的二阶交互,同时会产生巨大的计算成本。

相比之下,基于等效有效的形式上,我们超越了二阶相互作用,并将我们的范围扩展到任意阶相互作用(N 阶),同时保持效率。具体来说,对于每一次迭代,我们扩展等式:将等式(5)代入以下高阶公式:

其中 2 ≤ j ≤ N 。这个公式使我们能够有效地捕获高达 N 阶的相互作用。

一般来说,对于具有 L 的传统Transformer链,顺序展开如下:

相反,我们的高阶建模将其替换为:

事实上,这种修改使我们能够在每次迭代中捕获高达 N 阶的交互。如图 3 所示,每个空间高阶交互中的不同阶整合了不同空间的互补信息。此外,不同迭代中的交互表现出有区别的响应,丰富了整个迭代过程的特征多样性。

高阶通道交互

重新审视挤压和激励块。 挤压和激励 (SE) 模块 [15] 利用一阶全局统计平均值来模拟通道交互。这种方法使 SE 块能够明确捕获输入特征通道之间的相互依赖性。对于红外和可见光图像融合,SE 块根据第 i 个高阶空间相互作用制定红外和可见光特征之间的依赖性,如下所示:

其中 F i = concat[F i VS , F i RS ],Zc 表示一阶统计量,σ 表示 Sigmoid 函数。 WZ 包括两个线性变换和一个 ReLU 函数。

深入研究高阶格式。 与高阶空间交互类似,我们扩展SE块以实现高阶通道交互:

最后,卷积层将 F i C 集成到融合模态中,产生集成特征 F i VC 。

通过 L 次迭代进行的 N 阶空间和通道交互,交互链可以在数学上表达如下:

我们沿着通道维度分析第二通道高阶交互的通道响应。与不同阶次的一致响应相反,我们的高阶建模自适应地区分源模态之间的相互依赖性,如图 4 所示。

损失函数

损失函数包含强度项和梯度项:L = Lint + λLgra。 λ 代表权衡参数。为了强调可见光和红外图像中的显着物体[30, 39],我们引入了基于显着性的强度损失,定义如下:

其中 ∥ · ∥1 表示 l1 范数。加权图 ωV 和 ωR 是从可见光和红外图像导出的,即 ωV = SV / (SV − SR) 和 SR = 1 − SV ,其中 S 是使用[11]中的算法计算的显着性矩阵。

为了在融合结果中保留源图像的关键纹理细节,我们引入了梯度损失:

其中∇表示用于图像内纹理信息测量的梯度算子,max(·)表示逐元素最大值运算。

实验结果

定性比较

定量比较

消融实验

全色锐化的扩展

结论

在本文中,我们开创了协同高阶交互范式(SHIP)的探索,以研究红外和可见光图像模式之间的协作以进行图像融合。我们的船舶包括空间和通道维度。空间高阶相互作用逐步捕获红外和可见光模态之间的协同相关性,通过高阶建模有效地集成空间细粒度互补信息。通道高阶交互,基于全球统计,研究并区分源模态之间的相互依赖关系。对多个红外和可见光图像融合基准的大量实验表明了我们提出的协同高阶交互范式的优越性。

全部评论 (0)

还没有任何评论哟~