Advertisement

【论文阅读】Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

阅读量:

Text-IF: Exploiting Semantic Text Guidance for Image Fusion that is Resilient to Degradation and Interactive.

现有方法存在的问题

受限于环境条件的影响,在实际采集过程中,红外与可见光图像可能会因温度波动或其他因素而发生劣化现象。这种情况下生成的整体融合后的图像是不理想的。可见光成像通常会受到退化现象的影响, 如低光照、过曝等现象可能导致影像质量下降。而红外成像过程不可避免地会受到热噪声、电子噪声以及环境相关因素的影响, 这些都会对最终成像效果产生不利影响。现有的融合算法在处理退化问题时缺乏自适应性, 进而导致融合后的图像是不理想的, 综合来看, 依赖人工干预来改善处理效果可能面临灵活性不足及效率低下等问题

本文贡献

以应对复杂退化条件为目标,在解决图像融合与退化这一综合问题上采取有意的方法。这一举措打破了提升图像融合质量的技术瓶颈。

我们开发出了一种名为语义交互引导模块的工具用于整合文本与图像的信息。该技术不仅成功地实现了多模态图像融合,并且达到了多模态信息整合的目的。

3.我们提出的方法最终带来了定制融合结果的自由度提升。该方法通过互动式融合实现了更高程度的灵活性与质量输出,并且能够根据用户需求生成所需的结果而不需依赖专业知识或预先定义规则

研究方法

问题表述

一般的图像融合方法则会将图像融合任务描述为以两个源图像(如Ivis、Iir)作为输入并由融合网络(如θn)处理生成固定图像融合结果。该网络的目的在于建立与之对应的映射关系Fif。简而言之,则是说该网络致力于构建一种映射关系Fif。

这表明 fusion 网络更倾向于学习固定不变的 fusion 策略。然而,在复杂环境下(如源图像退化)时,则这种任务模式就显得力不从心了。我们致力于通过引入文本来克服传统单一 fusion 结果所带来的局限性,并寻求一种能够有效指导图像 fusion 的新范式。随着文本语义信息的应用与引入,则该合成任务得以重新表述为:

基于文本语义信息的引导下,原始映射融合函数Fif被拓展为Fs−if。借助与文本语义相关的交互机制,在给定用户的输入基础上生成更加定制化且灵活的融合效果。针对各类源图像存在的质量问题,该网络能够有效恢复并整合这些图像质量。

图像融合流水线

图像编码器. 图像编码器分别采用源可见光图像和红外图像作为输入模块。针对空间域和深度信息的提取需求,在确保表征全面且精确的基础上,我们以Transformer/Restormer[37]为基础设计了相应的特征提取模块。简单来说,则是以Transformer/Restormer[37]为基础设计了相应的特征提取模块

交叉融合层. 该层设计用于整合自不同模态的信息。旨在实现对多维度特征信息的有效整合。通过引入交叉注意力机制(CR-ATT),系统能够有效地进行多模态特征交互。例如:

其中Fvis、Fir分别代表可见光传感器和红外传感器的特征参数。随后我们调换两个模式下的查询变量Q以便实现空间交互

其中 dk 代表缩放因子。最终,在计算交叉注意力所得的结果基础上,我们通过 F0(f) = Concat(F_i(f), F_v(f)) 对其进行融合处理。

语义交互融合编码器. 交叉融合层输出的特征首先经由自注意力机制(SE-ATT)进一步强化,并在其发展路径则主要由语义文本特征间的交互关系支撑。

语义交互融合解码器被设计为交互文本语义特征 Ftext ∈ RN×L 和图像融合特征 Ff 。具体来说,它是由基于 Transformer 的解码器块和语义交互指导模块(SIGM)构建的,这将在第 3.3节中介绍。融合解码器块和SIGM在多级级联中紧密耦合在一起,以达到密集调节和引导的效果。简而言之,语义交互融合解码器可以描述为:

其中表示第k阶段图像融合特征的是F_k^f(f)。{·}_r代表多级重复的方式。它们分别代表基于Transformer架构的模块以及SIGM组件。特别注意的是,在编码器区域进行下采样的地方,在解码器层级必须实现相应的上采样。

文本交互引导架构

预先设置了图像融合管道,并能够提取出对应的融合特征Ff。同时,在耦合文本语义信息和图像融合方面起关键作用的是文本交互引导架构。

视频索引生成器. 对于给定输入视频Tvideo, 它能够自动提取视频中的关键帧并生成对应的索引信息(例如, 视频的主要场景切换时间点及其描述), 视频交互引导架构的关键视频索引生成器应负责传递到视频嵌入. CLIP作为一种大型预训练视觉语言模型, 在进行视频特征提取方面表现出色. 我们倾向于使用CLIP中已训练好的、且权重固定的视频编码器, 以便维持良好的视觉一致性. 用 {·}f 表示固定不变的权重参数, 这一过程可以用以下公式表示:

其中 Ftext ∈ RN×L 表示文本语义特征。在具有相同语义意义的不同文本中(或不同但语义相似的文本),提取(或获取)的相关特征应位于简化后的欧几里得空间内接近。

在此基础上, 我们开发了 MLP Φim 用于分析这种关联, 并进一步地映射文本语义信息以及对应的语义参数. 因此可推出:

其中 ΦIm 和 ΦII m 是 Φm 的块操作,形成语义参数。

语义交互指导模块(SIGM). 在语义交互引导模块中, 语义参数经过特征调节并融合特征F_i^f 进行交互, 从而实现对交互过程的有效引导. 特征调节主要包括尺度缩放操作与偏置调节机制, 分别从量纲变换与偏差校正两个维度进行调整. 尤其是采用残差连接技术能够有效降低网络拟合难度. 为了简化描述, 可以概括为:

其中 ⊙ 表示哈达玛积。 F i f 表示融合特征。 ˆ Fi f 是带有文本语义信息的。

损失函数

在数据处理过程中, 损失函数在很大程度上主导着所提取源信息的分类类型及其分布情况。从数据引导的角度而言, 我们不仅希望利用数据自由性来解决各类退化问题, 而且希望能够使数据根据用户的特定需求自动完成融合任务的最佳损失参数选择过程。因此, 在基于数据引导的图像融合任务中, 损失函数的设计应当被视为一种系统化的构建过程, 而非简单的映射关系。

在图像融合过程中涉及的损失包含亮度(强度)损失、基于结构相似性(SSIM)的最大值损失[40]以及最大梯度损失等指标。为了应对退化问题,在优化过程中我们采用了由人工获取的高质量可见光图像Ig vis 和红外图像Ig ir 作为约束条件。

Strength Loss. 为了强调红外和可见光图像中的显著目标, 使结果的强度值达到最大从而保证目标的显著性. 它定义为:

结构相似性损失. 结构相似性损失是一种衡量融合图像与源图像之间结构相似程度的指标。它通过计算两者的结构一致性来评估融合效果。其表达式为:S(x, y) = \sum_{i,j} w_{i,j} |I_f(x+i, y+j) - I_r(x+i, y+j)|其中I_f表示融合后的像元值矩阵,I_r表示原始像元值矩阵,w_{i,j}代表加权系数矩阵,S(x,y)即为所需计算的像元值差异数目.

其中δir(t)表示红外结构相似性损失的比率,它是文本语义的函数。

颜色一致性损失. 我们确保融合图像与可见图像在色彩上达到统一。将图像转换至 YCbCr 空间后,在Cb和Cr通道中应用欧氏距离进行限制。

其中 FCbCr 表示 RGB 到 CbCr 的传递函数。

整体损失. 整体损失函数是整合相关损失的总和,并受语义信息的调节作用。简而言之,则可表示为:

其中\alpha_{\text{int}}(t)\alpha_{\text{SSIM}}(t)\alpha_{\text{grad}}(t)\alpha_{\text{color}}(t)是与任务t相关的语义调节超参数;其融合效果受到重视。

实验结果

无文本引导的比较

有文本引导的比较

高级别任务的表现

消融实验

结论

我们在该领域进行了系统性扩展,在这一过程中开发出一种创新性的框架来进行引导。这种框架旨在针对现有技术难以处理的情况提出解决方案,并为用户提供高质量的互动式合成图像。为了实现这一目标,在设计过程中我们利用了...技术来构建系统的各个部分。通过大量实验证明该方法在性能上表现出色,并且在处理退化场景方面表现出显著优势。这些成果不仅验证了框架的有效性与可靠性,在实际应用中也证明是可行的,并为后续研究提供了重要的参考依据

全部评论 (0)

还没有任何评论哟~