Advertisement

Fusion from Decomposition: A Self-Supervised Decomposition Approach for Image Fusion

阅读量:

1.摘要

图像融合作为一种替代方案,在多源图像生成高质量图像方面具有显著优势,并且能够在单一退化图像中实现图像恢复任务。其本质在于整合源图中的互补信息或最佳部分。当前主流的融合方法通常依赖于大量配对样本以及复杂的损失函数与融合规则来训练监督型或无监督型模型。为此我们提出了一种强大的图象分解模型DeFusion 用于执行融合任务 该模型通过自监督表示学习机制命名为DeFusion 并将源图分解至特征嵌入空间 其中能够有效分离出共有特征与独特特征 而无需任何配对数据或者复杂损失函数的支持 在分解阶段通过共同训练重建(投影)头即可在嵌入空间内完成图象融合过程 这种过程无需任何微调即可实现目标效果 基于自监督学习的发展 我们设计了一个预文本任务以训练模型的学习能力 该预训练模型允许学习高度有效的特征 并具备良好的泛化能力:DeFusion 是一个统一通用框架 它采用与图象融合无关的数据集进行训练 并可直接应用于各类图象融合任务 实验结果表明 在不同场景下 DeFusion 的性能表现与其最先进竞争对手相当甚至更优

2.引言

场景感知被视为机器视觉领域的一个长期目标。其中场景由多个硬件传感器实现数字化采集。由于硬件设备的限制性因素,在一次采集过程中每个传感器只能获取场景的一部分信息数据。为了精确高效地表征场景特征并生成高质量图像以支持下游高级应用如机器认知或人机交互系统,则需要运用图像融合技术整合来自同一场景中不同视角下的互补特征特性从而构建出高质量图像资源。例如多曝光融合(MEF)方法通过结合多个低动态范围(LDR)图像生成单个高动态范围(HDR)图像;而多焦点融合(MFF)则将不同焦点区域的图像整合为一个全焦点单一图像是目前较为先进的图像融合手段之一。在这一关键步骤中如何有效提取并表征源图像是一个核心问题:早期研究者们引入了一系列经典的特征表示与分解方法如小波变换金字塔架构边缘保持滤波器稀疏编码以及字典学习等这些预设设计的手工特征提取方法主要基于显式的数学建模缺乏对深层语义信息的理解因而限制了模型的泛化能力与适应性

近年来,在解决图像融合限制方面引入了深度学习技术,并推动了图像融合研究的前沿进展。在早期的研究中,研究人员将神经网络初步应用于优化问题,并用于建模源图像与目标融合结果之间的关系。我们将这种框架命名为'基于监督学习的直接融合方法'。显然,在某些特定场景下(例如红外-可见光图像融合),获取成对的源图像和地面真实 fusion 图像将会非常困难, 甚至不可能进行相应的训练数据准备。

为了解决这一问题, 我们提出了基于自监督学习的DeFusion框架. 该方法无需复杂的损失函数或繁琐的融合规则, 如图1c所示. 根据图像融合的定义可知, 图像融合的本质是整合多个源图象中的互补信息. 因此, 如果能将源图象分解为独特的部分与共享的部分, 则只需简单组合即可得到目标融合图象.

核心问题在于,在没有监督的情况下分解源图像以便获得独特的和共享的部分

给定源图像,我们 很难获得监督信息 来指导独特和公共组成部分的预测。在本文中,我们设计了一个名为“共同和独特分解(CUD)”的预训练任务,在自我监督学习框架下进行图像分解。我们致力于将多个源图像分解为独特和公共的特征表示,以完成无监督的图像融合(即基于分解的融合)。

如图2所示,在实验阶段中, 我们设计了一种特定的图像增强策略, 该策略通过将原始场景x的一些补丁替换为噪声, 从而生成两个源图像x^1x^2. 接着, 这些源图像经由分解网络DeNet接收并输出共同特征f_c, 同时分别提取出对应于x^1x^2 的独特特征f^1_uf^2_u. 在获得嵌入特征后, 我们利用共同投影头P_c 和独特投影头P_u, 输出源图像x_1x_2 的共同与独特(部分)图像. 在这种特定的增强策略下, 我们能够轻松地输出监督信息用于指导后续重建过程. 此外, 将组合特征f_c, f^1_u, 和f^2_u, 输入至重构投影头P_r, 以便恢复原始场景x. 在推理阶段, 我们将源图像分解为共同与独特的语义表示, 并从组合特征中重构融合图像(如图3所示). 这种方法通过整合分解后的共同与独特特征, 为融合过程提供了清晰可解的信息框架, 同时成功规避了复杂损失函数与融合规则的设计挑战.

总之,我们的贡献可以总结如下:

*(i) 我们开发了一种基于自监督学习框架的新颖图像融合方法DeFusion, 该方法通过分解源图像来实现其功能。
*(ii) 我们开发了一种名为CUD的预训练模型, 用于图像融合, 该模型不受现有监督图像融合数据集、复杂损失函数及融合规则的影响。
*(iii) DeFusion方法仅依赖于COCO数据集进行训练, 并且作为一个统一通用的方法适用于多种图像融合任务, 不需要额外微调或引入新的融合规则. 该方法在各类别的融合任务中表现不低于现有的最优图像融合技术(包括监督性方法)。

3.方法

3.1 Self-supervised Learning for Image Fusion

基于无标签的数据的自监督学习框架中自监督学习流程 ,假设我们有一个未标记的图像数据集 D。对于数据集中的每个原始图像 x ∈ R^{H×W×3} ,我们通过预定义的数据增强操作 T 对输入图像 x 进行处理 ,生成其变形后的版本 x^i 。这些变形后的版本会被送入卷积神经网络进行嵌入提取 。为了使卷积神经网络能够生成具有强大表示能力的嵌入向量 ,该模型需要在多个预训练任务中进行微调训练 ,如预测图像旋转角度 、调整色调以及拼接变形片段等任务 。经过上述预训练过程后 ,所提取的特征表示就可以被有效地应用于后续的任务处理

嵌入表示主要通过将具体实例(如图像、文本或其它类型的数据)转换为紧凑表达形式来实现。

在深度学习框架中这一过程被称为神经网络模型的主要功能。

该神经网络模型通过深度学习方法建立原始数据与目标表达之间的联系机制。

其主要目标在于同时保持关键信息、降低维度复杂度,并且优化不同样本之间的相对位置关系。

基于自监督学习的方法进行图象融合发展。根据所获取的源圖像來源于不同類型传感元的情況,我們可進一步將圖象融合发展分為單模態融合发展和多模態融合发展兩種情形。在單模態融合发展的情況下,观察到的是同一類型传感元生成的圖像,不過它們具有不同的設施配置;而在多模態融合发展的情況下,源圖像是來自具備不同成像機制的不同類型传感元,例如红外-可见光 fusion的情況。無論是單模態還是多模態的情況下,源圖像之間存在明顯差異性,但它們都是從同一場景中轉換而來,代表著場景的不同(互补)部分。此外,圖象融合发展的目标是從多個輸入中 preservation 关键信息以生成高質量融合圖像。其中原始場景 ↠ 源圖像 ⇒ 融合圖像 的過程类似于自監督學習中的嵌入表示學習流程。因此,在此基於自監督學習流程我們將源圖像指定為 表示扭曲視圖的輸入信號,這些輸入會通過ϕ_θ(·)提取嵌入表徵並使用投影頭生成最終 fusion 圖形。\n\n接下來我們將介紹如何實現基於self-supervised learning框架下原始場景到源圖像再到 fusion 圖形的方法

3.2 Details of CUD Pretext Task

通常,在自监督学习框架下,通过在一些预训练任务上进行训练的学习过程能够生成其生成的嵌入表达具有强大的表示能力,并可通过有限的监督进行微调以应用于下游任务的目的。然而,在图像融合任务中,并非总能获得足够的监督信息。因此我们期望能够在无须额外监督的情况下实现融合结果的生成。

基于这些观察结果的基础上

在第3.1节所述的情况下,在未标记的情况下,图像x对应于图像融合中的原始场景。值得注意的是,在这种情况下,在CUD过程中我们假设所有可能的降质情况都被考虑进去,并且我们利用随机遮罩Mi和高斯噪声n来模拟降质变换T:每个观测到的降质图像xi只能反映出原始场景的部分信息,并通过方程(1)的形式进行描述:x^i = M_i(\boldsymbol{x}) + \bar{M_i}(n), \quad(1)

其中\overline{M_i}代表遮罩M_i的逻辑非运算。为了简化符号表示方法,在本研究中我们仅专注于源图像数量恰好为2的情形:

{x}^1 = M_1(\boldsymbol {x}) + \bar {M_1}(n), \quad {x}^2 = M_2(\boldsymbol {x}) + \bar {M_2}(n), \\ s.t. \quad M_1 + M_2 \succ 0.
该约束用于确保原始场景中的所有信息都包含在增强图像中。与传统的修复型预训练任务(如修复残缺区域)不同,这里我们用随机噪声填充剩余区域,这将确保一个图像的独特信息与另一个图像的对应部分是相互独立的。

  • 如图2所示,在图中展示了一个经变换的示例图像。将模拟生成的图像x^1、x^2输入至网络架构中后会生成嵌入表示:f_c, f_u^1, f_u^2 = \phi _\theta (\boldsymbol {x}^1, \boldsymbol {x}^2), \quad(2)
  • 其中f_c代表源图像的共同嵌入特征而f^1_uf^2_u分别代表x^1x^2的独特嵌入特征。
  • 类似自监督学习机制我们在此引入了若干投影头用于将嵌入表示映射至图像空间。
  • 对于共同嵌入f_c其映射\hat{x}_c = P_c(f_c)应趋近于源图像的共同区域x_c = M_1(x) ∩ M_2(x)类似地x^1_u = M_1(x) ∩\bar{M}_2(x)x^2_u =\bar{M}_1(x) ∩ M_2(x)则是分别对应于p_u(f^1_u)p_u(f^2_u)的真实值表现由于嵌入表示已充分编码了场景信息因此映射后的结果p_r(f_c, f^1_u, f^2_u)应在像素级别上高度匹配原始场景图景。
  • 因此我们的损失函数设计为计算四个映射结果与其对应的真实图像或遮罩区域间的平均绝对误差(MAE)以度量两者的相似性程度。

3.3 Implementation Details

网络架构。整体网络ϕ_θ(·)具有一种瓶颈特征,在一定程度上可防止学习到一种平凡恒等映射。该网络架构可划分为三个主要组成部分:编码模块E_θ(·)、集合单元E^c_θ(·)以及解码器模块组D^θ(·) = \lbrace{D^u_θ(·), D^c_θ(·)}\rbrace。如图2所示,在具体实现中,编码模块E_θ(·)包含三个最大池化层以及残差模块,在此过程中可提取高度压缩的表示信息;其特征图尺寸则缩减为H/8×W/8×k的大小范围。

接着,在集合器E^c_θ(·)中将两个表示E_θ(x^1)E_θ(x^2)进行联合输入,并从中提取出抽象化的共享特征表示;其中集合器E^c_θ(·)仅包含一个残差层结构以实现特征提取功能。随后,在解码器部分中采用多级上采样操作与残差连接的方式构建解码模块;具体而言,在这一过程中解码器将根据不同的特征输出路径来生成相应的嵌入表达式

例如:

  • 嵌入表征f^{(1)}_{u}基于模型D^{(u)}_{\theta}对输入x^{(1)}进行处理,并通过连接运算将中间结果与自身状态进行融合。
  • 同样地, f^{(2)}_{u}则通过模型D^{(u)}_{\theta}对输入x^{(2)}进行处理, 并结合自身状态与其他相关状态的特征向量进行信息整合。
  • 对于嵌入表征f_{c}, 它仅接收经过处理后的特征向量E^{c}_{\theta}(E_{\theta}(x^{(1)}), E_{\theta}(x^{(2)}))作为输入。

除卷积网络ϕ_θ(·)外,投影模块P_c(·)、P_u(·)和P_r(·)还包含上采样组件以及带学习参数的ResNest结构。更多信息可在补充材料中找到。

在大规模数据集(如COCO数据集)上基于预训练任务进行了模型微调训练工作。具体而言,在模型架构设计中选择了50,000张代表性图片构建了训练样本集合。整个微调过程采用了Adam优化算法进行参数更新操作,在实验运行周期内总共迭代了50个完整的轮次。每轮迭代中采用批量大小为8的数据处理模式,并按照指数衰减的方式动态调节学习率:初始设置为1e-3,在每隔10个轮次之后将学习率减半处理以优化收敛效果。同时,在数据预处理阶段实现了图像尺寸的一致性处理:对输入图像均进行随机裁剪至256×256像素范围以内以减少计算开销并提高模型鲁棒性。此外,在模型输出层引入了一种双分辨率蒙版组合机制(如图1所示),这种设计意图是为了更贴近真实场景下物体退化情况下的特征提取需求。

4.实验

在本节内容中, 我们系统性地对DeFusion算法在多个实际应用领域进行了全面评估, 涵盖了多帧图像融合技术、高焦点图像处理方法以及可见光与红外成像联合优化等关键模块. 通过定性和定量实验分析得出, 相较于目前最先进的方法, DeFusion不仅达到了可比水平, 在某些领域还展现了显著的优势. 在下一部分讨论中, 我们仅展示每个模块的具体应用实例. 完整的定量实验数据可在附录部分查阅

4.1 Comparisons on Different Fusion Tasks

多曝光图像融合 。我们将DeFusion与六种最先进的方法进行比较,包括统一融合方法,如CU-Net、U2Fusion、IFCNN 、PMGI ,以及特定任务的融合方法,如DeepFuse、MEFNet 。为了公正和全面地比较,我们在最全面的MEFB基准数据集和最大的SICE数据集上评估比较方法。需要注意的是,MEFB基准数据集包含从多个公共数据集收集的100个图像对。

基于MEFB基准数据集的定性分析结果如图4所示,在每个测试样本中标注了关键区域进行可视化分析以辅助诊断。观察结果显示:CU-Net模型表现出明显的阴影伪影现象;而IFCNN网络则整体呈现明显的色彩失真特征;此外,在语义信息融合方面MEFNet系统相对不足,并容易造成背景区域不一致的现象

此外

对MEFB与SICE两个数据集进行对比分析的具体结果可见表1。我们采用了六项常见的评估指标来量化融合图像的质量表现:交叉熵(CE)、QCV、SSIM、MEF-SSIM、IS以及LPIPS。这些指标均基于源图像间的对比计算得出,在真实标签获取受限的情况下体现了一定的适用性与可靠性。从实验结果来看,在CE与SSIM两项核心指标上均位列第一;而在QCV、LPIPS以及MEF-SSIM等其他关键评估维度也展现了不俗的竞争力。

多焦点图像融合


Real-MFF数据集上的定性结果如图5所示。在数据集和Real-MFF 上的定量比较结果如表2所示。从这些报告的结果中,我们可以得知DeFusion的性能超越了其他无监督方法,并且在性能上达到了通过监督学习训练的IFCNN的可比较水平。

红外可见图像融合 。我们将DeFusion与四种先进方法进行比较:IFCNN、FusionGAN、PMGI和U2Fusion。对于红外可见图像融合,TNO 是一个广泛使用的数据集,而RoadScene 是一个具有丰富热纹理的挑战性数据集。我们使用它们来探索比较方法的性能。

如图6所示, RoadScene数据集展示了若干定性结果. 受物理因素的影响, 同一场景下不同相机捕获的源图像间存在显著差异, 这可能会影响融合方法在区分目标与背景方面的性能. 例如,FusionGAN将可见图像的目标与其红外图像的背景部分混合在一起, 如第一个案例所示, 这会导致目标区域消失. 在图6展示的第二个案例中, IFCNN、FusionGAN和PMGI模型仅保留了条纹边缘区域, 并未能有效恢复关键填充色信息. 第三个案例也出现了类似的问题,FusionGAN与IFCNN模型未能很好地恢复文本区域中的语义信息. 此外, 在融合任务中, 保持有用信息在融合结果中的完整性同样重要. 然而,U2fusion模型可能过度保留原始红外图像中的细节信息, 这种做法可能导致融合后的图像中残留较多原始红外噪声, 如图6所示的第四个案例所展示. 相比之下, 我们的模型能够在平衡各方效果的同时更好地保护语义信息.

通过定量对比实验(如表3所示),本研究采用了四个关键指标——CE(内容误差)、QCV(质量一致性验证)、SSIM(结构相似性指数)以及CC(清晰度系数)——来全面评估各类对比方法的效果。基于RoadScene数据集的实验结果表明,在CE、SSIM以及CC三个指标上均取得了最佳成绩;这一结果显示,在源图像保持性方面表现尤为突出。此外,在QCV指标上的表现同样令人满意;对比TNO数据集的实验结果发现两者性能相当

4.2 Visualizing Feature Embeddings

在本节中,我们将通过一些玩具和真实示例演示我们方法的独特性和通用性.本节主要采用的是Set5数据集中的图像作为原始场景,并对其进行了多种图像增强处理.主要采用的是将这些增强策略划分为两类:第一部分为玩具示例(即第1至3行),第二部分为真实场景示例(即第4至5行).

玩具实验研究。如图7所示,在这一样本中(见图7),针对第一个示例(案例一),图像增强过程与公式1所定义的方式相似。预训练网络能够有效地从两个源图像中分离出共同特征和独特特征。为了评估模型的泛化能力(generalization capability),我们进行了额外实验:采用了不同图像增强方法(与公式1不同)的结果展示(见表2)。在案例二中(案例二),将掩膜形状设计为任意形状,并不考虑公式3.2中的限制条件(constraint),从而允许噪声区域相互重叠(overlap)。尽管这一操作增加了难度(difficulty),但分解结果与融合结果并未明显丢失关键信息(information)。此外,在案例三中(案例三),我们采用零填充法重构源图像。(reconstruct source images using zero padding)观察发现:预训练网络成功提取了适当语义特征并将其投射到目标空间。(project semantic features onto target space)值得注意的是:融合结果不仅保留了边缘信息(edge information around mask regions),而且这种现象是由卷积操作所带来的信息扩散特性所导致。(caused by convolution operation's information spreading property)通过以上三个虚拟案例分析可知:基于CUD先验知识进行预训练的网络具备了一定程度上的语义信息提取能力。(ability to extract semantic information to some extent)

一些真实的实验结果表明:我们并非依赖特定的遮罩进行合成操作;而是通过向原始图像注入加性白噪声两次的方式实现数据增强,并将其视为同一场景下的两个增强源图;以便观察我们的模型能否提取出共同成分以及独特的成分。在第四个示例案例中:我们在'蝴蝶'对象上叠加了两种不同强度(σ=10)的高斯噪声来生成两个源图;可以看出:只有共同成分能够被提取出来;而独特成分则未被提取。值得注意的是:融合后的图像是经过去噪处理的结果

在最后一个示例案例中, 我们向网络输入了两个具有相同特性且带σ=10噪声的图像, 并成功从融合图像中剔除了共同提取出的噪声. 这一过程表明, 我们的网络架构有效地防止了出现"平凡映射"现象, 并且能够自适应地保持场景的核心语义特征.

我们还可以展示真实图像融合任务中的中间嵌入表示(如图8所示)。基于第一个多曝光样本,在过曝条件下拍摄出的图像突显了房间内的细节内容以及窗外无意义亮度区域,在低曝条件下则呈现出窗外景色以及室内家具较低清晰度能量特征。通过DeFusion模型对多帧融合后的独特嵌入进行提取后发现,在过曝样本的独特区域未激活窗户区域特征,在低曝样本的独特区域却实现了窗体外景特征激活。这一结果表明独特性嵌入能够根据具体情况进行自适应区分有效特性和非信息内容。此外,在此情形下共同嵌入在窗体及灯饰边缘处产生轻度激活反应表明这些边缘特征在两个观测视角下均具有显著表现力

特别针对多焦点融合任务的研究,在实际应用中发现:特别有用的信息通常与图像的焦点区域相关联;然而,在确定哪些区域与其他源图像的相关部分共享信息方面仍存在挑战性问题;值得注意的是,在分析特征表示时发现:统计信息证实了我们的预期;为了直观展示这些统计结果,在图8的第一行列出了一个典型实例;在此案例中发现:源图像的独特特征在激活程度上显著高于其对应的共有特征;此外,在观察过程中我们发现:焦点区常与激活区相对应;值得注意的是,在图8(e)中的多焦点示例显示共同区域为纯黑色;这表明两个输入图像中不存在同样程度虚焦重叠的部分

5. Discussion and Broader Impact

讨论与局限性:我们开发了一个图像分解模型,并基于图像融合的本质原理进行设计。在图像融合过程中缺乏自然的分解成分这一事实启发我们设计了一个简单的预训练任务,在带高斯噪声遮罩的操作下产出共同或独特监督信息以指导模型学习过程需要注意的是我们并不强制要求源图像与图像融合任务的所有输入图像是精确对齐的这是因为我们的目标是使网络能够自主学习将源图像分解为共同特征与独特特征的能力我们相信通过这种方法获得的学习特征嵌入能够简化图像融合过程使得融合后的图像可通过称为投影器的一个简单卷积层生成类似于传统自监督学习中用于分类任务的最后一层全连接层这一创新思路不仅提供了新的研究方向也给多源预训练工作带来了更多的可能性

广泛影响:近期研究表明,在自然语言处理与计算机视觉领域取得显著进展的是基于图像修复与遮罩的技术基础研究。我们提出的DeFusion方法正是受到这些研究工作的启发而产生。该方法可被看作是对以往单视角遮罩自编码技术的一种延展应用形式,并可推广至多视角遮罩自编码场景下使用。由此而言,则提供了一种联合学习多视角图像特征的方法论框架与研究方向设想

6.Conclusion

复制代码
    总之,我们提出了一种统一且多功能的图像融合框架,称为融合分解(Fusion from Decomposition)。我们的方法利用了共同和独特分解(CUD)的预训练任务,以获得源图像的有效表示。CUD任务可以以自监督的方式进行训练,并且非常适用于图像融合任务。

基于多样化的实验研究发现,在图像融合领域中

总体而言

全部评论 (0)

还没有任何评论哟~