Advertisement

Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion

阅读量:

摘要

该系统整合了来自不同传感器的一系列图像数据(如红外线和可见光),经过处理后输出的信息量较之前均有显著提升。本文中提出了一种深度神经网络模型,在红外与可见光图像融合方面表现出色。首先阐述的是:通过构建一个从粗到细的多尺度架构来学习多模态图像的多尺度特征表示。这种设计使得后续的数据融合能够更加高效地发现各模态间的共同特征结构。值得注意的是:所提出的特征学习模块相较于现有方法,在无需精确对齐的情况下就能够充分利用各自模态中的大量实例进行训练(即能够利用各自模态中的大量实例进行训练),从而显著提升了特征表示的能力。其次,在多尺度特征提取的基础上:设计了一种边缘引导的注意机制(即一种边缘引导的注意机制),从而实现了对常见结构的突出关注。这种设计在一定程度上降低了噪声干扰的同时也增强了细节恢复能力(即实现了对常见结构的突出关注)。此外:我们基于这一创新框架构建了一个新的高质量红外与可见光图像对齐数据集RealStreet(即RealStreet),该数据集涵盖了多种实际应用场景下的综合评估指标(即收集了各种实际情况下)。

注:"registered image pairs"是指经过一定处理后(比如图像配准),将不同角度或位置的拍摄的图像对齐在一起的图像对。这种处理能够消除图像间的差异,并且使得它们更容易地进行比较或整合。例如,在医学成像中,医生可能需要比较同一患者在不同时间或使用不同成像设备得到的图象,并通过将这些图象配准在一起来进行精确的比较和分析。在这种情况下, 已知的已注册图象对可能会被用来训练模型或评估算法性能, 因为它们提供了精确的对应关系, 从而更容易地进行比较和量化分析. 简单来说,"registered image pairs"就是经过特定处理后被准确配准在一起的一组图象。

引言

传统方法利用多尺度变换(MST),稀疏表示、子空间分解、混合工具以及数学优化等手段来提取有效特征

其中基于MST的方法因为其灵活性和在视觉效果方面的突出表现而受到了广泛关注。这些方法利用特定的变换工具提取不同尺度下的代表性特征。例如非子采样曲波小波以及边缘保持滤波器等技术手段被广泛应用于图像处理领域中以提高图像的质量与细节表现力。随后的数据融合过程能够充分包含各个尺度上的特征信息并采用简单的最大值或平均值运算将其融合从而实现图像的最佳重构效果然而这种类型的方法通常会受到视觉残留现象(晕轮效应)的影响在多个尺度上出现不对称地残留特征信息导致整体图像质量受到影响

最近的研究人员运用深度学习(DL)来达成红外与可见光图像的鲁棒与高效融合效果。基于DL的方法展示了最先进性能但仍存在局限性首先深度学习技术通常从源图像中提取显著特征随后生成用于融合的加权图这些深度显著特征一般在一个单一尺度下呈现从而忽视了跨尺度的局部与全局信息这一定程度上限制了融合质量其次这些方法采用了简单的融合规则如叠加与串接等导致最终结果可能出现不希望的伪影或模糊边缘最后训练深度网络需要大量对齐的可见光与红外图像这对实际获取带来了诸多困难

本文开发了一种新型深度学习架构来处理红外与可见光图像融合问题。基于前人多尺度特征集成方法的经验启示,在设计过程中我们特意引入了一个密集上下文扩展模块以扩大感受野范围的同时能够有效提取多尺度下的深度显著特征。该特征提取器通过不改变源图像尺寸即可增强各层次间的关联关系同时充分整合密集连接从而最大化地发挥了多尺度信息的作用值得注意的是由于我们的训练阶段并未获取配准的多模态图像这对提升从单一模态获取更多训练样本的可能性带来了额外的机会

除了这一项关键的技术模块之外,在本研究中我们还研发了具有边缘导向功能的关注机制,并通过多维度数据融合实现了对复杂场景下的目标识别能力显著提升

贡献:

  • 我们开发了一种创新性的红外与可见光图像深度融合架构,在多尺度显著特征提取与融合规则学习方面取得了突破性进展。
  • 无需在训练阶段获取配准图像对的情况下设计该方法,成功消除了对特定训练数据集的高度依赖性。
  • 通过精心设计,我们构建了一个基于密集上下文扩张网络的强大特征提取器,实现了多层次从粗到细特征的有效整合。
  • 针对跨域应用需求,我们创新性地开发了跨域边缘引导注意力机制,既保证了融合图像的数据一致性,又保留了丰富的细节信息,有效抑制了噪声干扰。
  • 该基于学习的知识驱动型融合机制突破了传统人工设定固定融合规则的技术瓶颈
  • 我们创新性地构建了一个高质量红外与可见光图像对齐融合数据集RealStreet,该数据集涵盖了复杂光照条件下的典型场景

方法

本节详细阐述了所提出方法的各个方面,在从粗到细的过程中构建了完整的特征提取体系,并通过边缘引导的方式实现了对关键区域的关注。随后,在这一系列中间特征的基础上引入了一种基于注意力机制的数据融合过程。为了使重建后的图像更加完整,在此过程中还融入了一种多级重建的技术框架以补充细节缺失的部分

Coarse-to-Fine Feature Extractor

红外与可见光图像融合的问题之一在于如何有效地从输入图像中提取出丰富的特征。在大多数情况下,有效的特征提取对于提高融合效果至关重要。传统的深度学习模型往往将全连接层用作一种简单的特征提取工具,这可能忽略了不同区域之间的上下文关联性,从而在输出图像中可能出现一些不真实的视觉效果。鉴于此,我们提出了一个能够扩展并整合多级上下文信息的新模块,该模块通过以下两种方式获得粗到细的特徵

  • 我们利用了一个多级特征融合模块整合了不同分辨率的特征表示,并指出了各个层级具有各异的感知范围。
    • 在每一个卷积分支中我们融合了密集块从而创造更多层次的表征信息用于后续处理。
在这里插入图片描述

上图中的这个网络经过第一个卷积将红外和可见光图像映射到特征空间;接着,来自不同扩展因子的三个卷积路径的中间结果被整合以获取多尺度的整体信息。
膨胀卷积通过放大因子步长来度量像素,在保持分辨率不变的情况下增加了其感受野;每个膨胀路径由三个3×3核大小构成,并采用5×5、9×9及13×13的感受野来提供更为精确的互补信息。
定义为f_{in}表示提取模块的输入特征图,则计算输出特征图f_{out}^e,其中f_{out}^e = \max(0, \sum\limits_{t_p=1}^{3}(W_{t_p}*f_{in,t_p} + b_{t_p}))
其中*代表卷积算子;t_p表示扩张卷积路径序列号;W和b分别代表卷积层中的滤波器参数与偏置项。

  • 除了在多个尺度上融合显著特征之外,在每个膨胀路径中加入密集连接以增强各层次之间的关联性,并使各层输出依次传递给下一层以确保深度特征的最大化保留。
  • 我们采用f_{ir}^ef_{vis}^e分别表示红外和可见光图像经过特征提取模块后的输出特征。

Edge-Guided Attention Feature Fusion

本研究的主要目标是为每种模态确定最佳特征。为此目的,并参考以往研究工作,在本论文中我们采用粗糙中间特征提取方法来获得增强边缘图像的关注机制。通过设计基于边缘的关注机制,在融合过程中可以同时保留丰富的纹理细节并有效抑制不希望的人工伪像效果。
具体而言,在两个阶段生成边缘图象。我们将输入灰度图像表示为u(尺寸m×n),其梯度图∇u定义如下:

\nabla u = \sum_{i=1}^{mn} \sqrt{(\nabla_i^h u)^2 + (\nabla_i^v u)^2}

其中水平差分算子\nabla_i^h u = u_i - u_{a(i)} 和垂直差分算子\nabla_i^v u = u_i - u_{b(i)}分别用于计算水平和垂直方向的一阶差分。
此外我们还设计了一个增强关注算子S使梯度信息更加显著:

S(\nabla u) = \underset{j\in J}{\max}\left(\max_{i\in I}\{\nabla u(i+1,j+1), \nabla_u(i,j)\}\right)

其中I=\{1,…,m-1\}J=\{1,…,n-1\}。这里的索引i,j分别代表梯度图像在水平和垂直方向上的坐标索引。

随后,在增强边缘图的基础上将红外图像与可见光图像的信息输入到注意力机制中以输出对应的特征权重图W_{ir}W_{vis};通过注意力图对提取模块中的双模态特征f^e_{ir}f^e_{vis}进行加权处理得到融合特征f^{a}_{out}=softmax(\sum^{k}_{i=1}(f^{e}_{ir} W^{i}_{ir}+f^{e}_{vis} W^{i}_{vis}));如图3所示为解码器依据融合特征f^{a}_{out}进行解码重构得到最终融合图像

在这里插入图片描述

Feature Compensation Reconstruction

图像重建的目标是通过卷积层将原始的空间域数据转换至频域进行处理并重构高质量图像序列. 仅依赖于简单的卷积操作可能导致无法有效恢复关键细节. 在网络架构设计中我们巧妙地引入了两个跳跃连接从而有效缓解了多次连续卷积运算过程中可能带来的信息丢失问题. 具体而言在设计中我们首先将三个扩张后的不同特征求和来补偿红外与可见光之间的差异并通过最大值策略对各通道的融合结果进行选择. 最后在后续的特征重建阶段我们将这些融合后的中间结果沿着通道方向与基于注意力机制生成的整体融合特征求和从而最终得到完整的目标图像. 实验结果表明该方法的效果如图2所示.

在这里插入图片描述

Loss Function and Training Details

就多模态图像融合而言, 缺乏用于指导监督学习(不论是监督还是无监督)的真实标签数据. 此外, 在实际应用场景中获取足够数量的标准对具有挑战性. 为此, 我们在数据获取阶段分别提供了红外成像和可见光成像的数据样本, 并通过编码器-解码器模块能够有效地重构输入特征图谱. 如图2所示, 在方法实现阶段展示了整个系统的整体架构设计

为了更精确地重构输入图像,在超参数γ的指导下优化总损失函数L_total(由L_MSE与L_SSIM两部分组成)以训练我们的神经网络模型。其中,结构相似性是衡量两个不同图像之间的重要指标;而MSE被用来衡量输入与输出图像像素强度的差异。这两种损失共同约束了重建的质量和细节。总损失函数表示为:L_total = L_MSE + γ L_SSIM

将输入与输出图像间的欧几里得距离作为LMSE值进行计算:L_{MSE} = \sqrt{\frac{1}{MN}\sum_{x \in M, y \in N}(out(x,y) - in(x,y))^2} 其中变量out代表重建的数据矩阵(output),变量in代表原始训练数据矩阵(input)。M、N分别代表图像的高度与宽度,在此上下文中(x, y)表示像素的位置坐标。基于此定义的基础之上,则可得到另一种评价标准——L_{SSIM} 的计算公式:L_{SSIM}=1-\text{SSIM}(out, in) 其中\text{SSIM}(\cdot)运算符用于衡量重建图像与原始目标图像之间的结构相似度(structural similarity)。

基于GANs的理念,我们假定该网络负责生成任务,并在系统尾部配置一个鉴别器以引导生成过程,从而使输出结果更加自然。其形式可表示为:\min_G\max_D L_{Adv}(G,D)=\mathbb{E}[\log D(\text{out})]+\mathbb{E}[\log(1-\hat{D}(in))]$

生成器与鉴别器采用替代迭代策略,在网络架构设计上实现更强的能力与可靠性。
当训练完成时,在网络中呈现两组配对图像。
经过训练优化后的分阶模型能够从输入的多模态图像中提取具有显著深度特性的特征。
随后, 结合联合边缘引导权重图与相应特征进行计算处理, 从而获得融合后的特征。
最后阶段, 融合后的特征通过新增设置在解码模块中的跳接连接传递回编码路径, 进而构建完整的融合图像输出。

全部评论 (0)

还没有任何评论哟~