Advertisement

Multiscale spatial–spectral transformer network for hyperspectral and multispectral image fusion

阅读量:

Multiscale spatial-spectral transformer network to fuse hyperspectral and multispectral images.

Sen Jia,Zhichao Min,Xiyou Fu;1区/Q1;Information Fusion;18.6;2023

1 引言

该方法受限于卷积神经网络(CNN)中卷积核的局部感知能力不足,在融合特征图时难以提取和利用全局信息。

创新:

复制代码
1. 

该研究提出了一种基于 Transformer 架构的多层次时空编码网络(MSST-Net)。该网络由两个子网络模块构成:一个用于从高分辨率遥感图像(HSI)中编码光谱信息特征;另一个则用于从多分辨率图像(MI)中为空建模空间信息特征。

复制代码
2. 

提出了光谱变换器( SpeT )提取光谱特征,空间变换器(SpaT)提取空间特征

复制代码
3. 

引入多尺度波段/块嵌入,通过 SpeT 和 SpaT 获得多尺度特征

复制代码
4. 

开发了一种自监督式预训练方案,并特别构建了基于掩码图像块和光谱波段的自编码器模型(MBAE/MPAE),用于对 SpeTs 和 SpaTs 进行自监督式预训练

实现思路:观察到的 LR-HSI 和 HR-MSI 可分别被视为底层 HR-HSI 的空间和光谱降质版本。基于此可利用观测到的图像进行重建

重建底层 HR-HSI 的两种方法:

单一 LR-HSI 超分辨率

缺陷:基于目前的技术限制,在利用LR−HSI进行HR−HSI恢复的过程中存在显著的困难

LR-HSI 与 HR-MSI 或全色图像融合(主流)

基于机器学习的方法(eg. 矩阵分解的方法、基于张量分解的方法)

不足:这些方法大多依赖于人工设计的先验,耗时长且表征能力有限

基于卷积神经网络(CNN)的方法

不足:受卷积核尺寸限制的CNN架构在全局特征提取方面存在一定局限性,在一定程度影响了融合性能

基于Transformer的方法(eg. ViT)

优点:能够捕捉全局特征

不足(本文改进):

限制了其对不同尺度空间特征的表征能力

限制了其对高光谱图像光谱特征的提取能力

需要更多的训练数据才能获得较好的效果

本文方法(MSST-Net):创新见上文

2 网络架构

2.1 MSST-Net 网络架构

其中y ∈ R^{h × w × S}被用来表示被观测得到的低分辨率HSI图像;而z ∈ R^{H × W × s}则用于表示高分辨率MSI图像

通过双线性插值算法,将变量 y 进行上采样处理,生成结果变量 y_{up} ∈ R^{H × W × S};同时将变量 z 降采样处理,生成结果变量 z_{down} ∈ R^{h × w × s}}

跨模态连接(通道维度),通过融合 y 和 z_{down} 输出结果为 y_cat ∈ R^{ℎ × w × (S + s)};同时通过融合 z 和 y_{up} 输出结果为 z_{cat} ∈ R^{H × W × (S + s)}

low-level feature extraction (SFE) is implemented using 3×3 convolution kernels with 64 channels assigned to each kernel. The stride size of these 2D convolution operations is set to 1, forming a residual network composed of five residual blocks. This network performs low-level feature extraction on two distinct inputs, y_{cat} and z_{cat}, generating corresponding feature maps F_s ∈ R^{ℎ × w × C} and F_s’ ∈ R^{H × W × C}` respectively.

多尺度深度特征提取主要关注光谱特性的分析。该模块由三个独立的DSpeFE单元构成,每个DSPEFE单元包含一个带有位置编码的波段嵌入层以及五个时空注意力模块和一个卷积层。经过每个DSEFE处理后生成深度表示矩阵F_{l}^{\text{spe}} \in \mathbb{R}^{h \times w \times C},通过可学习加权聚合方法整合多尺度信息,最终得到综合表示矩阵F_{\text{sum}}^{\text{spe}} \in \mathbb{R}^{h \times w \times C}

多尺度深度特征提取主要关注空间维度的信息。
在本设计中所采用的深度空间特征提取模块(DSpaFE)的数量为3。
每个D-SpFe模块包含一个图像块嵌入层,并附加位置编码;同时整合了五个SpaT组件以及采用S-FE架构的卷积层。
通过每个D-SpFe模块的变换操作生成相应的深度特徵F_l^{\text{spa}}属于R^{H\times W\times C}的空间域。
通过可学习加权聚合机制整合多尺度特徵信息以获得最终汇总特徵F_\text{sum}^{\text{spa}}属于R^{H\times W\times C}的空间域。

综合提取表层与深层特征信息,并通过较长跨度的连接关系整合F_s与F_{sum}{spe}以获取光谱特徵F{spe}\in R^{\h w\times C}};同时整合F_sT与F_{sum}{spa}}以生成空间特徵F^{spa}\in R^{H\times W\times C}}

通过上采样过程得到F_{up}^{\text{spe}} \in \mathbb{R}^{H\times W\times C}, 然后将F_{up}^{\text{spe}}F^{\text{spa}}串联生成空-谱特征矩阵F \in \mathbb{R}^{H\times W\times 2C}

将空-谱特征 F 输入图像重建模块以获得估计的 HR-HSI X^` ∈ R^{H \times W \times S}

Loss = || X^`-X||,其中X ∈ R^{H \times W \times S} 为真实HR-HSI

2.2 预训练网络
2.2.1 MPAE架构(extend MAE)

移除了 MAE 的类标记,并提出了一种掩码 patch 自编码器(MPAE)

将 MPAE 作为对称编码器-解码器架构进行配置,并将其屏蔽的 patch 设定为可学习标记

由编码器存储已经提取了 HR - MSI 空间特征的 patch 嵌入表示,并将其用于后续模型的微调训练

实验数据集的 HR-MSI 掩码率设置为 50%

2.2.2 MBAE架构

提出了一种掩码光谱波段自编码器(MBAE)从 LR-HSI 中获取光谱特征

由对称的编码器-解码器架构组成的MBAE会随机遮蔽输入图像的一部分波段,并通过解码器恢复这些被遮蔽的光谱波段。

MBAE 基于从输入 HR-MSI 的未被屏蔽的波段恢复或恢复随机屏蔽波段以实现预训练网络

实验数据集的 LR-HSI 掩码率设置为 75%

3 实验

3.1 数据集

CAVE、Harvard、WDCM、YRE

采用基于CAVE、Harvard 和 WDCM 数据集的HR-HSI模型来运用高斯滤波器技术以得到模糊的HSI图像。随后我们通过分别按照4:1和8:1的比例进行降采样来生成对应的LR-HSI数据。

基于来自 CAVE 和 Harvard 数据集,由 Nikon D700 提供的光谱响应矩阵产生一个包含三个波段的 HR-MSI

基于 WDCM 数据集,采用 Sentinel-2 A 仪器的光谱响应矩阵构建一个包含10个波段的HR-MSI数据集

基于真实数据集YRE,在HSI和MSI上执行3倍下采样以获取训练样本

3.2 实验方案

首先在进行自监督预训练时,
将HR-MSI作为输入映射到MPAE中,
同时将LR-HSI作为输入映射到MBAE中。
接着将这两个编码器的参数并入所提出的网络架构中完成端到端微调。

仅限于CAVE数据集对网络进行预训练,并随后分别采用CAVE数据集以及哈佛大学的数据集对网络模型进行进一步微调

评价指标:

降低分辨率下重建的 HR-HSI 的质量:PSNR、SAM、SSIM、ERGAS、RMSE

全分辨率实验:QNR、HQNR

结论

与其他最先进的一些方法相比,在线性空间直射变换估计方面表现出显著的效果。然而,在我们提出的方法中,在成像体素之间发生较大位移的情况下仍可正常运行。当成像体素之间发生较大位移时(即成像体素之间的相对运动超过一定阈值),可能会导致失效现象的发生。因此,在未来研究工作中重点应放在为了提升网络性能并使其适应于匹配效果良好以及未匹配的情况

全部评论 (0)

还没有任何评论哟~