论文总结【2024.11】IEEE Transactions on Geoscience and Remote Sensing
IEEE Transactions on Geoscience and Remote Sensing
1、FFCA-YOLO for Small Object Detection in Remote Sensing Images【FFCA-YOLO 用于遥感图像中小目标检测】
特征表示不足、背景混淆 等问题使得遥感中小目标的探测 任务变得艰巨。特别是当算法将部署在机上进行实时处理时,这需要在有限的计算资源下对准确性和速度进行广泛的优化。为了解决这些问题,本文提出了一种称为特征增强 、融合和上下文感知 YOLO (FFCA-YOLO) 的高效检测器。FFCA-YOLO 包括三个创新的轻量级和即插即用模块**:功能增强模块 (FEM)、功能融合模块 (FFM) 和空间上下文感知模块 (SCAM)** 。这三个模块分别提高了局域网感知、多尺度特征融合和全局关联跨信道和空间的网络能力,同时尽可能避免增加复杂性。因此,小物体的弱特征表示得到了增强,并且可混淆的背景被抑制了。使用两个用于小目标检测的公共遥感数据集 (VEDAI 和 AI-TOD) 和一个自建数据集 (USOD) 来验证 FFCA-YOLO 的有效性。FFCA-YOLO 的准确率达到 0.748、0.617 和 0.909(以 mAP50 为单位),超过了几个基准模型和最先进的方法。同时,FFCA-YOLO 的稳健性也在不同的模拟降解条件下得到了验证。此外,为了在保证效率的同时进一步减少计算资源消耗,通过基于部分卷积 (PConv) 重建 FFCA-YOLO 的主干和颈部,优化了 FFCA-YOLO (L-FFCA-YOLO) 的精简版。与 FFCA-YOLO 相比,L-FFCA-YOLO 具有更快的速度、更小的参数尺度和更低的计算能力要求,但精度损失很小。源代码将在 https://github.com/yemu1138178251/FFCA-YOLO
2.用于遥感图像语义分割的 Swin Transformer 嵌入 UNet
Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation
全局上下文信息 对于遥感 (RS) 图像的语义分割至关重要。然而,现有的大多数方法都依赖于卷积神经网络 (CNN),由于卷积运算的局部性,直接获取全局上下文具有挑战性。受具有强大全局建模能力的Swin transformer 的启发,我们提出了一种名为 ST-U 形网络 (UNet) 的新型 RS 图像语义分割框架,它将 Swin transformer 嵌入到经典的基于 CNN 的 UNet 中。ST-UNet 构成了 Swin 变压器和 CNN 并行的新型双编码器结构。 首先,我们提出了一个空间交互模块(SIM),它通过建立像素级关联来对 Swin transformer 块中的空间信息进行编码,以增强被遮挡对象的特征表示能力。其次,我们构建了一个特征压缩模块(FCM),以减少细节信息的损失,并在 Swin transformer 的补丁标记降采样中浓缩更多的小尺度特征,从而提高了小尺度地面目标的分割精度。最后,作为双编码器之间的桥梁,关系聚合模块 (RAM) 旨在将 Swin 转换器的全局依赖项分层集成到 CNN 的功能中。我们的 ST-UNet 分别对 ISPRS-Vaihingen 和 Potsdam 数据集进行了重大改进。该代码将在 https://github.com/XinnHe/ST-UNet .
SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing ImagerySuperYOLO:多模态遥感影像中的超分辨率辅助目标检测
准确、及时地检测遥感图像 (RSI) 中包含数十个像素的多尺度小目标 仍然具有挑战性。现有的大多数解决方案主要设计复杂的深度神经网络,以学习与背景分离的对象的强特征表示 ,这通常会导致沉重的计算负担。在本文中,我们提出了一种准确而快速的 RSI 目标检测方法,名为 SuperYOLO,该方法融合多模态数据,利用辅助超分辨率 (SR) 学习 并同时考虑检测精度和计算成本,对多尺度目标进行高分辨率 (HR) 目标检测。首先,我们利用对称紧凑多模态融合 (MF) 从各种数据中提取补充信息,以改善 RSI 中的小目标检测。此外,我们设计了一个简单灵活的 SR 分支来学习 HR 特征表示,该分支可以通过低分辨率 (LR) 输入从广阔的背景中区分小物体,从而进一步提高检测精度。此外,为避免引入额外的计算,SR 分支在推理阶段被丢弃,并且由于 LR 输入,网络模型的计算量减少。实验结果表明,在广泛使用的 VEDAI RS 数据集上,SuperYOLO 达到了 75.09% 的准确率(以 为单位),比 SOTA 大型模型(如 YOLOv5l、YOLOv5x 和 RS 设计的 YOLOrs)高出 10% 以上。同时,SuperYOLO 的参数大小和 GFLOPs 分别比 YOLOv5x 小 18 倍和 3.8 倍。与最先进的模型相比,我们提出的模型显示出有利的精度-速度权衡。
A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation
一种用于遥感语义分割 的多级多模态融合 变压器
近年来,基于多模态融合的分割模型因其与传统的单模态技术相比的出色性能而备受关注。然而,这些模型中的大多数都使用卷积神经网络 (CNN) 或视觉转换器 (Vit) 来执行融合操作 ,导致局部-全局上下文建模和代表性功能不足。在这项工作中,提出了一种称为 FTransUNet 的多级多模态融合方案,通过将 CNN 和 Vit 集成到一个统一的融合框架中,为语义分割提供稳健有效的多模态融合骨干。首先通过卷积层和浅层特征融合 (SFF) 模块提取和融合浅层特征;之后,通过设计良好的融合 Vit (FVit) 提取和融合表征语义信息和空间关系的深层特征。它在三阶段方案中交替应用自适应相互提升的注意力 (Ada-MBA) 层和自我注意 (SA) 层,以学习高类间可分离性和低类内变化的跨模态表示。具体来说,拟议的 Ada-MBA 并行计算 SA 和交叉注意力 (CA),以同时增强内模态和跨模态上下文信息,同时将注意力分布引导到语义感知区域。因此,FTransUNet 可以多层次地融合浅层和深层特征,充分利用 CNN 和 transformer 分别准确描述局部细节和全局语义。广泛的实验证实,与其他多模态融合方法相比,所提出的 FTransUNet 在两个高分辨率遥感数据集(即 ISPRS Vaihingen 和 Potsdam)上的性能优越。
MambaHSI: Spatial–Spectral Mamba for Hyperspectral Image Classification
MambaHSI:用于高光谱图像分类的空间-光谱 Mamba
Transformer 已被广泛用于高光谱图像 (HSI) 分类。然而,由于 transformer 的二次计算复杂性,它在速度和内存使用方面带来了挑战。最近,Mamba 模型 已成为一种很有前途的方法,它具有强大的长距离建模能力,同时保持线性计算复杂性。然而,由于需要集成的空间和光谱理解 ,表示 HSI 对 Mamba 来说是一个挑战。为了弥补这些缺点,我们提出了一种基于 Mamba 模型的新型 HSI 分类模型,名为 MambaHSI,它可以同时对整个图像的远程交互进行建模 ,并以自适应方式集成空间和光谱信息 。具体来说,我们设计了一个空间 Mamba 块 (SpaMB) 来模拟整个图像在像素级的远程交互。然后,我们提出了一个谱 Mamba 块 (SpeMB) 将谱向量分成多个组,挖掘不同谱组之间的关系,并提取谱特征。最后,我们提出了一种空间-光谱融合模块(SSFM),以自适应地集成HSI的空间和光谱特征。据我们所知,这是第一个基于 Manba 的图像级 HSI 分类模型。我们对四个不同的 HSI 数据集进行了广泛的实验。结果证明了所提出的 HSI 分类模型的有效性和优越性。
SAM-Assisted Remote Sensing Imagery Semantic Segmentation With Object and Boundary Constraints
最近开发的segment anything model (SAM) 是一种先进的通用分割模型,它彻底改变了这一领域,为准确高效的分割提供了新的途径。但是,SAM 仅限于生成没有类信息 的分段结果。同时,当前方法预测的分割图普遍表现出过度的碎片化和边界的不准确。 本文介绍了一个简化的框架,旨在通过利用两个称为 SAM 生成对象 (SGO) 和 SAM 生成边界 (SGB) 的新概念来利用 SAM 的原始输出。更具体地说,我们提出了一种新的对象一致性损失 ,并在这项工作中进一步引入了边界保持损失。考虑到 GGO 的内容特征,我们引入了对象一致性的概念,以利用缺乏语义信息的分段区域。通过对对象内预测值的一致性施加约束,对象一致性损失旨在提高语义分割性能。此外,边界保持损失通过将模型的注意力引导到对象的边界信息上,利用了 SGB 的显着特征。在两个著名的数据集 ISPRS Vaihingen 和 LoveDA Urban 上的实验结果表明了所提方法的有效性和广泛的适用性。
RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation Based on Visual Foundation Model
RSPrompter:基于 Visual Foundation 模型的学习遥感实例分割提示
利用来自 SA-1B 的大量训练数据,分割任何东西模型 (SAM) 展示了卓越的泛化和 zero-shot capability"(零样本能力)。 但是,作为一种与类别无关的实例分割方法 ,SAM 严重依赖先前的手动指导,包括点、框和粗粒度掩码 。此外,它在遥感图像分割任务中的性能在很大程度上仍未得到探索和验证。在本文中,我们旨在基于基础 SAM 模型并结合语义类别信息开发一种用于遥感图像的自动化实例分割 方法。从提示学习中汲取灵感,我们提出了一种学习生成适当提示 SAM 的方法。这使 SAM 能够为遥感图像生成语义上可辨别的分割结果,我们称之为 RSPrompter。我们还利用 SAM 社区内的最新进展,为例如分割任务提出了几个正在进行的衍生产品,并将其性能与 RSPrompter 进行比较。来自 WHU 建筑数据集、NWPU VHR-10 数据集和 SAR 船舶检测数据集 (SSDD) 数据集的大量实验结果验证了我们提出的方法的有效性。
RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
RemoteCLIP:用于遥感的视觉语言基础模型
通用基础模型导致了人工智能 (AI) 的最新突破。在遥感方面,已采用自我监督学习 (SSL) 和掩码图像建模 (MIM) 来构建基础模型。但是,这些模型主要学习低级特征 ,并且需要带注释的数据进行微调 。此外,由于缺乏语言理解,它们不适用于检索和零样本 应用程序。为了解决这些限制,我们提出了 RemoteCLIP,这是第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义和对齐文本嵌入的稳健视觉特征 ,以实现无缝的下游应用。为了解决预训练数据的稀缺性,我们利用数据缩放 ,将异构注释转换为基于框到标题 (B2C) 和掩码到框 (M2B) 转换的统一图像-标题数据格式。通过进一步整合无人机 (UAV) 图像,我们生成了12×比所有可用数据集的组合更大的预训练数据集。RemoteCLIP 可应用于各种下游任务,包括零样本图像分类、线性探测、k-NN 分类、少数样本分类、图像文本检索和遥感图像中的对象计数。对 16 个数据集的评估,包括新引入的用于测试对象计数能力的 RemoteCount 基准测试,表明 RemoteCLIP 在不同模型尺度上始终优于基线基础模型。令人印象深刻的是,RemoteCLIP 在 RSITMD 数据集上的平均召回率高出 9.14%,在 RSICD 数据集上的平均召回率高出 8.92%,比最先进的 (SOTA) 方法高出 9.14%。对于零样本分类,我们的 RemoteCLIP 在 12 个下游数据集上的平均准确率比对比语言图像预训练 (CLIP) 基线高出 6.39%。
Multimodal Fusion Transformer for Remote Sensing Image Classification
视觉转换器 (ViT) 在图像分类任务中一直是趋势,因为与卷积神经网络 (CNN) 相比,其性能很有希望。因此,许多研究人员试图将 ViT 纳入高光谱图像 (HSI) 分类任务 中。为了获得令人满意的性能,接近 CNN,变压器需要的参数更少。ViT 和其他类似的转换器使用外部分类 ( 日志服务 ) 令牌 ,该令牌是随机初始化的,通常无法很好地泛化 ,而其他多模态数据集来源,例如光检测和测距 (LiDAR),则有可能通过 日志服务 .在本文中,我们介绍了一种新的多模态融合变换器 (MFT) 网络,它包括一个多头跨补丁注意力 ( mCrossPA ) 进行 HSI 土地覆被分类。我们 mCrossPA 除了 transformer 编码器中的 HSI 之外,还利用其他互补信息源来实现更好的泛化。 分词化的概念用于生成 日志服务 和 HSI 补丁标记,有助于在简化和分层的特征空间中学习独特的表示。在广泛使用的基准数据集上进行了广泛的实验,即休斯顿大学 (UH)、特伦托、南密西西比大学海湾公园 (MUUFL) 和奥格斯堡。我们将所提出的 MFT 模型的结果与其他最先进的转换器、经典 CNN 和传统分类器模型进行了比较。所提出的模型所实现的卓越性能是由于使用了 mCrossPA .
UGIF-Net: An Efficient Fully Guided Information Flow Network for Underwater Image Enhancement
UGIF-Net:用于水下图像增强的高效全导信息流网络
穿过水的光线会导致颜色通道之间的强烈散射,从而限制水下图像的可见性。许多尖端的水下图像增强方法在颜色恢复精度 和对不相关特征干扰的弹性方面遇到了限制。为了应对这些退化挑战,我们提出了一种高效且完全引导的信息流网络 (UGIF-Net),用于增强水下图像。具体来说,我们提出了一个多色空间引导的颜色估计模块,它通过将来自两个颜色空间的特征合并到一个统一的网络中来准确地近似颜色信息。随后,我们采用密集注意力块 (DAB) 来指导网络从两个颜色空间彻底提取颜色信息,同时自适应地感知关键的颜色信息。此外,我们设计了一个颜色引导地图,将网络的重点引导到颜色信息上,并增强其对颜色质量下降的响应。我们将导引地图合并到参考颜色恢复模块中,以实现视觉上吸引人的增强结果。全面的实验表明,我们的方法超越了最先进的方法,展示了良好的图像恢复效果及其帮助其他高级视觉任务的潜力。
Attention Multihop Graph and Multiscale Convolutional Fusion Network for Hyperspectral Image Classification
Attention Multihop Graph 和 Multiscale Convolutional Fusion Network 用于高光谱图像分类
用于高光谱图像 (HSI) 分类的卷积神经网络 (CNN) 已经取得了良好的进展。同时,图卷积网络 (GCN) 也通过使用未标记的数据,广泛而明确地利用相邻地块之间的相关性而引起了相当大的关注。然而,具有固定方形卷积核的 CNN 不够灵活,无法处理不规则模式,而使用超像素来减少节点数量的 GCN 将丢失像素级特征,并且来自两个网络的特征总是部分的。在本文中,为了充分利用 CNN 和 GCN 的优势,我们提出了一种新的多特征融合模型,称为注意力多跳图和多尺度卷积融合网络 (AMGCFN),该模型包括多尺度全 CNN 和多跳 GCN 两个子网络,用于提取 HSI 的多级信息。具体来说,多尺度全 CNN 旨在全面捕获具有不同内核大小的像素级特征,并使用多头注意力融合模块 (MAFM) 来融合多尺度像素级特征。多跳 GCN 通过在不同层上应用多跳图来转换节点之间的关系,从而系统地聚合多跳上下文信息,并采用 MAFM 来组合多跳功能。最后,我们设计了一个交叉注意力融合模块(CAFM),以自适应地融合两个子网络的特征。AMGCFN 充分利用了多尺度卷积和多跳图特征,有利于多级上下文语义特征的学习。在三个基准 HSI 数据集上的实验结果表明,AMGCFN 的性能优于一些最先进的方法。
