Advertisement

An Improved Swin Transformer-Based Model for Remote Sensing Object Detection and Instance Segmentati

阅读量:

原文链接:https://mdpi.com/2072-4292/13/23/4779

遥感图像目标检测与实例分割是研究重点领域之一。 卷积神经网络(CNN)在遥感图像的目标检测方面仍显不足。 近年来基于Transformer的研究逐渐增多并取得了显著成果。 然而Transformers在小目标检测效果及边缘细节分割方面仍有待提升。 针对这些问题我们结合了Transformer与CNN的优势改良了Swin Transformer提出了局部感知Swin Transformer (LPSW)主干以增强网络的局部感知能力并提升了小尺寸目标检测精度及分割质量。 同时我们设计了空间注意交错执行级联(SAIEC)网络框架以提高分割准确性由于缺乏有效的遥感掩模数据集我们构建了MRS-1800遥感掩模数据集在此基础上将改进后的主干网与新型网络框架相结合进行了实验验证结果显示所提出的方法较传统Swin Transformer显著提升了掩模AP值(提高了1.7%)掩模APS值(增加了3.6%)AP值(提升了1.1%)以及APS值(增长了4.6%)。 这些结果充分证明了该方法的有效性和可行性

在这里插入图片描述

自从两阶段目标检测算法出现以来,各种基于卷积神经网络(CNN)的目标检测和分割算法相继出现,例如基于区域的CNN(R-CNN)、Faster R-CNN [6]、 和 Mask R-CNN [7]。 近年来,虽然出现了许多优秀的算法,如路径聚合网络(PANet)[8]、Mask Score R-CNN [9]、Cascade Mask R-CNN [10]以及按位置分割对象(SOLO)[ 11],典型的问题仍然存在,例如分割边缘不准确和全局关系的建立。 如果通过扩张卷积或增加通道数来捕获长程依赖性,则会因模型的扩展而发生维度灾难。
CNN 对于提取局部有效信息很有用,但缺乏从全局信息中提取远程特征的能力。 受到 Transformer [12] 中使用自注意力的启发,为了挖掘文本中的长程相关依赖关系,许多计算机视觉任务提出使用自注意力机制来有效克服 CNN 的局限性。 自注意力机制可以更快地获取远程元素之间的关系,并关注图像的不同区域并整合整个图像的信息。 视觉变换器(ViT)[13]是图像识别领域具有代表性的最先进(SOTA)工作。 它仅使用自注意力机制,这使得图像识别率远高于基于CNN的模型。 使用变压器进行端到端目标检测(DETR)[14]首先涉及变压器在高级视觉中的使用。 这添加了位置信息来补充图像特征并将其输入到变压器结构中以获得预测的类标签和边界框。 虽然基于Transformer的算法极大地提高了目标检测效果,但在CV领域仍然存在严重的问题:
对小尺度物体检测性能低,局部信息获取能力弱。
当前基于Transformer的框架主要用于图像分类,但单级Transformer很难在密集预测场景的实例分割上产生良好的结果。 这对于高分辨率、复杂背景、小物体的遥感图像中的物体检测和实例分割有很大影响。
本文的主要贡献可概括如下:
为了克服CNN提取全局信息能力差的缺点,我们选择Swin Transformer作为基本骨干网络,构建用于遥感图像目标检测和实例分割的网络模型。
根据遥感图像的特点,我们提出了局部感知Swin Transformer(LPSW)骨干网络。 LPSW结合了CNN和Transformer的优点,增强局部感知能力,提高小尺度物体的检测精度。
提出了空间注意交错执行级联(SAIEC)网络框架。 通过多任务方式和改进的空间注意模块增强了网络的掩模预测。 最后,将LPSW作为骨干插入到设计的网络框架中,建立新的网络模型,进一步提高模型检测和分割的准确性。
针对现有遥感实例分割数据集的不足,我们从现有公共数据集中共选取了1800张多目标类型图像进行标注,创建了MRS-1800遥感掩模数据集作为本文的实验资源。

基于自注意力机制的深度神经网络(引用文献[12]),最初在自然语言处理领域取得应用后逐步扩展到了计算机视觉领域。相较于卷积神经网络(CNN),Transformer的优势体现在利用自注意力机制捕捉全局信息以建立对象间的长期依赖关系,并提取更为强大的特征表示。自注意力机制的工作流程如图2所示:对于输入序列中的每一个元素而言,它将通过三个可学习矩阵分别生成查询(Query)、键(Key)和值(Value)向量。在评估序列中某一项与其他项之间的关联程度时,计算其查询向量与各对应键向量之间的点积操作成为核心步骤;点积结果经过缩放处理后作为输入进入后续计算环节

在2020年时,Carbon等人结合CNN与Transformer构建了端到端式的DETR目标检测架构,首次实现了Transformer技术在目标检测领域的应用.随后,朱等人则提出了基于可变卷积神经网络的Deformable DETR模型.接着,郑等人开发出带自适应聚类变压器(ACT)的目标检测系统,旨在降低自注意力机制的计算复杂度.DETR通过附加掩模头至解码器,实现了对全景分割任务的有效扩展.后来,王等人提出了一种基于Transformer的视频实例分割(VisTR)模型,该系统能够从一系列图像中生成精确的目标预测结果.然而,尽管这些模型在目标检测方面表现尚可,仍存在诸多局限性:例如,DETR系列模型在检测速度上较为迟缓且对小型物体的识别效果欠佳.

变换器中的位置编码很容易无法检测到图像的局部相关性和结构信息。 尽管 Swin 变换器具有分层结构中连续层的移位窗口方案,但大范围的空间上下文信息仍然没有得到很好的编码。 为了缓解这个问题,我们提出了局部感知块(LPB),将其插入到 Swin 变换器块的前面。 局部感知块的组成如图4a所示。
考虑到Swin Transformer中的数据流由向量组成,而不是传统CNN中的特征图,在LPB中,它首先将一组向量特征重塑为空间特征图。 例如,将标记(B,H * W,C)重塑为特征图(B,C,H,W)。 然后添加一层3×3扩张卷积(扩张=2)和GELU激活函数,并使用残差连接来增加空间局部特征的提取,同时保持感受野足够大。 最后,特征图被重塑为(B,H,W,C)并发送到 Swin 变压器块。
通过扩张卷积的特性,增加了空间图像的感受野,使得大范围的上下文信息可以在不同尺度上得到很好的编码。 空洞卷积是由Yu和Koltun[33]于2015年提出的。与传统的卷积操作相比,空洞卷积支持感受野的扩展。 值得注意的是,传统的 3 × 3 卷积每个都有一个 3 × 3 的字段。 如果是相同核大小的空洞卷积(dilation = 2),则感受野为7×7。因此,空洞卷积可以在不损失特征分辨率的情况下扩展相应的域。
![on\()

全部评论 (0)

还没有任何评论哟~