Advertisement

SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient object detection

阅读量:

SwinNet:Swin Transformer 驱动边缘感知 RGB-D 和 RGB-T 显着目标检测

IEEE Transactions on Circuits and Systems for Video Technology2021


一 动机

卷积神经网络(CNN)专长于在特定区域捕捉局部空间关系;而Transformer具备对长距离依存关系信息建模的能力。Swin Transformer通过融合卷积神经网络的本地特性与Transformer的远距离依存建模能力实现了双重优势。

二 方法

在此基础上,研究者开发了一种基于 RGB-DRGB-T 的关键目标检测任务中的跨模态融合模型 SwinNet

该方法基于Swin Transformer 摸索层次特征,通过融合通道注意力与空间注意力, 动态平衡两组特征, 并由边缘细节引导机制 能够有效强化关键区域

具体而言,在双流架构的基础上构建了Swin Transformer编码器,并通过引入空间配准与通道再平衡机制来优化层内跨模态特征之间的相互作用关系。随后,在明确模糊边界的基础上设计了一种基于边缘引导机制的解码过程,在这一过程中通过边缘特征辅助实现了层间跨模态信息的有效整合与融合。

三 网络框架

由四个核心模块构成:第一部分为双路径主干网络;第二部分包含通道对齐与空间校准组件;第三部分负责边缘检测组件;第四部分采用边缘导向解码器进行信息整合。

3.1两流 Swin Transformer 主干

3.2空间对齐和通道重新校准模块

首先,在不同模态之间显着对象的位置应当一致。
为此必须首先对齐不同模态的特征以便突出共同显着区域。
同时由于 RGB 图像则包含丰富的外观细节和纹理信息。
深度图像则提供了丰富的空间信息。
因此提出了一种包含空间对齐与通道重新校准功能的新模块。
它首先在空间部分对齐两个模态然后分别进行各自的通道校准处理。

首先计算公共空间注意力

然后,以公共空间注意图为颜色特征和深度特征赋予权重,并通过下述方式实现两种模式的空间对齐:

第三,空间部分

在各模式中对齐特征各自进行通道注意处理后产出通道注意力图,并将其重点内容上赋予更高的权重

最后,将每个通道注意力图与原始特征相乘以实现通道重新校准

在空间对齐和通道重新校准模块之后,增强的特征

实现了位置对齐和通道重新校准 ,表现出更强的表示能力。

3.3边缘感知模块

在高层空间表征中蕴含着丰富的语义信息,在低层次提取能够捕获图像细节,在深层结构分析能够突出边缘特性的基础上,则基于此可推导出:深度浅层特征将被用于生成边缘表征。

具体来说,

通过执行1×1卷积运算与上采样运算的过程来生成三个相同大小的特征,并将其整合以形成边缘特征

接下来,在处理获得的边缘特征时,采用通道关注与残差连接机制的方法,进一步提升边缘特征的质量。

BConv(·)代表3×3卷积、批归一化层和ReLU激活

边缘感知模块输出边缘特征

,这些特征将用于指导模型的解码过程并增强细节

3.4边缘引导解码器

在空间对齐、通道重新校准以及边缘特征提取的基础上(在完成一系列前向过程的操作之后),解码器通过融合这些多模态强化的层次化表示与原始边缘信息(经过初步处理后的数据),生成显著的边缘导向特性(通过复杂的计算模型得到的结果)。

接下来,根据 U-Net 框架[72]中广泛使用的解码思想,通过以下方式将高级融合特征 逐步聚合为浅层融合特征

最后,在边缘检测模块中将边缘特征与融合特征相结合以生成显著特征 Fs

全部评论 (0)

还没有任何评论哟~