Advertisement

Efficient Camouflaged Object Detection Network Based on Global Localization Perception and Local

阅读量:

论文链接:

https://ieeexplore.ieee.org/document/10379651

这篇文章发表在TSCVT 2024上

摘要

Introduction

在复杂环境中分割伪装目标存在一些问题,这主要有以下两个原因。

前景与背景的高度相似性,在试图通过扩大感受野来获取全局感知能力时往往会误将伪装目标引导至错误的位置;由此可知,在局部视角(local view)下定位伪装目标时容易出现偏差

伪装目标通常具有复杂的边界特征和丰富的细节描述,在多尺度信息处理上存在不足会导致分割结果出现边界模糊现象。

此外,大多数之前的COD方法经常忽略模型计算效率的问题。

Related Work

1.显著目标检测(Salient Object Detection)

2.伪装目标检测(Camouflaged Object Detection)

3.Transformer

Proposed Method

模型结构图如下图所示

A.OverView

该模型由以下三个子模块构成:基于序列到序列 Transformer 的特征抽取主干网络、以 cascade 方式实现注意力感知的 CAP 模块以及通过引导细化进行解码的 GPD 网络。其中 SMT 参数源自于另一篇论文的研究成果

在SMT框架中包含基于卷积神经网络(CNN)实现的尺度感知模调块(SAM),此外还有由ViT与CNN共同提取的特征支持的多头自注意力机制块(MSA)以及混合块(MIX)。该架构逐步建模从局部到全局的信息依存关系。

随后,在处理伪装目标时,CAP模块采用了自顶向下的方法来捕捉其多层次特性,并通过高效的整合实现了各层次信息的有效结合。最后,在应对复杂伪装的目标时,我们开发了一个名为GRD的模块,并利用高层语义指导低层特性的提取与优化。(该模块的设计初衷是为了在复杂的环境中实现精准识别)通过持续整合各层次信息,在分割过程中逐步细化并提升精度。此外,在监督机制方面,我们采用了多层次策略以协调各个阶段的学习过程

B.Feature Extraction Backbone

在Cod任务中,基于卷积神经网络(CNN)的主要部分缺乏全局视角引导,容易受到噪声背景中的强烈干扰,从而导致对伪装目标定位出现偏差。相比之下,基于自注意力机制的设计(Self-Attention)能够有效地建模全局信息并精确识别伪装目标,但将其应用于高分辨率特征图带来了计算开销。为了平衡分割精度与计算效率,合理结合两种架构能够显著提升该任务在分割方面的准确性,同时降低了整体计算资源的需求量

在该研究中,我们采用了混合架构(SAM),Scale-Aware Modulation Transformer(SMT)作为特征提取的主要模块.该结构层次化地组织网络单元,能够有效捕捉不同尺度的空间关系.具体而言,SMT包含四个功能模块:前两个模块基于卷积神经网络(CNN)结合Scale-Aware Modulation块(SAM)进行多尺度特征提取;第三个模块引入Multi-head自注意力机制对SAM输出进行融合处理;最后一个模块则通过多头自注意力(MSA)获取全局表征信息.为了降低模型参数量,SAM-T被采用作为轻量化设计方案

C.Cascade Attention Perceptron

Cascade是级联。

鉴于伪装目标尺寸差异明显(词汇替换),其定位不同尺度的目标位置具有重要意义(语序调整)。为了解决这一问题(词汇替换),我们开发了 Cascade attention Perception 模块(保留名称)。

通过查看图2可知,在自顶向下的架构下,系统能够实现对高级语义特征与低层特征逐步整合。

其中的MAM模块如下图:

针对Fi-1层,在完成卷积运算后配合上采样操作以调整其空间尺寸。随后使其与当前层fi的空间尺度保持一致。考虑到各分支模块间在通道维度上的相似特性,在设计过程中旨在消除各分支间的冗余参数并优化计算效率。为此我们将每个输入样本拆分为两个独立的部分分别负责不同的功能。每条分支仅保留原始一半的数量之后将第一条分支输出后的fh'与第二条分支输出后的fl'进行通道维度的拼接 并利用3×3卷积模块提取全局语义信息生成最终特征fin

借助CAP技术, 我们成功地实现了多尺度特征的整合。 依赖于高层语义信息与低层细节特征, 我们能够精确识别图像中的不同尺度内容。 同时,在注意力机制的支持下, 我们能够从多维度识别伪装物体, 确保全面捕捉其关键特征。

D.Guided Refinement Decoder

COD任务的挑战之一是实现具有复杂轮廓的伪装的清晰和准确分割。

为了解决这一问题, 我们开发了一种新型引导细化解码器(Guided Refinement Decoder, GRD). 该系统通过多级特征作为指引作用于低层特征, 主动过滤掉对低层特征产生不利影响的噪声信息. 此外, 为了进一步优化轻量级backbone模型在特征求取方面的不足, 我们引入了四个Partial Convolution Modules(PCM)来深化上下文表征能力.

全部评论 (0)

还没有任何评论哟~