Advertisement

COD论文笔记 Boundary-Guided Camouflaged Object Detection

阅读量:

动机

  1. 挑战性任务 :伪装物体检测(COD)是一个重要且具有挑战性的任务,因为伪装物体往往与背景高度相似,使得准确识别和分割非常困难。
  2. 现有方法的不足 :现有的深度学习方法难以有效识别伪装物体的结构和细节,常常无法提供完整和精确的物体边界。
  3. 边缘语义的价值 :边缘信息对于物体检测中的结构保留非常有用,但在COD任务中尚未得到充分利用。

贡献

  1. 提出新方法 :提出了一种新的边界引导网络(BGNet)用于伪装物体检测,利用边缘语义来提升表示学习,从而提高检测精度。
  2. 设计模块 :设计了边缘感知模块(EAM)、边缘引导特征模块(EFM)和上下文聚合模块(CAM),用于增强边缘语义和多尺度上下文特征的融合。
  3. 实验验证 :在三个具有挑战性的基准数据集上进行广泛实验,证明BGNet在四个常用评估指标上的性能显著优于现有的18种最新方法。

创新点

  1. 边缘感知模块(EAM):整合低级局部位缘信息以及高级全局位置数据以获取与物体边界相关的缘语义,并以此提升特徵学习效果。
  2. 邊緣引导特徵模塊(EFM):將邊緣特徵与其他遮蔽物特徵在不同层级上進行融合,并利用局部通道注意力机制來 extracting关键 channel features, 最大限度地提升語義表現能力。
  3. 上下文聚合模塊(CAM):基于多尺度交互机制, 逐步聚合多層次融合后的 feature, 以進一步提升物體檢測的特徵表示精度。
  4. 模塊的簡化與有效性:相较于基于複雜圖卷積架構的方法(如MGL),BGNet采用了比现有架构更为简洁却依然高效的边緣提取模組, 不仅降低模型複雜性, 更能有效减少計算負荷, 同時还能保持較高的檢測性能水平。

这些驱动因素、贡献以及创新性发现体现出BGNet在伪装物体检测任务中展现出明显优势与卓越性能。

网络结构

在这里插入图片描述

请看图2以展示BGNet的总体架构

下面将深入解析每个组件的工作流程及其相互关联关系

整体架构说明

输入层

  • 输入图像主要依靠Res2Net-50骨干网络来进行特征提取过程。

  • 生成一系列层次(f1至f5)的空间分辨率和通道数量各不相同。

边缘感知模块(EAM)

  • EAM模块整合了低层特征图f2(含局部边缘信息)与高层特征图f5(含全局位置信息)。

  • 通过整合这些特征来生成与物体边界相关的边缘特征fe。

  • EAM模块专注于生成突出物体边缘的特徵, 以便模型更加精准地定位并分离出隐藏的目标物體。

边缘引导特征模块(EFM)

EFM模块在各个层级上系统整合边缘特征fe及其对应的层级特征(f2, f3, f4, f5)。
* 通过局部通道注意机制(LCA)加强各特征通道间的交互作用以提取关键语义信息。
* 融合后得到的特征(fei)用于指导伪装物体的表示学习增强边界与结构信息。

上下文聚合模块(CAM)

  • CAM模块自上而下地逐层整合多层次融合特征。
  • 基于跨尺度交互机制(如扩展卷积),能够获取多尺度的空间语义信息并优化特征表征。
  • 其输出结果被用于生成最终的目标物假置预测。

损失函数(Loss Function)

  • Mask-Based Supervision (Go): 采用加权二值交叉熵损失(LwBCE)和加权IOU损失(LwIOU)来指导模型训练过程,并对难以分割的像素给予更高的权重。

    • 边缘监督(Ge)
      • 使用Dice损失(Ldice)处理正负样本之间的不平衡问题。

总损失函数(Ltotal)全面纳入了这些监督信息,并由权重参数λ用于协调这些项之间的关系。

总结

  • 该图显示了BGNet通过EAM模块提取边缘特征的过程,在此基础上EFM模块整合了这些边缘信息,并利用CAM模块汇集了各层次特征信息。
    为了实现这一目标BGNet设计了一套完整的特征融合体系。
    经过实验验证该方法能够高效地识别并分割出伪装物体。
    与传统方法相比BGNet在性能上有了明显提升。

EAM

在这里插入图片描述

图3具体呈现了边缘感知模块(EAM)的架构。该模块的主要目标是提取与伪装物体相关的边缘特征。以下将详细阐述该模块的工作流程。

输入特征

  • f2:由主干网络提取的初级特征,在图像中捕捉到了局部边缘细节,并具有大小为104×104×256的空间维度。
  • f5:由主干网络提取的高级特征,在图像中捕捉到了整体布局特点,并具有大小为13×13×2048的空间维度。

步骤详细说明

1x1卷积降维

  • 对各层网络分别施加单像素卷积操作以降低其特征通道数量至指定值。 *

  • 具体而言,在该过程的细节中,每层网络经过单像素卷积后将输出对应维度的空间特征图及其缩减后的通道数量。 *

上采样

复制代码
 * 对低分辨率的f5’进行上采样,使其尺寸与f2’匹配(104×104×256)。

特征融合

复制代码
 * 将f2’和上采样后的f5’进行特征拼接(Concat),得到融合特征。

卷积层处理

在融合特征的基础上施加两个3×3卷积层(分别具有64个和1个输出通道),接着施加一个1×1卷积层以完成特征提取。

激活函数

复制代码
 * 最后通过Sigmoid激活函数得到边缘特征图fe。

作用

*由EAM模块整合低级与高级特征所提取的边缘特征与伪装物体边界相关。这些边缘特征则被EFM模块用于进一步应用以提高伪装物体的检测与分割性能。

小结

EAM模块在设计上具有简洁性且具备实用性,在充分运用低级特征中的局部边缘信息以及高级特征中的全局位置信息的基础上,在卷积运算结合上采样技术下生成了高质量的边缘特征图,并为后续模块提供了更为丰富且有深度的语义信息。

EFM

在这里插入图片描述

图4呈现了边缘引导特征模块(EFM)的具体架构。其主要目标是整合边缘特征以引导表示学习,并增强特征表示效果。请详细阐述该模块的工作流程:首先通过提取边缘特性和进行归一化处理来构建基础表征;接着利用自适应机制动态选择最具代表性的局部特性;最后将全局语义信息与局部细节特性有机融合,并通过深度神经网络实现多级特性融合与优化。

输入特征

  • fi:由骨干网络中的多级特征(包括f2至f5)构成,并表示输入信号所包含的关键信息。
    • fe:由EAM模块提取的边缘特征。

步骤详细说明

边缘特征的下采样

复制代码
 * 对边缘特征fe进行下采样(D),使其尺寸与输入特征fi匹配。

特征融合

通过逐元素相乘过程(⊗),将下采样后的边缘特征fe与输入特征fi融合。
完成逐元素相加过程(⊕),获得初始融合特征。

通过逐元素相乘过程(⊗),将下采样后的边缘特征fe与输入特征fi融合。
完成逐元素相加过程(⊕),获得初始融合特征。

卷积层处理

复制代码
 * 将初始融合特征通过一个3x3卷积层,以提取进一步的特征表示。

全局平均池化(GAP)

复制代码
 * 对卷积后的特征图进行全局平均池化(GAP),得到全局特征向量。

通道注意力机制

通过1D卷积(Conv 1d)作用于全局特征向量来捕获跨通道的局部交互信息,并通过Sigmoid激活函数计算出通道注意力权重。

通道加权

  • 通过通道注意力权重与初始融合特征进行按元素计算乘积(⊗),得到加权特征。
    • 经过应用1x1卷积层(Conv 1x1)处理后的加权特征,最终获得输出特征fa_i。

作用

  • EFM模块基于融合边缘特征和输入特征,并借助通道注意力机制来提升重要特征的表现力的同时抑制冗余信息。
    • 该模块在不同层级被应用于加深模型对物体边界及结构的理解,并进而提升其检测与分割伪装物体的能力。

小结

EFM模块通过融合边缘特征与输入特征,并采用通道注意力机制,在提升特征求取能力方面表现出色。该模块在保留关键边缘信息的同时,在增强特征求取能力方面取得了显著效果。

CAM

在这里插入图片描述

图5呈现了 CAM 模块的具体架构设计。CAM模块旨在通过多尺度上下文语义挖掘来提升特征表示能力。以下将详细阐述该模块的工作流程

输入特征

  • fai 和 fc i+1 :分别表示来自EFM模块的特征和来自上一级CAM模块的特征。

步骤详细说明

特征融合

  • 第一步通过将fai与上一级CAM模块的输出特征fc i+1连接(Concat),生成初始聚合特征fm。

  • 接着应用1×1卷积层至fm上,并对其通道数进行缩减。

跨尺度特征分割

通过均等分割的方式将经过处理后的初始聚合特征fm划分为四个特征图,并分别对应于f1m、f2m、f3m和f4m

跨尺度交互学习

  • 对每个特征图分别应用一次3\times 3卷积运算,在其卷积核的扩张率依次设置为1至4的情况下实施操作。

  • 这种设计能够有效提取不同尺度的空间关系。

  • 具体而言,在第m层中:

    • f_1'^{(m)} = \text{Conv}_{\text{dil}}^{(1)}(f_1^{(m)}, f_2^{(m)})
    • f_2'^{(m)} = \text{Conv}_{\text{dil}}^{(2)}(f_1^{(m)}, f_2^{(m)}, f_3^{(m)})
    • f_3'^{(m)} = \text{Conv}_{\text{dil}}^{(4)}(f_2^{(m)}, f_3^{(m)}, f_4^{(m)})
    • f_4'^{(m)} = \text{Conv}_{\text{dil}}^{8}(f_4^{(n-1)}, f_{5}^ {(n-1)})

多尺度特征融合

通过上述四个经过卷积运算后的特征图进行特征拼接(concat),然后通过一个1×1尺寸的卷积层来进行处理从而得到融合后的特征图

最终输出

  • 将融合后的特征执行逐元素相加运算(element-wise addition),随后经过一个大小为3×3的卷积层进一步处理以生成最终输出特征fi。

作用

  • CAM模块通过逐层融合多尺度特征信息,在不同层次上提取并识别目标物体的上下文语义特性。
    • 该跨尺度特征交互与融合策略能够提升模型在伪装物体检测与分割任务中的性能水平。

小结

CAM模块基于多尺度特征交互机制与跨尺度空间关系融合技术,在特征表示增强方面表现突出。该模块的设计不仅增强了模型对伪装物体的理解与表征能力,并且显著提升了模型在目标检测和分割任务中的性能水平。

实验细节

实验细节总结

这篇论文在实验部分具体阐述了模型实现方案、评估标准以及所使用的数据集,并作为对实验结果的关键回顾。

1. 实现细节
  • 架构:该模型基于PyTorch框架实现。
    • 主干网络:采用了基于预训练模型的Res2Net-50结构。
    • 输入尺寸:所有输入图像均被统一调整为统一大小的416×416像素图像。
    • 数据增强:通过随机水平翻转操作进行数据增强处理。
    • 批量处理规模:实验中将批量处理规模设定为固定值16。
    • 优化算法:本实验采用Adam优化算法(Adam),起始学习率为1×10^-4,并采用多项式衰减策略(poly),衰减因子设定为0.9以实现学习率下降效果。
    • 硬件配置:实验运行环境选用NVIDIA Tesla P40显卡,在加速训练过程中约需投入约2小时时间即可完成全部迭代计算任务。
2. 数据集
  • CAMO :由1{,}250幅伪装图像构成,在涵盖八个不同类别的基础上具备高度通用性。
    • COD10K :包含了10{,}00幅图像,在覆盖78个不同伪装物体类别的同时具备高质量的颜色平衡、对比度以及清晰度。
    • NC4K :包含了约$4{,}千余幅图像,并专门支持伪装物体的位置与排序注释。
    • 训练数据集与验证数据集:基于CAMO与COD-1OK构建的数据集构建了统一的人脸识别系统;而针对NC-4K则采用了独立的数据源进行验证。
3. 评估指标
  • MAE(M) 通过量化预测值与真实值之间的差异程度来反映模型的表现水平。
    • 加权F-measure(Fwβ)
      衡量检测系统在精确性与召回率方面的平衡效果。
      它采用加权方法综合考虑不同类别样本的重要性差异,
      能够更客观地评价模型的整体性能表现。
    • 结构度量(Sα)
      是一种基于图像分割质量的评价指标,
      主要通过比较分割后的图像与其对应的参考掩膜的空间布局一致程度,
      来衡量分割算法的效果优劣。
    • E-measure(Eφ)
      是一个综合性的评价指标,
      它能够从多个维度全面反映目标检测系统的整体性能表现,
      包括定位精度、覆盖程度等多个关键指标的集成评价效果,
      能够有效避免单一指标可能带来的局限性问题。
4. 对比方法

论文与18种最新的伪装物体检测和显著性物体检测模型进行了比较,包括:

  • 具有显著性的物体检测模型:包括 PoolNet、EGNet 等。
    • 具有伪装功能的物体检测模型:包括 SINet 等。
5. 实验结果
  • 定量比较:在CAMO、COD10K和NC4K数据集上进行测试后发现,在四个关键评估指标上BGNet均显著超越其他对比方法。例如,在Sα、Eφ、Fwβ三个指标上BGNet分别较第二名JCSOD提升了1.80%、1.40%和3.55%。
  • 定性比较:通过可视化分析可以看出,在一些典型样本中BGNet不仅成功识别出伪装物体还能保持更为清晰的边界轮廓和细节特征。
  • 边界探索:与MGL模型相比BGNet不仅在边缘信息提取方面表现更为出色而且在对伪装物体预测能力上也展现出更卓越的表现。
6. 消融实验
  • 功能单元贡献 :通过系统性引入EAM、EFM和CAM功能单元来考察各功能单元的作用及其相互关系,在实验结果中发现每个功能单元均能带来明显性能优化。
  • EAM相关的输入特性 :探究影响EAM的不同输入特性组合,在测试中发现f2与f5的组合表现最优。
  • 超参数λ :分析不同λ值对损失函数表现的影响,在实验验证中发现当λ取3时模型性能达到最佳状态。

小结

本研究通过严谨的实验方案和深入的比较分析,在多维度评估中展现出明显优势。

全部评论 (0)

还没有任何评论哟~