Advertisement

COD论文笔记 Deep Gradient Learning for Efficient Camouflaged 2022

阅读量:

动机

这篇论文的主要动机源于解决伪装目标检测(COA)中的一个关键问题:在复杂背景下的伪装目标与背景之间的边界模糊现象会导致检测异常困难。现有的方法主要基于边界特征或不确定性度量(如基于边界或不确定性的模型),通常只能捕捉到伪装目标的稀疏边缘信息,并因此在复杂场景中容易引入误判特征。针对上述挑战,在深入分析现有技术局限性后,本研究提出了一种全新的深度学习框架

贡献

开发创新技术架构 :本研究团队成功构建了一个以深度梯度为理论基础的新体系结构——DGNet(Deep Gradient Network),特别针对目标伪装检测场景设计。该体系通过模块化设计将整体功能拆分为上下文提取与纹理分析两大功能单元,并实现了两者的高效协同工作机制,在提升检测精度的同时显著降低了运算复杂度。

构建梯度诱导过渡机制

高效模型DGNet-S:采用了先进的参数优化策略,在保证检测精度的前提下实现了更低的计算开销(6.82%),并成功达到了实时处理速度(80帧每秒)。

多种应用场景

创新点

基于梯度的对象监督:与现有方法不同的是,在DGNet中采用了基于梯度的对象监督机制(即对象梯度监督),不仅能够深入分析伪装目标内部的特征模式(即判别性模式),而且显著降低了外部干扰信息(即噪声特征)对模型训练的影响。

任务分离:通过将任务拆分为上下文与纹理两个分支来优化处理流程。

梯度诱导过渡组件:开发了一种高效且灵活的模块化结构,在组内和组间之间实现了特征的有效融合与共享,并基于多源数据特征空间实现了高效的表示能力提升。

高效率的运算与参数使用:DGNet-S不仅能够维持其卓越的性能水平,在模型规模与运算负担方面也展现出显著优势。此外,在保持高性能的同时其还大幅减少了模型参数数量与计算开销。

这些主要的研究动机、理论贡献以及创新性成果共同组成了该论文的核心研究内容,并不仅体现了DGNet在伪装目标检测任务中具有明显的优势

3.1 Context Encoder

输入和编码器选择

  • 输入图像 I∈R3×H×WI ∈ ℝ³ × H × W。
    • 采用EfficientNet模型作为上下文编码器以提取金字塔特征序列 {Xi}{X_i}_{i=1}^5。

特征降维

  • 针对解码阶段高效率的一次性像素级操作需求,在具体实施中主要包含以下两个步骤:
    • 首先,在特征选择环节中仅提取i=1至i=2时的所有特征点(即i取值为1、2),这种选择策略充分保留了视觉场景的语义信息。
    • 其次,在降维处理模块中通过连续应用两组ConvBR层来降低空间维度,在此过程中确保每个候选区域的空间维度降到Ci维,并通过这种设计有效降低了后续计算负担。

最终输出

在经过上述步骤后,在\{X_{R_i}\}_{i=3}^{5}中包含了三个上下文特征\mathbb{R}^{C_i \times H_i \times W_i}$),其中Ci C_i, Hi = H / (2^ i), W i = W / (2^ i)分别代表特征图中的通道数量、高度以及宽度。这一过程使得每个层级的特征图在空间分辨率上逐步减半。

核心点

  • EfficientNet被用作编码器的主要原因是由于其高效的计算效率和卓越的特征提取能力。
    • 为了实现有效降低计算开销的目的,在保持原有特征表达能力的基础上采用了了一系列降维步骤。

综上所述,本节深入阐述了基于EfficientNet模型对输入图像进行编码的具体方法,并详细探讨了通过选择合适的特征提取方法和降维策略来获取丰富的上下文特征。此外,不仅能够通过EfficientNet模型实现高效的特征提取,并且还能够通过选择和降维策略来优化特征表示的质量。这些技术手段共同为后续的解码过程提供了高效且具有语义丰富性的信息资源。

3.2 Texture Encoder

引入纹理分支

引入一种专门设计的纹理分支,并采用基于对象级梯度图的监督机制进行训练学习;该方法用于弥补几何级特征在纹理表征方面的缺陷。

对象梯度生成

  • 梯度定义:图像梯度表征了强度或色彩在相邻像素间的变化趋势及其方向性特征,在边缘检测与超分辨率重建中具有重要应用价值。
    • 生成流程
      1. 原始图像梯度计算:基于原始图像II进行算子处理以获取基础的图像梯度信息,并不可避免地引入背景噪声干扰。
      2. 消除背景噪声:为了消除背景噪声的影响,在后续处理中引入改进型的目标区域(Object-level)梯度图ZG(即Z_G),该指标不仅包含了目标边界信息还涵盖了目标区域内部的详细色彩变化特征。
      3. 数学表达式
        Z_G = F_E(I(x,y)) \cdot Z_C
        其中符号说明如下:
  • F_E表示标准Canny边缘检测算子
  • ⋅ 表示元素级乘法运算

纹理编码器设计

  • 由于高分辨率的低层特征会导致计算开销增加,在编码器的设计过程中采用了轻量级架构以解决这一问题。

    • 层次结构
      1. 使用卷积模块与ReLU激活功能结合体对输入图像进行预处理。
      2. 其中层次细节部分负责提取并融合输入的空间细节信息。
  • Layer #01: 卷积核尺寸是7的数量级;其输出通道的数量设定在64;参数配置中采用的跨步长值设定在2;各节点之间的连接方式采用的是零填充技术;其填充值设在3的数量级。

  • Layer #02: 卷积操作采用的是一个尺寸较小的滤波器;其参数配置中包含64个输出通道;跨步长值被设定在固定数值上;节点间的连接方式采用了单像素边缘填补策略。

  • Layer #03: 该层的参数配置采用了较小规模的操作单元;其跨步长值被设定在固定数值上;节点间的连接方式采用了单像素边缘填补策略。

  • Layer #04: 该层采用了单像素尺寸的操作单元;其跨步长值被设定在固定数值上;节点间的连接方式采用了无填补策略。

  • 提取纹理特征 :从 Layer #03 中提取纹理特征 XG∈RCg×Hg×WgX_G \in \mathbb{R}^{C_g \times H_g \times W_g} 并由 Layer #04 的对象级梯度图 ZGZ_G 进行监督。

高分辨率保持

*维持高分辨率(具体而言为 Hg=H/8 和 Wg=W/8 的计算),由于使用较低分辨率时会丢失大部分几何细节。

综上所述, 纹理编码器基于对象级梯度图实现了一种有效的监督学习机制, 通过提取出高分辨率的纹理特征信息, 补偿现有几何纹理表示方法中在上下文特征提取方面的局限性, 进而有效提升模型识别伪装目标的能力.

3.3 Gradient-Induced Transition

设计背景

该模块采用了灵活的设计方法,在旨在达成上下文特征与纹理特征之间的自适应融合过程中,并非依赖于简单的连接方式或加法操作,并且引入了一种即插即用梯度诱导过渡(GIT)机制

模块组成

GIT模块由三个核心环节构成:基于梯度引导的分组机制、柔和的聚类策略以及并行残差网络结构。

梯度诱导分组学习

  • 特征分组 :采用梯度诱导分组策略,将三个上下文特征 {XRi}i=35{X_{R_i}}_{i=3}^{5} 和一个纹理特征 XGX_G 沿通道维度分割为固定的组。
    • 分组公式:
      {XRi,m}m=1M∈RKi×Hi×Wi←XRi∈RCi×Hi×Wi{X_{R_i,m}}{m=1}^{M} \in \mathbb{R}^{K_i \times H_i \times W_i} \leftarrow X{R_i} \in \mathbb{R}^{C_i \times H_i \times W_i}{XGm}m=1M∈RKg×Hg×Wg←XG∈RCg×Hg×Wg{X_{G_m}}_{m=1}^{M} \in \mathbb{R}^{K_g \times H_g \times W_g} \leftarrow X_G \in \mathbb{R}^{C_g \times H_g \times W_g} 其中,←\leftarrow 表示特征分组操作,Ki=CiMK_i = \frac{C_i}{M} 和 Kg=CgMK_g = \frac{C_g}{M} 分别表示每个特征组的通道数,MM 是相应的组数。

通道重组:通过有序排列上下文与纹理特征构建重组特征 QiQ_i:

软分组策略

  • 多尺度非线性投影 :源自异构计算架构,并结合了多个独立的支路(即 {N1,N2,N3}{N_1, N_2, N_3})进行软划分以实现分布式处理。
  • 投影公式:
    ANi=⟨FN1(Qi1);… ;FNn(Qin)…FNN(QiN)⟩A_{N_i} = \langle F1_N(Q1_i); \dots; Fn_N(Qn_i) \dots FN_N(QN_i) \rangle其中,
    FNNQin∈RCiNxHi×Wi=fnQinωnF^{N}_n Q^{(n)}_i \in \mathbb{R}^{\frac{C_i}{N} \times H_i \times W_i} = f_n\left( Q^{(n)}_i, ω_n\right)
    通过引入可学习的非线性函数 fn 来实现软化过程。

并行残差学习

  • 残差连接 :在多级分组感知尺度上嵌入残差学习机制。
    GIT函数 Ti(⋅,⋅) 的定义如下:其中 ZiT=Ti(XRi,XG)=XRi⊕∑NANi 表示为 Z^T_i = T_i(X_{R_i}, X_G) = X_{R_i} \oplus \sum_{N \in N_i} A_N ,其中 N∈{N1,N2,N3} 表示不同组的缩放因子集合;⊕ 符号代表元素级相加操作;∑ 符号表示多项目相加运算;最终输出结果为 {ZiT}i=35∈RCi×Hi×Wi 的形式。

关键点总结

  • 特征的分组与重构 :基于分组和重构策略,该方法能够有效地整合上下文和纹理特征。
    • 软式分组方案 :该方案通过多尺度的非线性映射关系实现目标的增强表征能力。
    • 并行残差模块 :在多尺度环境中执行残差学习操作后可显著提高特征融合效果。

基于梯度引导的过渡模块GIT,在采用了多样化的特征分组方法以及模糊分组策略的基础上,并联 residual 网络架构使其得以实现跨层特征与纹理特征间的高效融合过程,并最终实现了伪装目标检测性能的显著提升效果。

3.4 Learning Details

解码器

基于给定的相关特征 \{X_{R_i}\}_{i=3}^{5} ,首先通过梯度引导过渡函数 T_i(\cdot,\cdot) 生成中间特征 \{Z_i^{\top}\}_{i=3}^{5} 。为了充分利用上述梯度引导特征 Z_i^\top ,请采用邻居连接解码器(NCD)生成最终预测结果 P_C : 其中 P_C 属于 \mathbb{R}^{1\times H\times W} 空间,并由 \textit{NCD}(Z_3^\top,Z_4^\top,Z_5^\top) 计算得到。

损失函数

整体优化指标被定义为:
L=L_{C}(P_{C}, Z_{C})+L_{G}(P_{G}, Z_{G})
其中LCLG分别表示分割损失与对象梯度损失函数。

  • 分割损失 LCL_C:包括加权交并比损失 LwIoUL_{\text{wIoU}} 和加权二值交叉熵损失 LwBCEL_{\text{wBCE}} 两种类型。这些通过根据像素难度自动调整权重系数的方法,在关注全局结构的同时特别关注那些难度较高的像素点。
  • 对象梯度损失 LGL_G:遵循常规均方误差损失函数的标准形式。

训练设置

模型基于PyTorch/Jittor框架实现,并在单个NVIDIA RTX TITAN GPU上进行了训练与推理。
初始化方案表明:模型参数采用[50]策略进行初始化,并通过ImageNet预训练权重构建骨干网络以规避过拟合问题。
本研究从EfficientNet的前三个侧输出(包括stage-4的X_3、stage-6的X_4以及stage-8的X_5)提取特征信息,并丢弃最终的Conv1×1层、池化操作以及全连接层。
针对性能与效率之间的权衡关系,在表2中展示了两个不同版本的设计实例。

训练过程

  • 优化器 :采用Adam优化算法,在基于余弦退火策略的SGDR学习率调节方法下完成参数更新。该方法将最小与最大学习率分别设置为1\text{e}-51\text{e}-4范围,并限定最高调制周期数设定值为20次。
  • 批量大小 :数量设定为B=16(此处注:原文中批大小应更正自"batch size"),同时限定最大训练周期数目设定值不超过N=48次。
  • 数据增强 :在模型训练过程中对所有图像均进行统一尺寸缩放处理至固定大小352×352像素,并结合以下四种增强技术:色彩抖动、随机水平翻转、随机裁剪以及随机旋转操作以提升模型泛化能力。
  • 训练时间 :通过实验验证,在此设计下DGNet模型完成网络收敛所需的时间分别为8.8小时及7.9小时(此处注:原文中时间为"完成时间")。

测试设置

  • 输入调整:对输入图像进行352×352的设置,并在其在三个未见测试数据集上的结果上对比DGNet-S与DGNet的表现。
    • 预测输出:采用最终输出PCP_C作为预测结果,并避免使用任何启发式后处理技术(如DenseCRF)来提升模型性能。

关键点总结

  • 解码器架构:通过NCD解码器有效利用上下文特征,输出高质量的分割预测。
  • 损失函数设计:融合加权交并比损失与加权二值交叉熵损失以关注模型全局结构及高难度像素;基于均方误差损失进行对象梯度指导。
  • 训练优化策略设计:运用高效初始化及优化算法与数据增强技术融合以提升模型收敛性及泛化能力。
  • 测试流程设计:调节输入图像尺寸以直接获取预测输出结果,并避免引入额外后处理步骤以简化推理过程。

在本节中

在这里插入图片描述

图3的详细解释

图3呈现了所设计的DGNet整体架构。该网络由上下文编码器和纹理编码器两个紧密相互作用的部分构成。具体来说,网络结构中的各个组成部分都经过精心规划,以实现高效的图像处理效果。

输入图像 (a) Image

复制代码
 * 输入图像 II 进入上下文编码器和纹理编码器。

上下文编码器 (Context Encoder)

  • 该编码器通过输入图像提取上下文特征{XR_i}_{i=3}{5}。

  • 其输出特征XR_3、XR_4和X^R_5随后进入梯度诱导过渡模块GIT中。

纹理编码器 (Texture Encoder)

  • 纹理编码器通过输入图像提取纹理特征 XGX^G。

  • 输出特征 XGX^G也被引入了梯度诱导过渡模块(GIT)。

梯度诱导过渡模块 (Gradient-Induced Transition, GIT)

  • GIT模块通过整合上下文相关的特征与纹理信息来生成过渡特征 {ZiT}i=35{Z_i{T}}_{i=3}{5}。

  • 该模块包含三个独立的子模块:T₃、T₄与T₅;它们各自完成相应的处理与融合任务。

邻居连接解码器 (Neighbor Connected Decoder, NCD)

  • Generative Inversion Transformer(GIT)生成的目标特征 {ZiT}i=35{ZT_i}_{i=3}{5} 经NCD解码器编码后得到最终预测结果PCP_C。

  • 解码器将多层特征进行融合,并形成伪装目标区域的分割结果。

监督信号 (Supervision Signals)

  • Ground-Truth (b):ground-truth segmentation mask ZCZ^C, 用于计算分割损失函数 LCL_C.
  • Object Boundary ©:作为对比分析, 揭示仅基于边界监督存在的局限性.
  • Image Gradient (e):提取图像梯度特征, 通过计算原始图像 II 的梯度并整合与目标无关的信息.
  • Object Gradient (d):对象梯度图 ZGZ^G, 通过对原始图像 II 和真实标签 ZCZ^C 进行元素逐次相乘提取, 整合了目标边缘及其内部区域的梯度信息, 作为纹理编码器的工作原理, 用于计算梯度损失 LGL_G.

关键流程总结

  • 输入源图像 II 通过并行架构被同时输入至上下文编码器与纹理编码器中。
    • 上下文编码器识别高层语义信息 XiRX^{(i)}(如 X3R, X4R, X5R 等)。
    • 纹理编码器则专注于提取对象内部的几何纹理特征 XGX^{G}。
    • GIT 模块将这些上下文信息与纹理数据进行整合处理,最终生成更具区分力的转换特征 ZiTZ^{T}_{i}。
    • 解码过程由 NCD 模块负责完成:通过对融合后的特征进行解码操作得到分割预测 PCP^{C}。
    • 在监督学习过程中:真实标签 ZCZ^{C} 和目标梯度图 ZGZ^{G} 将被用来分别计算分割损失 LCL_{C} 和梯度损失 LGL_{G}。

通过这种设计,DGNet能够在复杂背景中有效地检测和分割伪装目标。

全部评论 (0)

还没有任何评论哟~