Advertisement

Focal and Global Knowledge Distillation forDetectors

阅读量:

摘要

在目标检测领域中研究者指出教师与学生在前景与背景的特征存在显著差异特别是在前景区域往往具有更为丰富的细节信息而背景区域则主要由广延结构构成这种不均匀分布可能导致传统的均等化蒸馏策略无法充分捕捉到关键信息因此我们需要提出一种双重蒸馏框架其中局部蒸馏模块专门处理前景与背景的特征分离问题通过这种设计安排可以使学习器更加关注于教师网络的关键像素及其通道表示同时全局蒸馏模块则旨在恢复图像中各像素之间的空间关系信息以弥补局部提取可能带来的空间信息丢失此外由于我们的方法仅需计算基于特征图的损失函数因此FGD算法能够被高效地应用于各种目标检测器构建起来

总结

该方法通过提出局部与全局蒸馏技术,在图像分割任务中将输入图像分割为前景与背景区域,并通过强化关键像素与通道的关联性来提高模型对重要特征的学习能力。

该方法重构了像素间的关联性,并将其从教师节点传递给学生节点以弥补局部蒸馏在缺乏整体信息方面的缺陷。

1**、介绍**

众所周知, 前景与背景之间的失衡是一个关键问题, 这种失衡的比例也会影响物体检测中蒸馏过程的效果. 针对此问题, chen 采用了一种加权策略以抑制背景的影响, mimick 则通过提取学生网络的区域建议网络所提出的有效的正样本区域. fgfi 和 tadf 分别采用了细粒度分析与高斯掩模的方法来选择适合进行蒸馏的区域. 进一步提取了前景与背景特征作为参考. 然而, 如何确定蒸馏的关键所在仍然不明朗.

本研究旨在探究学生与教师特征间的异同之处。我们通过可视化手段分析了注意力的空间分布及其传导路径(如图 1所示)。结果显示,在前景区域中两者存在显著差异,在背景区域中的差异则相对较小

这一研究可能在学习目标与背景间的差异性上产生影响。

总结

在分离前景与背景的过程中,在这一过程中又进一步计算了教师特征中各像素与不同通道的注意力权重设置;从而帮助学生聚焦于教师图像中的重要像素层及其通道

然而,在聚焦关键信息方面仍显不足。值得注意的是,在检测过程中占据重要地位的是全局上下文。多种相关模块已在检测领域取得显著成效,并且包括但不限于非局部模块、GcBlock 模块以及关系网络模块等技术手段的应用均取得了不错的效果。为此,在此我们提出了一种新的全局蒸馏方法以进一步提升整体性能并弥补上述缺陷为此我们在局部蒸馏过程中采用GcBlock 模块提取了像素间的关联信息随后从教师节点传递到学生节点进行关联学习

总结

仅仅关注局部区域是不够深入的;因而,在局部蒸馏过程中,通过GcBlock解析像素间的相互作用。

提出了局部和全局蒸馏( FGD ),将局部蒸馏和全局蒸馏相结合,如图 2 所示。

仅基于特征计算的所有损失函数 ,因此FGD方法可以在多种探测器类型中直接应用** ,包括两阶段模型以及带锚的一阶和无锚的一阶模型**

本文贡献:

我们坚信老师与学生各自关注的对象是完全不同的。当我们在提取像素与通道时若不加区分,则可能仅带来微不足道的进步。

我们开发了一种结合局部与全局蒸馏的技术,并使学习器不仅能够聚焦于教师网络的关键像素和通道(kernel and channel),同时还能理解像素间的相互作用(pixel-wise relationships)。

2**、相关工作**

基于特征的知识蒸馏技术能够广泛应用于各种检测器。 Li 等人采用了从 RPN 中采样的特征用于计算蒸馏损失。许多方法对所有像素与通道均采取均等对待的方式。FKD 分别采用了注意力掩码与非局部模块来引导学生进行关系的蒸馏。然而,在这种情况下,它同时将前景与背景结合在一起进行处理。

蒸馏检测的核心问题是识别高质量的蒸馏区域。以往的方法对所有像素和通道进行了均匀地处理,并一次性提取所有区域。然而,在实际应用中发现大多数方法未能充分考虑全局上下文信息这一关键因素。基于此,在提取不同像素之间的全局关系后这一做法带来了另一个改进。

3**、方法**

FPN 通常被用作许多探测器的中间层(neck),这些探测器提取自 backbone 的不同尺度特征图。将这些知识传授给学生成显著地提升了他们的学习效果。通常,在蒸馏过程中可以将其形式化为:

其中,

F^S and F^T

分别表示 来自教师和学生的特征,f是用于将

F^S

重塑到

F^T

具有相同尺寸的自适应层结构中,其中H和W分别代表高度和宽度,C则表示通道数量.该方法将所有区域视为同等重要,未区分各个像素的质量差异

探讨全局关系的归纳过程。为了解决上述问题而提出的FGD方法包含两部分:局部蒸馏和全局蒸馏。

3.1****局部蒸馏

对于图像中的前景与背景出现失衡问题,在此背景下我们开发了一种局部蒸馏技术用于图像分割,并帮助学生聚焦于关键像素和通道的重要性。蒸馏区的比较见图3.

首先,我们设置一个二进制掩码 M 来分离背景和前景

其中 r 代表 GTbox,并且 i 和 j 分别表示特征图的横向和纵向位置。*当**(i,j)* 位于 GT 区域时,则

M_{i,j} = 1

,否则为0.

规模较大的目标由于拥有更多像素而导致其占据了更大的损失份额这将对小型目标的蒸馏过程产生不利影响在不同图像中 前景与背景的比例存在显著差异因此 为了实现对各类型目标的公平对待 我们决定设置比例掩码 S 使其能够均衡地平衡各类对象的损失程度

其中

H_r

W_r

表示 GT r 的高度和宽度。如果一个像素属于不同的目标,我们选择

最小化计算S所需的资源 SENet与CBAM等方法表明,在卷积神经网络(CNN)模型中关注关键像素及其通道能够显著提升性能表现。Z等研究者提出了一种简洁有效的技术, 用于生成空间注意力掩码并提升蒸馏网络的表现能力。在本研究中, 我们借鉴上述方法, 借鉴上述方法选择局部像素所在的通道, 并对各个像素层及各通道层分别计算其绝对平均值以获得注意力掩码权重系数矩阵, 进而实现模型性能的有效提升。

其中 H 、 W 、C表示特征的高度、宽度和通道。

G^S

G^C

是 空间和通道注意力图,然后

注意力掩码可以公式化为

T 的用于调整分布的温度超参数。

学员与教师的mask之间存在明显的区别。在模型训练过程中, 我们采用教师mask来辅助指导学员学习。对于二进制mask M , 比例mask S, 注意力机制.

A^S

A^C

,我们提出特征损失

L_{fea}

如下:

A^S

A^C

分别**表示教师检测器的空间注意力掩码和通道注意力掩码。

F^T and F^S

分别表示教师检测器和学生检测器的特征图。

lpha and eta

是** 平衡背景和前 景之间损失的超参数。

除此之外,我们**使用注意力损失

L_{at}

来** 迫使学生检测器模仿教师检测器的空间和通道注意力掩码 ,其 公式为:

t 和 s 表示教师和学生, l 表示 L1 损失 ,

amma

是 平衡损失的超参数。

局**部损失

L_{focal}

是特征损失

L_{fea}

和注意力损失

L_{at}

的总和。**

3.2****全局蒸馏

在图像处理领域中,不同像素之间的关系往往包含丰富的知识资源,并且这些信息有助于提升检测性能。在3.1节中介绍了一种基于局部蒸馏的方法用于分离前景与背景的关系。然而,在这一方法中存在一定的局限性:它无法有效捕捉不同像素之间的全局关联性。为此我们提出了一种全新的全局提取方法:通过从特征图中提取不同像素之间的全局关系,并将其从教师蒸馏模型传递到学生网络中进行学习

如图 4 所示:

通过GC-Block这一技术手段来提取单个图像中的全局语义关联信息,并引导学生检测器模仿教师模块的行为模式以建立关系模型。

L_{global}

如下:

W_k,W_{v1},W_{v2}

表示卷积层。 LN 表示归一化,

N_p

是 特征中的像素数,

ambda

是平衡损失的超参数。

3.3****总损失

总之,训练学生检测器的总损失如下:

L_{original}

是检测器的原始损失。

蒸发出的损失仅基于特征图进行计算,并且这一特征图可通过检测器的颈部模块获取到。因此,在实际应用中,这一方法能够较为简便地扩展至多种检测系统。

全部评论 (0)

还没有任何评论哟~