Advertisement

IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记

阅读量:

paper:https://openreview.net/pdf?id=uKhGRvM8QNH

code: [https://] ArchipLab-LinfengZhang Object-Detection Knowledge Distillation ICLR 2021

1、摘要:

开篇论文指出kd在目标检测方面表现欠佳的原因主要包含以下几点:首先,在前景与背景之间存在明显的像素级失衡问题;其次,在不同像素间的关系提取上存在不足之处。基于上述两大缺陷基础之上,本文提出了一种新型注意力引导机制以及非局域(non-local)机制,旨在使生成器网络能够更加专注于学习教师模型,从而不仅能够在单个像素特征层面上获得更好的表示能力,还能够在非局域模块的帮助下捕捉各像素间的相互作用关系,最终使得该方法在one-stage、two-stage及anchor-free框架下均实现了平均精度(ap)上的显著提升

1、Introduction

开始介绍了kd在object detection应用难的问题,如下所示:

1、Imbalance between foreground and background

在被分析的图像中(...),背景区域所占的比例高于前景区域。基于此,在以往的研究工作中(...),学生模型(...)倾向于模仿所有具有相同特征的所有 pixels 的特征向量特性。这一现象导致学生模型(...)将大部分注意力集中在背景区域上(...),从而抑制了对前景区域的学习效率。为此本研究提出了一种基于注意力机制的关键域学习方法(...)。其中利用注意力机制确定关键域实例的身份标签(...)。这种方法使得 student 模型能够更有针对性地关注这些关键域实例(... ),从而实现对重要目标区域更为精准的学习效果提升

2、Lack of distillation on relation information.

现有的kd方法仅关注局部区域的细节信息而忽视整体结构,在此基础上提出了非局部kd(non-local-kd)方法,并将其提取为关键的关联信息

综上,本文的贡献如下:

提出了一种基于注意力机制的kd方法,并特别强调了student在学习前景物体抑制方面的性能表现对其背景像素学习的影响

2、提出了一种non-local-kd方法,并且不仅能够学习单个像素的信息内容,还能够从教师那里学习各像素间的关系

  1. 得出以下结论:具有较高AP的教师通常在KD方面表现更为出色。这与图片分类任务的KD结论存在显著差异。

2、related-work

本文不写,有兴趣的童鞋自己看吧

3、methodology

整体核心结构如下图所示,非常清晰:

基于注意力机制的蒸馏模型分别在通道维度和平局空间维度上执行平均池化操作以生成空间注意权重矩阵和平局通道注意权重矩阵。随后会引导学生模仿教师的行为。同时要求学生学习复制教师的行为模式特征。

蒸馏过程通过非局部模块建模像素间的相互关系。学生的关系信息是通过L2范式损失函数进行学习的。

3、non-local的体系结构。'1x1 layer'是具有1x1内核的卷积层。

4、知识蒸馏损失被应用于backbone的不同分辨率层中,在此过程中能够有效处理不同层次的空间信息特征。 该方法的核心特点在于完全排除了对detection head和neck的相关操作(值得注意的是,并非指student teacher之间的分辨率存在差异)。

接下来稍微详细的介绍一下原理和公式

1、attention-guided distillation

首先看一下更改后的特征图效果:

由此可见,在该论文中所提出的注意力机制会将object模拟成类似于mask的形式,并与传统的bbox方式形成对比。

改写说明

接下来先构建spatial attention map和channel attention map的过程实际上对应地计算出各层之间的函数关系。如图所示:

所谓空间注意力,指的是每一个像素点的所有通道的均值:

维度变化:

所谓通道注意力机制,指的是每个通道上所有点的均值:

维度变化:

通过变量S与T区分student与teacher。由两部分组成:一个是注意力转移loss-LAt( attention transfer loss),另一个是LAM attention mask loss(LAM注意力掩码损失),如图所示:

给出空间注意力掩膜Ms和通道注意力掩膜Mc的表达式

建议在论文中提到mask的T取值不一致时的情况时,请确保可视化呈现出来的feature mask能够准确反映不同之处。

LAT旨在促进学生模型对教师模型空间注意力机制和通道注意力机制的学习与模仿;而LAM则基于Mx和Mc掩码设计了相应的损失项以促进学生网络对教师网络在各特征层的学习行为进行模仿;该损失函数基于上述所提设计了相应的损失项。

3.2 NON-LOCAL DISTILLATION

基于前面所述的示意图, scholarly work 提出了 non-locality-based 的学习机制, 用于提取 teacher 模型的空间全局关联. 数学表达式如上所示.

non-local的结构如下图所示:

因为计算规模相当庞大,在高层语义模型的应用上并不建议直接扩展特征维度。为了更好地理解这一限制原因,请简单介绍非局部(non-local)的基本概念及其作用机制。

虽然具有较大的感受野但仍保持一定的局限性 使用全局感受野就可以将其定义为非局部操作 简单而言 其中通过非局部操作得到的输出与输入图像尺寸保持一致 这等同于从整体上进行信息处理:

根据上式所示,f(xi,xj)表示两个样本之间的相似度计算,g(xj)则负责将单个像素转化为其对应的向量,这一过程也可被视为对每个像素特征的提取。值得注意的是,在计算xj处像素的特征向量时,必须遍历所有的xi值,这意味着该操作依赖于全局图像的所有像素信息,因此将其命名为non-local

上图展示了非局域计算的核心概念, 其中mask反映了整体每个像素与其对应位置的相似度关系. 通过映射函数, 每个像素位置会被转换为g(xj), 并经过点态求和运算后取平均值, 最终结果充分融合了整体信息, 被称为非局域过程.

这篇论文中的非局部公式如前所述,在这篇论文的相关部分图示中已经非常详尽地阐述了

3.3 OVERALL LOSS FUNCTION

最后定义了一个总体的损失函数:

该研究提出了一种方法,在整合到原始目标检测网络的基础之上增加了新的损失函数

4 EXPERIMENT

4.1 EXPERIIMENT SETTRINGS

4.2 results

还是挺厉害的,sota结果,就是不知道能不能复现。。。。

基本上说起来重点也就那些了。接下来的具体信息可以通过原文区深入阅读。关于这些讨论就到这里结束啦。

全部评论 (0)

还没有任何评论哟~