论文阅读《Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection》
论文链接
目录
- 1、存在的问题
- 2、算法简介
- 3、算法细节
-
- 3.1节 基础检测器
- 3.2节 小样本超网络
-
-
3.2节 subsections:
-
3.2节 subsections: 支持集特征提取
-
3.2节 subsections: 码本预测
-
3.2节 subsections: 码本融合与归一化
-
3.3、基础检测器的训练
-
3.4、超网络的训练
-
3.5、元测试
-
-
4、实验
-
- 4.1、对比实验
- 4.2、消融实验
- 4.3、学习能力测试
-
5、结论
-
1、存在的问题
目前的小样本目标检测方法:基于两阶段微调、基于元学习。
基于微调技术:首先在基础模型的基础上进行预训练。接着,在包含来自基础模型与目标类别的小平衡数据集上进行进一步优化。即通过整合目标类别与基础模型的联合优化实现新旧结合的学习策略。然而由于计算资源与内存限制,在实际应用中将其扩展至多种现实场景仍然面临挑战。
利用元学习原理:该方法主要关注新型分类问题,在处理熟悉领域中的基本分类问题时会出现性能下降的情况
多数针对小样本的目标检测方法通常包含backbone和检测头两部分结构。其中backbone主要负责从输入图像中提取特征图,并将其传递给检测头进行处理;而 detection head则通过并行计算实现多元分类分支与回归分支的协同工作
在处理N类分类问题时
2、算法简介
针对增量小样本学习问题进行深入研究,在不增加额外优化的情况下开发出一种能够高效地从少量样本中学习新类别并有效避免遗忘之前已学过类别的模型Sylph
在基础阶段建立了一个与类别无关的回归器,在适应新类别时,则只需利用该回归器执行定位作用;
由此可知,在处理小样本分类问题时应着重关注分类器的参数设置;
当训练新类别时,请生成一组新的分类器参数集合(新类代码),随后将在元测试阶段将这一组新类代码与原有的基类代码组合起来。
3、算法细节
该系统包含两个主要组件:
- 一种基础的目标检测机制
- 通过将回归任务与分类任务分离来实现
- 能够对图像中显著目标进行定位
- 一种自适应的小样本超网络架构
- 能够根据输入数据自动调整每个二元分类器的具体参数设置

3.1、基础检测器
采用FCOS(Fully Convolutional One-Stage Object Detection)作为基础检测器;其中FCOS;基于像素级预测的一阶段全卷积目标检测网络无锚点;其检测头由以下两个部分构成:首先是在基础训练阶段学习获得的与类别无关的回归器 B_\beta;其次是一组二元分类器C_{\gamma_{c}^*};每组二元分类器对应于一个特定类别
FCOS的回归机制:
通过将feature map中的每个位置直接映射到原图边界进行定位。
假设当前输出特征图尺寸为H W(C+1+4),其中H和W表示特征图的空间尺寸;C代表类别数目;
在中心分支中输出的1表示该位置与目标中心点之间的归一化距离(范围[0, 1]);
在回归分支中输出的4维向量t、b、r、l分别对应当前位置与GT框四个顶点之间的距离坐标。
解码过程如下:
首先确定中心点:对于特征图中的某一点(x,y),其对应的原始图像中心点位置可被计算得出。如果该中心点位于某个GT框内,则该点标记为正样本,并赋予对应的GT框类别标签;若无GT框覆盖,则标记为负样本。
接着解码检测框:根据确定的中心点坐标及网络预测值t、b、r、l值,即可计算出检测框的具体边界坐标。

基础检测器完成回归,接下来只需要进行小样本分类即可
3.2、小样本超网络
解决小样本分类问题,为每个二元分类器提供参数
包括三个部分:支持集特征提取、代码预测、代码聚合和归一化
3.2.1、支持集特征提取
输入:输入图像 → 输出:支撑样本特征
1、共享主干网络以减少计算开销;通过该主干网络提取输入图像的整体表征(整合各区域信息);
2、基于多级划分策略实现定位与归一化;通过该算法从每个目标实例中抽取具有统一尺寸的支撑样本特征。

3.2.2、代码预测
支撑样本特征
输出结果为特征的权重和偏置参数
网络架构设计中包含多个3×3卷积层单元,并结合组归一化技术和ReLU激活函数进行协同工作。随后引入一个专门用于预测权重与偏置参数的模块。最后通过全局平均池化操作将预测出的权重参数缩减至目标维度。

3.2.3、代码聚合和归一化
输入:特征的权重和偏置
输出:聚合和归一化结果
将特征的权重和偏置聚合在一起:\begin{aligned}w_c=\frac{1}{K}\sum_{i=0}^{k-1}(w_{c,i})\end{aligned}; b_c=\frac1K\sum_{i=0}^{k-1}(b_{c,i})
为避免梯度爆炸,聚合完成之后再沿通道轴进行L2归一化:\frac{w_c}{||w_c||}
为增加兼容性,归一化完成后对权重进行缩放: w_c^*=\frac{g}{||w_c||}w_c
对于偏置,再额外增加一个先验偏置和标量,用于解决方差小的问题:b_c^*=g_b*b_c+b_p; b_p=-\log((1-\pi)/\pi),\pi=0.01

3.3、基础检测器的训练
Definition:
Base category data: C^b
Novel category data: C^n
Untrained instances of novel category data: c^{n}_{t} \in C^n
Previously trained instances of novel category data: c^{n}_{t'}, where all instances are indexed by t' such that t' < t
输入
生成基础检测器D_\phi,能够在图像中为基类和潜在的新类生成边界框。
3.4、超网络的训练
定义如下:
基础类别数据为 C^b
基准类别数据为 C^n
系统从基础类别数据中提取一个包含N个不同类别的小样本集合,并在其边界框位置标注(I,b)。
通过支持集包含了从每个支持类别中选取K个典型样本来构建。
查询集合则由单个代表性样本来表征。
输入:查询集
输出:新类的类代码为\gamma_{c_b}^*=(w_{c_b}^*,b_{c_b}^*)
其中,在FCOS架构中,并非所有模块的参数都处于可训练状态;具体而言,在其分类器组件中的前四层卷积层未被冻结。
通过构建超网络H_\psi的方式,在每个查询图像特征中嵌入预定义的类别编码信息。
3.5、元测试
元测试阶段的作用:用于合成新类和基类类代码
从整个集合中选取每个类别 K 个样本,并利用超网络逐个类别进行前向传播以生成新的以及基础类别代码:\begin{aligned}\gamma_{c}^{*}=\{w_{c}^{*},b_{c}^{*}\}\forall c\in C^{b}\cup C^{n}\end{aligned}
通过基于合成类代码的技术手段,在保证与普通检测器相同的速度与行为的基础上进行推理分析。
4、实验
4.1、对比实验
LVIS 大规模数据集采用了将罕见类单独列为一类的方法,并将其余类别划分为基类。研究发现,在经过大量的数据增强处理后,在不同预训练策略下的表现均优于 ONCE 8% 的 Sylph 方法。值得注意的是,在这一过程中, ONCE∗ 方法由于收敛困难而导致的性能水平显著低于 Sylph 方法
Default:模型在ImageNet-1k上进行预训练;
Aug:应用大规模抖动(LSJ)和RandAugment;
All:除上述增强外,还使用了IG-50M预训练骨干权重。

在K取值为1、5、10时
Sylph-LVIS 在 COCO 新类分割任务中表现出了 3.8% 的精度,在 LVIS �arecapsule 稀有类别任务中则达成了 16.5% 的准确率之间显示出明显的性能差异。这一差异表明大规模预训练机制对于模型性能提升至关重要:首先,在视觉目标检测方面实现了更为精准的边界框检测能力;其次,在新的分类任务中构建了能够有效推广至新的分类场景的特征提取模块

4.2、消融实验
1、组成模块的消融:

FA:在迁移学习阶段固定不更新整个基础分类器,并保持预训练的基础分类代码。
Joint:使用默认设置对所有可用类进行预训练和元训练。
在元训练阶段中,在FCOS模型中仅限于分类器中的前四个卷积层未被冻结;其余各模块的所有参数均被锁定。
相比之下,在元训练阶段上,Joint方法的表现与FA相当,略逊于Sylph。
这可能由两个原因来解释:
(1) 随着基类数量的增加,在元训练阶段Joint努力提升其在基类上的性能;
(2) 尤其当与罕见类别混合时,在类级别上采用均匀抽样的方法会导致频繁出现的类别获得的样本较少,在这些拆分上平均精度(AP)有所下降。

4.3、学习能力测试
测试不同微调方法在新类上的平均精度。
本文方法遵循:在基类上训练FCOS,在新类上微调。
TFA-ours:按照本研究中的训练方法,在微调过程中仅利用新类的数据集进行训练,并使回归器保持冻结状态;同时确保分类器未采用任何预训练模型作为初始权重来源。
TFA * -st:同时微调回归器和分类器。
结论:我们提出的方法Sylph无需对学习新类别知识所涉及的潜在挑战进行过多资源投入,并且能够实现对新类别知识的有效掌握。

5、结论
本方法也有局限性:
仍然严重依赖于大规模数据集。由于标注者的错误或标签集中不包含某个类别导致的数据中存在未被标注的对象,在这种情况下会导致模型无法识别此类对象。
2、融合支持集特征的更复杂的聚合方法也可能带来进一步的改进。
