Semi-supervised Open-World Object Detection
Semi-supervised Open-World Object Detection
-
-
摘要
-
1 介绍
-
2.准备工作
-
- 提出的SS-OWOD问题设置
-
2.1 基础架构
-
3 方法
-
- 3.1整体架构
- 3.2 对象查询指导伪标签
- 3.3 半监督开放世界学习
- 3.4 卫星图像中的OWOD
- 3.5 训练和推理
-
摘要
传统的开放世界对象检测(OWOD)问题设置首先区分已知和未知类别,然后在后续任务中引入标签时逐步学习未知对象。然而,当前的OWOD公式在增量学习阶段严重依赖外部人类预言者进行知识输入。这种对运行时的依赖使得这种公式在现实世界的部署中显得不太现实。为了解决这个问题,我们引入了一个更现实的公式,名为半监督开放世界检测(SS-OWOD),通过将OWOD的增量学习阶段投射为半监督方式,减少了注释成本。我们证明了最先进的OWOD检测器在提出的SS-OWOD设置中的性能显著下降。因此,我们引入了一种新的SS-OWOD检测器,名为SS-OWFormer,它利用特征对齐方案来更好地对齐原始图像和增强图像之间的对象查询表示,以利用大量的未标记数据和少量的标记数据。我们进一步引入了一种用于未知检测的伪标签方案,该方案利用解码器对象查询捕获对象特定信息的固有能力。在COCO数据集上,我们的SS-OWFormer只使用50%的标记数据就达到了与使用所有100%标记数据的最先进(SOTA)OWOD检测器相当的检测性能。此外,我们的SS-OWFormer在未知召回率上比SOTA OWOD检测器提高了绝对4.8%。最后,我们展示了我们的SS-OWOD问题设置和方法在遥感对象检测中的有效性,提出了精心策划的分割和基线性能评估。我们在包括MS COCO、PASCAL、Objects365和DOTA在内的4个数据集上的实验证明了我们方法的有效性。我们的源代码、模型和分割可以在这里找到:https://github.com/sahalshajim/SS-OWFormer。
1 介绍
传统的对象检测器建立在一个假设之上,即模型只会遇到它在训练过程中遇到过的“已知”对象类别。最近,开放世界对象检测(OWOD)问题引起了人们的关注,其目标是检测已知和“未知”的对象,然后在后续任务中引入标签时逐步学习这些“未知”的对象。在这个问题设置中,新识别的未知对象首先被转发给一个人类预言者,该预言者可以从未知对象集合中标记出新的感兴趣的类别。然后,模型继续学习并更新其对新类别的理解,而无需从头开始重新训练已知的数据。因此,当新数据到来时,模型希望以增量的方式识别并随后学习新的对象类别。
如图1所示,半监督(SS)对象检测在接收标记和未标记(o)数据的同时,学习一组已知类别(••••)。在增量学习中,类别是按步骤学习的,如图所示,模型在任务1中学习•,然后在下一个任务中输入(•)并学习检测(•),而不忘记之前学习的类别(•),对后续任务重复同样的过程。开放世界对象检测的目标是在检测已知类别(•)的同时,检测未知的(⋆⋆⋆)。由人类预言者标记的未知类别在下一个任务中被模型学习,如图所示:未知的(⋆)在下一个任务中作为已知的(•)被学习,同时继续检测剩余的未知的(⋆,⋆)。在后续任务中重复同样的程序,其中未知的(⋆)被学习为已知的(•)。相比之下,我们提出了SS-OWOD设置,其目标是通过利用未标记的数据(o),减少对检测到的未知的(⋆⋆⋆)的传入数据的标记成本。
开放世界对象检测(OWOD)提供了一个更为现实的设置,主要有两个方面:(i) 它假设在模型训练过程中,并非所有的语义概念数据都是可用的;(ii) 它假设数据点是非静态的。虽然标准的OWOD提供了检测未知对象类别并逐步学习新对象类别的灵活性,但新类别的增量学习的一般问题需要在完全监督的设置中进行训练。为此,当前的OWOD方法依赖于强大的预言者支持,以一致地为所有识别出的未知对象标记其各自的语义类别和精确的框位置。
本文的目标是减少上述对人类预言者在运行时为未知类别提供注释的依赖(见图1)。我们认为,假设一个交互的预言者将为大量的数据提供注释是不太现实的。在需要大量密集定向框注释的领域,如卫星对象检测,以及在背景杂乱和对象大小小的情况下,注释问题变得极其繁重。此外,现有的OWOD方法依赖于简单的启发式方法,如在主干特征通道上进行简单平均或对潜在特征向量进行聚类,以伪标签未知对象,从而在准确检测未知对象上遇到困难。为此,我们提出了一种名为SS-OWFormer的新颖的基于变压器的方法,该方法共同解决了改进未知检测和在模型学习的生命周期中减少识别出的未知对象的注释成本的两个问题。
贡献:本研究的主要贡献包括以下几个方面:
(i) 我们引入了一种新的半监督开放世界对象检测(SS-OWOD)问题设置,减少了对外部人类预言者在增量学习阶段为所有传入数据提供注释的强烈依赖。我们进一步提出了一个半监督开放世界对象检测变压器框架,名为SS-OWFormer,设计用于在半监督开放世界设置中检测新引入的一组类别。SS-OWFormer利用特征对齐方案有效地对齐原始图像和增强图像副本之间的对象查询表示,以利用大量的未标记数据和较少的标记数据。
(ii) 我们引入了一种伪标签方案,通过利用检测器对象查询捕获对象特定信息的固有能力,更好地区分未知对象。由此产生的调制对象查询提供了多尺度空间图,以获得对象性置信度得分,这些得分反过来用于伪标签过程。
(iii) 我们在OWOD COCO分割上进行了全面的实验,以展示我们方法的有效性。与最先进的OW-DETR相比,我们的SS-OWFormer在所有任务中都实现了对“已知”和“未知”类别的有利检测性能。当只使用10%的标记数据时,SS-OWFormer实现了优于使用50%标记数据的OW-DETR的整体检测性能。在“未知”检测方面,SS-OWFormer在未知召回率方面比OW-DETR实现了4.8%的绝对增益。
(iv) 最后,我们首次探索了遥感领域的SS-OWOD问题。我们展示了我们的SS-OWFormer在卫星图像上的有效性,其中标记任务更为繁重和耗时。此外,我们为具有大量类别的Object365数据集提出了开放世界分割。我们在包括MS COCO、PASCAL、Objects365和DOTA在内的4个数据集上的实验证明了我们方法的有效性。
2.准备工作
设Dt = {It, Yt}是一个包含N个图像It = {I1, I2, …, IN}及其对应标签Yt = {Y1, Y2, …, YN}的数据集。这里,每个图像标签Yi = {y1, y2, …, yk}是图像中所有k个对象实例的一组框注释。开放世界对象检测(OWOD)遵循在只有Kt = {C1, C2, …, Cn}已知对象类别的Dt渐进数据集上的增量训练阶段。一个在这些Kt已知类别上训练的模型不仅预期能检测已知类别,还预期能通过预测所有未知类别实例的未知类别标签来检测(定位和分类)来自未知类别U = {Cn+1, …}的对象。图1显示了与对象检测设置密切相关的概述。
提出的SS-OWOD问题设置
这里,每个图像标签 Yi = {y1, y2, …, yk} 是图像中所有 k 个对象实例的一组框注释。实例注释 yk = [lk, oxk, oyk, hk, wk] 由 lk ∈ Kt 组成,是一个具有中心在 (oxk, oyk),宽度 wk,高度 hk 的边界框的类标签。在这项工作中,我们认为对所有用于学习的训练图像获取边界框注释对人类预言者来说是费力和耗时的。因此,我们提出了一个新的半监督开放世界对象检测问题设置,其中只有一部分图像 (Ns) 由人类预言者注释,其余的 Nu 图像是未标记的(见图1)。这旨在减少模型的学习框架对人类预言者添加知识的强烈依赖。在这里,在开放世界设置的学习阶段,模型预期将利用标记和未标记的训练图像集 (Ns+Nu) 来了解新的 Kt+1 类,同时不忘记以前已知的Kt 类,从而同时启用未知对象的检测。
2.1 基础架构
我们的方法基于最近引入的 OW-DETR [10]。它包括一个主干网络,采用可变形注意力的变压器编码器-解码器架构,盒子预测头,对象性和新颖分类分支,以区分已知和背景区域的未知对象。这里,变压器解码器接受一组可学习的对象查询作为输入,并采用交错的交叉和自我注意模块来获得一组对象查询嵌入。这些对象查询嵌入被预测头用于盒子预测,如 [37]。它通过伪标签方案选择潜在未知对象的边界框,并学习一个分类器将这些潜在未知对象查询嵌入分类为一个未知类,如 [10]。这里,潜在的未知对象是基于在对应于预测的盒子位置的区域的主干特征图的选定层(ResNet50 的 C4)的平均激活来识别的(见图2)。在所有潜在的未知对象盒子中,只有与已知的地面真实盒子不重叠的盒子被认为是潜在未知的伪标签。它学习一个二元的不关注类别的对象性分支,以区分已知和潜在未知对象的对象查询嵌入和背景区域。此外,它学习一个具有未知作为附加类以及 Kt 已知类的新颖分类分支,如 [10]。我们将此称为我们的基线框架。
限制 :如上所述,基线框架采用启发式方法进行伪标签,通过对单尺度特征图的通道进行简单平均来计算对象性置信度,其中只使用了主干的单尺度特征。然而,这种特征平均来识别对象在该空间位置的存在对于准确检测未知对象是次优的。为了提高未知对象的检测,期望利用在可变形编码器和解码器特征中可用的对象特定信息(见图2)。现有的最先进的 OWOD 框架,包括我们的基线,通常需要对 OWOD 任务中的新类的增量学习使用的所有图像进行边界框监督。然而,这使得 OWOD 模型强烈依赖外部人类预言者为后续任务的所有数据提供密集注释。接下来,我们介绍我们的 SS-OWFormer 方法,它在一个框架中集体解决了上述问题。

图2. 我们的对象查询引导伪标签与 OW-DETR 基线中使用的特征平均的比较。基线框架对主干的单尺度特征进行通道平均,然后在预测的边界框位置处空间裁剪它们,并选择 top-k 来获得伪标签。相比之下,我们的方法努力利用来自多尺度编码器特征和解码器对象查询的对象特定信息。我们用多尺度编码器特征图调制解码器对象查询,并在预测的盒子位置执行多尺度盒子池化以获得对象性分数,并选择 top-k 边界框提议作为伪标签。
3 方法

图3. 我们的半监督开放世界对象检测变压器(SS-OWFormer)框架的总体架构。它包括一个主干网络,基于变压器的可变形编码器-解码器,对象查询引导的伪标签,盒子预测头,新颖分类,和对象性分支。我们的设计重点是:(i)引入一个对象查询引导的伪标签(底行的橙色框),它从变压器编码器和解码器中捕获信息,用于未知对象的伪标签。解码器的对象查询与多尺度编码器特征调制,以获得多尺度空间图,这些图在预测的盒子位置处进行池化,以获得未知伪标签的置信度。 (ii)引入一个新的半监督学习流程(→),用于在增量学习新的对象类集合过程中利用未标记的数据。在我们的半监督增量学习设置中,SS-OWFormer(当前模型)与其分离(冻结)的副本(顶行的蓝色框)一起训练,同时配合一个映射网络(G)。映射网络(G)将对象查询从当前网络投影到分离网络。此外,我们使用原始和增强的图像来对齐对象查询嵌入(z)。
3.1整体架构
图3显示了我们的半监督开放世界对象检测变压器(SS-OWFormer)框架的总体架构。它包括一个主干网络,可变形编码器,可变形解码器,对象查询引导的伪标签,和预测头。
主干接受一个空间分辨率为 H × W 的输入图像,并为具有 M 个可学习对象查询的可变形编码器-解码器网络提取多尺度特征。解码器采用交错的交叉和自我注意力,并输出 M 个对象查询嵌入(z)。这些查询嵌入在盒子预测头,对象性和新颖分类分支中使用。此外,这些查询嵌入(z)在我们的半监督学习框架中用于将当前网络(Mcur/z)与前一个任务的分离网络(¯Mprev/¯z)对齐。我们将增强的图像作为输入到当前网络,并使用映射网络(G)将相应的查询嵌入(za)转换到分离网络的潜在空间。这些转换后的嵌入与从分离网络获得的同一图像的嵌入(¯z)使用详细介绍在Sec.3.3的特征对齐策略对齐。
我们对第一个任务(任务-1)采用全监督学习,其中对象检测器是用初始已知对象类别进行训练的。在任务-1推理期间,模型预期检测所有已知和未知的对象类别。然后,在后续任务中,模型在我们的新型半监督增量学习设置中用新的对象类别进行训练,我们只对部分训练数据有注释。这里,目标是使用标记和未标记的数据学习新的对象类别,而不忘记任务-1的类别。为此,我们使用一个在我们的增量学习过程中权重固定的分离网络和一个网络权重被更新的相同的当前网络。我们学习当前网络(通过将分离网络作为参考)使用标记和未标记的数据,然后使用可用的标记数据对当前网络进行微调。接下来,我们介绍我们的对象查询引导的未知标签方案。
3.2 对象查询指导伪标签
如我们所讨论的,我们需要准确地检测出已知类别集合中的未知对象,这在开放世界的对象检测中是必要的。在这里,模型预计会将其已知的对象检测知识转移到检测未知对象上。我们的基线使用了单尺度伪标签方案,这是一种简单的启发式方法,它以一种天真的方式平均Resnet特征以伪标签未知对象。我们的目标是利用可变形变换器架构的固有可学习属性,从编码器特征和解码器查询中获取。这被发现更适合用于伪标签的对象性置信度。设F = {E3, E4, E5}为多尺度编码器特征,yk = [ox
k, oy
k, hk, wk]为给定对象查询嵌入预测的框提议。设Ei ∈ RHi×Wi×D为尺度i的编码器特征图,M个查询Qj ∈ RM×D为解码器的未匹配对象查询。然后,我们通过转置矩阵乘法调制编码器特征,得到查询调制特征图Fi ∈ RHi×Wi×M。这个查询调制特征图由于利用了解码器查询的对象特定信息以及编码器特征,因此在对象性评分上表现更好。然后,我们在这些图Fi的预测框位置上执行多尺度框池化。我们的多尺度框池化在这些空间图Fi上执行空间平均,以获得对应于边界框的对象性分数sk。例如,边界框(b)的对象性分数可以计算为,

这些对象性分数被用来选择前k个框,然后被用作伪标签来训练新颖性分类器和对象性分支。预测头中的回归分支接收解码器的M个对象查询嵌入,并预测M个框提议。解码器中的二分匹配损失从M个总查询中选择K个查询作为已知类别的正匹配,以进行监督设置。
3.3 半监督开放世界学习
之前的开放世界目标检测研究假设所有新类别的输入数据都是有标签的,而在现实场景中,这可能会被证明是昂贵的。然而,在我们的半监督开放世界目标检测框架中,我们采用半监督学习进行增量学习。因此,在我们具有挑战性的设置中,模型必须学会使用有限数量的部分注释数据以及未标记的新类别数据来检测新的物体类别,并在不遗忘之前学到的类别的情况下检测未知对象。
如第3.1节所讨论的那样,我们通过后续任务向模型引入了一组对象类别的子集。对于第一个任务,模型被训练得像一个标准的OW目标检测器,并引入了一组类别( K_1 = {C_1, C_2, …C_n} ) 。然后对于后续任务,利用半监督学习来应对有限的标注可用性。使用来自前一个任务的分离模型副本 ( \overline{M}_{pre} ),当前模型 M_{cur} 使用特征对齐策略在标记和未标记数据上进行训练。
对于使用下一个逐步数据集 ( D_{t+1} ) 的半监督学习,我们采用强增强技术,如颜色抖动、随机灰度化和模糊化,以获得增强数据 ( D_{t+1}^a = {I_a} )$ 。这里选择的增强技术不会改变输入图像中的框位置,因此更适合半监督目标检测。此外,我们不使用旋转、翻转、平移、裁剪等可能会改变增强图像特征表示的增强技术。我们使用一个固定权重的分离模型 ( \overline{M}{pre} ),一个具有可学习权重的当前模型 ( M{cur} ),以及一个映射网络 ( G ),将当前模型的对象查询映射到分离模型的对象查询。这里,一个具有固定权重的当前模型副本被用作分离模型 ( \overline{M}_{pre} )。这个分离模型在训练过程中不接收任何梯度,并保持分离状态。
对于来自 ( D_{t+1} ) 的图像 ( I_i ) 及其增强版本 ( I_{ai} ),我们使用当前模型和分离模型提取对象查询特征。也就是说,我们使用当前模型获取原始图像对象查询嵌入特征 ( z = M_{cur}(I_i) ) 和增强图像查询嵌入 ( z_a = M_{cur}(I_{ai}) )。类似地,分离模型用于获取嵌入 ( \overline{z}a = \overline{M}{pre}(I_{ai}) )。然后,我们的映射网络 ( G ) 将 ( z_a ) 映射到 ( \overline{z}_a ),而不是要求 ( z_a ) 与 ( \overline{z}_a ) 相似,因为这可能会对蒸馏损失 ( L_D ) 的学习产生不利影响。我们通过特征对齐损失 ( L_F ) 将对象查询 ( G(z_a) ) 和 ( \overline{z}a ) 结合在一起,从而进行特征对齐。在这里,我们测量输入嵌入之间的交叉相关矩阵,并试图使对象查询更接近。该损失还有助于减少嵌入之间的冗余,并使表示对噪声更加鲁棒。此外,相同的损失用于使模型对增强不变,从而可能有助于使对象查询表示 ( z ) 对模型的状态不变。然后,使用以下损失训练当前模型 ( M{cur} ):

3.4 卫星图像中的OWOD
与在自然图像中预测轴平行边界框的 OW-DETR 不同,对于卫星图像,我们调整了基线框架以预测沿着对象方向的定向边界框,以实现更通用的方法。对于定向目标检测,我们在 OW-DETR 中引入了一个额外的角度预测头,以及其标准的边界框预测头。我们发现,我们的对象查询引导伪标记方案也适用于卫星图像中面临的挑战,如大规模变化、高目标密度、严重的背景混杂以及卫星图像中的大量对象实例。此外,在卫星图像中进行开放世界目标检测时依赖于人类专家或标注者是非常有问题的,因为这需要对每个图像进行大量的密集定向边界框注释。因此,半监督开放世界学习设置可能是有益的。
3.5 训练和推理
训练:网络的整体损耗公式可以写为:

其中,Lc、Lr 和 αLo 分别表示分类、边界框回归、前景物体性(类别不可知)的损失项,而 Lcur 代表来自等式 2 的半监督增量学习的损失。该框架遵循多阶段训练。第一个任务使用 Lc、Lr、Lo 以完全监督的方式进行训练。然后,后续任务遵循使用额外的 Lcur 损失的特征对齐策略。一个分离的模型和一个当前的模型在增强的未注释数据上进行训练,同时在顶部有一个映射网络 G,以便在潜在空间中使用特征对齐使嵌入更接近。
推理:获得测试图像 I 的对象查询,并且模型预测它们从 Kt + 1 类中的标签以及一个边界框。用于 OWOD 检测的是具有最高分数的 top-k 选择。
