Advertisement

Towards Open World Object Detection

阅读量:

摘要:

人类具备在环境中识别陌生物体实例的本能。一旦相应的知识信息可用于描述这些未知实例时,求知欲望有助于认识它们。

这一现象促使我们提出了一个新兴的计算机视觉挑战,并将其命名为'开放世界目标检测'。该技术挑战旨在通过建立一个能够识别并定位未预先标记的对象来进行分类与定位任务。

    1. 在缺乏明确监督的情境下,
    1. 对那些未预先引入的对象进行分类时,默认将其归类为"未知"对象。
    1. 随着逐步获取相应的标签信息,
    1. 我们会从已识别的未知类别中持续学习新的知识。
      同时,在这个过程中,
    1. 我们会努力避免忘记之前已经掌握的所有类别。

本文开发了一种融合对比聚类与能量模型的未知识别的开放世界目标检测算法。通过实验验证和消融研究考察了ORE网络在实现开放世界目标方面的效能。这一发现揭示了其在增量目标检测中显著的优势,并展示了通过识别与描述未知实例能有效降低混乱程度。在此情况下展示了最先进性能的同时仅依赖于现有方法基础。对此持乐观态度期待该研究方向将获得更多关注与深入探讨。

1.引言:

深度学习加速了目标检测研究的进展[13,53,18,30,51],模型的任务是识别和定位图像中的目标。所有现有的方法都是在一个重要假设下工作的,即所有要检测的类在训练阶段都是可用的。当我们放宽这一假设时,出现了两个具有挑战性的场景:

  • 1)测试图像中可能存在来自未知类的对象,并应将其归类为未知。
  • 2)当有关这些已识别的未知项的信息可用时,在线模型应具备逐步学习新的类别的能力。

发展心理学的研究[40,35]表明,在人类认知过程中识别自身未知事物的能力具有核心意义。这种认知驱动力促使人们渴望探索新知识领域[8,15]。研究者们由此提出了一个关键问题:模型是否能够将未标记实例归类为未知类别,并在统一的数据训练框架下逐步实现对这些未知实体的认识?这个问题被称为开放世界目标检测问题。面对无限可能的新类别,在现有标注体系中(如Pascal VOC[9]和MS-COCO[31]),我们仅能标注少量具体类别(分别为20个和80个)。要实现对新未知实体的有效识别,则需要具备强大的泛化能力。Scheirer等人[56]将这一挑战性任务正式定位于开集分类问题。在此之后,“1 vs rest支持向量机”的传统方法与深度学习模型等多领域方法不断探索解决这一难题的办法。值得注意的是,在探索开放世界分类这一领域中,“扩展到开放世界分类设置”的思路并非首次提出——Bendale等人[2]正是通过改进图像分类器以识别新未知类别,并将这种方法扩展至开放世界分类场景中。然而由于该问题的高度复杂性与挑战性,在现有研究中仍有许多未解之谜等待解答(如图1所示)。

图1展示了“开放世界目标检测”这一至今尚未被正式定义并加以解决的问题。尽管与之相关的领域包括“开放集”以及“开口 world classification”等概念……然而,“开口 world target detection”这一特定领域的挑战性依然显著,在成功解决这些难题之前……该方法的实际应用价值得到了显著提升.

基于现有研究发现,在目标检测领域中将图像分类的技术直接迁移存在局限性。这一关键区别在于:在这一领域中所关注的问题设置不同——在传统的目标检测任务中(如自动驾驶场景中的车辆识别),系统主要负责对已知类别对象进行识别并隔离未知类别对象作为背景;而在图像分类任务中则更多关注的是对未标记类别对象的独立识别能力。许多未知实例已经被成功融入到现有的目标检测体系中,并且由于缺乏标注信息,在后续训练过程中这些未知实例会被系统自动识别为特定区域(即所谓的"背景"区域)。然而,在这一过程中系统可能会出现偏差——即使是在经过特殊设计的额外监督信号引导下,在实际应用中仍可能出现误判现象:当遇到新的待识别对象时系统可能会错误地将其归类为已知类别之一(通常情况下其置信度会达到较高水平)。为此Miller等人建议采用脱落采样方法来评估模型对于边缘案例的置信度水平。值得注意的是这是当前公开文献中最少被引用的研究工作之一——我们提出的方法进一步突破了这一限制条件一旦新类被判定属于未知类别系统不仅能够将其作为一个独立的小类进行处理还能根据用户需求为其提供具体对应的目标分类标签这种特性目前在公开文献中尚属首次尝试如图1所示本文旨在对现有相关研究工作进行系统梳理并探讨新的研究方向

与封闭世界的静态学习模式相比,在开放世界的语境下展开目标检测更为合理。

  1. 我们引入了一个新的领域 设置,即开放世界目标检测,它能够更加贴近真实世界的运行模式。
  2. 我们开发了一种新的策略,命名为ORE,这种策略基于对比聚类技术以及未知感知建议网络等元素,旨在应对开放世界检测中的各种挑战。
  3. 我们创建了一个完整的测试平台,这一平台有助于评估目标探测器在开放世界环境下的性能特征,并成功地将ORE方法与现有的竞争性基准方法进行了系统性对比。
  4. 作为一个意外收获的结果,所提出的方法在增量目标检测方面展现出了卓越的能力,尽管这一成果并非其主要设计目标

2.相关工作

开集分类:开集配置认为基于训练集中所获取的知识存在不足,并且无法覆盖所有类别;这会导致在测试阶段遇到未曾见过的新类目

  • Scheirer等人的研究团队[57]在一对一场景中开发了一种开放集分类系统。
    • 随后的研究工作[22,58]将这一开放集分类框架成功应用至多类别问题。
    • Bendale及其合著者在深度学习模型的特征空间中设计了一种 novel 的未知目标识别方法,并通过Weibull分布模型评估置信度下降情况(该方法被称为OpenMax分类器)。
    • 基于类似的技术路线,在文献[12]中提出了OpenMax的一种生成版本。
    • 在长尾分布环境下[Liu等人34]的工作关注于同时存在多数类、少数类及未知类的情况。他们构建了一个新型的目标度量学习框架,在看不见类的情况下将其归类为潜在未知类别。
    • 以上研究的基础上有几种专门的技术旨在检测分布外样本或新类别问题[29]。
    • 最近的研究进展表明自监督学习方法[45]以及带重构的无监督学习方案[64]正在被广泛用于开集识别任务的研究中。

然而尽管这些技术能够发现未知实例 但它们无法在一个增量学习框架下适应多个不同的训练数据集 进一步地 我们对于基于能量的方法用于未知检测方面的研究尚未取得系统性进展

开放世界分类:

  • [2]首先提出了图像识别的开放世界设置。他们提出了一种更灵活的设置,即已知和未知同时存在,而不是在一组固定的类上训练静态分类器。该模型能同时识别这两种类型的目标,并在为未知目标提供新的标签时自适应地进行改进。他们的方法通过重新校准类概率来平衡开放空间风险,从而扩展了最近类均值分类器,使其在开放世界环境中运行。
  • [46]研究了开放世界的人脸识别学习,
  • 而[63]则建议使用一组已知类的样本来匹配新样本,如果与所有已知类的匹配度较低,则拒绝使用。

然而他们并未对图像分类指标实施测试 也没有探究电商产品分类的相关性

开集检测:

*Dhamija等人[7]系统性研究了开放集设置对流行目标检测器的影响效果。他们发现,在现有的目标检测技术中,默认的做法是将未知类别归为一类,并且对于可见类样本表现出较高的置信度。这些技术通常是基于特定背景类别进行显式训练的,并结合使用vs-Rest分类器来为每个类别建立模型[14, 30]。
一个专门的工作机构[42, 41, 16]致力于开发目标检测器中不确定性程度的评估方法以识别并拒绝未知类别。例如,在SSD检测框架中,[42, 41]采用了蒙特卡罗差异采样法的应用来估计不确定性水平。

然而,这些方法不能在一个动态的世界中逐渐调整它们的知识。

3.开放世界目标检测

在本节正式阐述开放世界目标检测的概念。考虑任意时间点t时,我们定义已知的目标类别集合Kt={1, 2, ..., C}⊂ℕ⁺(其中ℕ⁺表示正整数集合)。为了更真实地模拟动态变化的现实环境,在推理过程中我们假设还存在一组潜在的未知类别U={C+1, ..., ∞}。已知的目标类别集合Kt被标记为数据集Dt中的元素(Dt={Xt,Yt}),其中X和Y分别表示输入图像和对应的标签信息。具体而言,输入图像由M个训练样本构成(X= {I₁,...,I_M}),而标签信息则由Y= {Y₁,...,Y_M}组成。每个标签Yi则编码了K个目标实例及其所属类别、位置信息(即y_K=[l_K,x_K,y_K,w_K,h_K]`),其中l_K∈K_t表示该实例所属的目标类别标签(x_K,y_K)代表边界框中心坐标,w_K,h_K分别表示边界框宽度和高度参数

在开放世界目标检测设置中考虑一个目标检测模型MC,在该模型旨在识别所有之前见过的C类目标的基础上进行设计与优化。关键在于该模型不仅能够识别所有已知C类的目标实例,并且还能通过将未识别过的类实例标记为标签0(表示未知类别)来扩展其分类能力。随后将未知实例集Ut发送给人类 annotator 进行标注与反馈处理,在此过程中这些 annotators 能够识别n个新引入的兴趣类别,并提供相应的训练样本。学习器能够逐步引入n个新类别并更新其参数以适应新数据,在此过程中学习器能够生成一个新的模型版本 MC+n 以替代原来的MC配置(无需重新训练整个数据集)。同时已知的类集也会被更新为 Kt+1 = Kt ∪ {C+1, ..., C+n} 的形式(如图2所示)。

**图2:方法概述:顶行:在增量学习过程中,系统识别潜在的目标类别(以问号表示),并逐一标注这些新发现的目标并整合至现有的知识数据库中。底层:我们开发了一种开放世界的智能检测系统,在其架构中融合了基于能量的分类模块与未知感知区域 proposals网络(RPN),旨在识别和解析未预先定义的目标类别。此外,在特征空间中构建了对比学习机制用于类别区分任务,并设计了一种可动态增删类别的高效算法框架。

4.ORE: Open World Object Detector 开放世界目标检测器

一种高效的一类目标检测技术应在无需人工标注的前提下实现对未知实例的识别能力;同时,在将新识别出的实例及其标签反馈至模型以完成知识更新(无需重新训练)时,则需克服模型对早期识别样本的记忆失效问题;为此我们提出了一种统一框架式的解决方案;神经网络作为函数逼近的有效工具[21];其通过多层非线性变换建立输入与输出之间的映射关系;在这一过程中;各层次的学习特征决定了各个映射模块的具体实现机制;基于假设:在目标检测器潜在空间中建立类间清晰度划分的学习框架可能带来双重提升效果;

  • 首先,在模型中通过帮助模型识别未知实例与其他已知实例的差异性特征表示的基础上进行区分判断工作后处理流程(潜在空间是否真的能够区分已有类别与新增类别的问题令人质疑 )。
  • 第二,在学习阶段通过实现对新类别的特征表示建模过程,并且以避免与潜在空间中已存在的前一类别产生混淆为目标来提升分类准确性。

在潜在空间中提出对比聚类方法成为识别这一关键点的核心要素,在第二章将详细阐述这一方法的基础上

  • 在第一阶段中, 类别无关的区域建议网络(RPN)识别出可能具有从公共主干网络提取出的特征映射的目标候选区域。
  • 第二阶段, 通过执行分类与优化操作, 对每个候选区域内的边界框坐标进行精确调整. 通过对兴趣区域(RoI)模块其他部分产生的特征进行对比聚类处理, 并结合RPN层与分类头的工作机制, 其中RPN层负责自动标记目标候选框的位置信息, 并通过分类头进一步识别出未知的目标类别.

我们将在以下小节中解释这些连贯的组成部分:

4.1对比聚类

潜在空间中的类别间差异可视为开放世界方法识别未知样本的理想属性。通常可以通过对比聚类模型来实现这一目标:在同一类别内的样本会被强制聚集在一起;而不同类别间的样本则会被分隔得较远。对于每个已知类别i∈Kt(其中Kt表示所有已知类别集合),我们设定一个对应的原型向量pi用于代表该类别典型特征的表现形式。设fc∈Rd表示特征检测器在中间层输出与c类别物体相关的特征向量,则对比损失函数可定义如下:

其中D代表任意一种距离函数,Δ被定义为衡量相似项与不相似项之间距离的指标。通过最小化这种损失函数,在潜在空间中能够有效地实现类别的分离目标。

每个类对应的特征向量集合被用来创建类原型集:P={p0···pC}。每个生成的原型向量都是ORE中的一个关键组成部分,在整体网络进行端到端训练的过程中逐渐演化(这是因为随机梯度下降方法在每次迭代中都会微调一部分权重参数)。我们使用一个固定大小的队列qi来存储每个类对应的特征信息集:特征集Fstore={q0···qC})。该特征信息集能够有效跟踪特征向量如何随着模型训练而发生演变变化,并受到类别数目C和队列最大容量Q共同约束的影响:具体而言,在每一阶段i处(i=0,1,…,C×Q-1),队列qi将存储当前对应的特征信息集F_i = {f_i_0, f_i_1,…,f_i_{Q-1}})

4.2Auto-labelling Unknowns with RPN使用RPN自动标记未知

为了计算聚类损失,在公式1中我们比较了输入特征向量fc与对应的 prototype 向量之间的差异。其中 prototype 向量包含了不同类别(c取值为0至C)的代表元,默认情况下c=0对应于未标记类别。这种做法将导致所有待识别的目标实例都被归类为未指定的标准类别。然而,在大规模标注数据集上进行此类操作仍然具有挑战性。因为对每个图像中的所有实例进行重新标注是一个耗时且复杂的任务。

为了替代方案 我们建议自动标注图像中的某些目标为潜在未知的目标 为此 我们采用区域建议网络(RPN) 因为该方法不依赖于类别信息 对于输入图像而言 在前景实例和背景实例之间生成一系列边界框预测 并附有相应的目标置信度分数 这些预测结果将用于识别可能不属于现有类别但又具备显著特征的对象 这种方法的关键在于通过筛选高置信度但非标签重叠的候选区域 来确定潜在未知的目标 这一过程可以通过选择所有候选区域中置信度最高的top-k个 背景区域并按得分排序的方式来实现 简而言之 在所有候选区域中选择置信度最高的top-k个背景区域 并按得分排序作为待识别的对象 如第五部分所述 这种看似简单的策略实际上能够有效提升性能

4.3. Energy Based Unknown Identifier 基于能量的未知目标识别

在隐空间f中定义了特征集合F以及对应的标签集L的基础上

其中T是温度参数。softmax层之后的网络输出与类比能量值的Boltzmann分布之间遵循某种直接的关系[33]。可以用以下方式表示为

其中,
p(l,f)
代表标签
l
的概率密度函数,

gl(f)
则对应于分类器
g
在第
l
层的回归分析。
通过建立相应的关联关系,在该框架中我们采用
logit
函数来计算系统的自由能。

该公式为我们提供了一种自然的方法来将Faster R-CNN[53]中的分类头转化为能量函数。
由于我们采用了对比聚类在潜在空间中执行清晰分离的技术,
从图3可以看出已知类数据点与未知数据点的能量水平呈现出明显的区分度。
基于这一规律,
我们采用了偏移Weibull分布在已知和未知条件下模拟能量值ξkn(f)和ξ∗(f)的能量分布。
这些分布在验证集上的表现优于伽马、指数以及正态分布。
若ξkn(f)小于ξunk(f),则采用该方法将预测结果标记为未知类别。

图3:如上所示,在图3中展示了数据集中的已知与未知样本的能量值存在明显的区分特征。具体而言,在第4.3节中,我们通过在每个样本上建模威布尔分布来实现对未知类别样本的分类识别。

4.4. Alleviating Forgetting****减缓遗忘

在识别出未知目标之后,在实现新类别的学习方面,开放世界探测器需要满足一个关键的必要条件即当提供一些具有代表性的未知类样本时能够完成学习过程。值得注意的是,在实际应用中由于从零开始微调的方法在实际应用中并不适用因此在此阶段我们不会提供前任务相关的训练数据。为了提高模型性能仅基于新类别实例进行训练可能导致模型遗忘先前学习的内容。为此我们已经开发出一系列有效的方法来解决这一问题包括但不限于基于参数正则化的方法[1,23,28,65]范例重放机制[5,50,36,4]动态网络扩展策略[38,59,55]以及元学习方法[49,24]等

5.实验结果

结论

该目标检测框架显著提升了标准数据集上的性能基准水平。然而由于封闭的数据集与评估协议限制了进一步的研究进展。为此我们开发了一种支持开放世界的多标签检测系统其中的目标检测器能够识别出未知对象并逐步学习新类别的数据特征同时根据模型更新动态扩展其认知边界以实现更为全面的目标识别能力与分类精度提升

全部评论 (0)

还没有任何评论哟~