OPEN-VOCABULARY OBJECT DETECTION VIAVISION AND LANGUAGE KNOWLEDGE DISTILLATION
通过视觉和语言知识提炼进行开放词汇的物体检测
摘要
- 我们的目标是推进开放词汇的物体检测,它可以检测由任意文本输入描述的物体。
- 根本的挑战是训练数据的可用性。现有的物体检测数据集只包含数百个类别,而且进一步扩展成本很高。
- 为了克服这一挑战,我们提出了ViLD,一种通过视觉和语言知识提炼的训练方法。我们的方法是将预先训练好的开放词汇图像分类模型(教师)的知识提炼成两阶段的检测器(学生)。具体来说,我们使用教师模型来编码类别文本和物体建议的图像区域。然后我们训练一个学生检测器,其检测到的盒子的区域嵌入与教师推断的文本和图像嵌入相一致。我们以LVIS为基准,将所有罕见的类别作为训练期间未见的新类别。
- ViLD获得了16.1个掩码APr,甚至比以ResNet-50为骨干的有监督的对应模型还要好3.8。该模型可以直接转移到其他数据集而不需要进行微调,在PASCAL VOC、COCO和Objects365上分别获得72.2 AP50、36.6 AP和11.8 AP。在COCO上,ViLD比以前的SOTA(Zareian等人,2021年)在新的AP上高出4.8,在整体AP上高出11.4。
引言

基于图1的观察,在本研究中我们致力于开发一种能够超越仅基于训练标签识别的基本类别的物体检测系统,并通过扩大词汇表来识别新的类别(如玩具大象)。本文的目标是训练一个支持开放词汇的物体检测器,在这种情况下仅利用基础类别相关的标注信息,并对输入文本描述的所有潜在新类别进行检测。现有的物体检测算法通常受限于所学数据集中的具体类别集合。增加检测能力的一种常见方法是收集包含更多标记类别的图像数据集。近年来的研究者们已经成功地构建了包含大量新类别的数据集(Gupta等人, 2019;Kuznetsova等人, 2020)。LVIS项目(Gupta等人, 2019)是这一努力的重要里程碑之一,在该项目中构建了一个包含1203个类别的数据集。然而由于Zipf定律导致的对象类别呈长尾分布特性,在获取足够数量的学习样本时会面临指数级增长的需求(Gupta等人, 2019),从而使得扩展分类能力的成本变得高昂。另一方面,在互联网上存在海量图像与文本配对的数据资源(Radford等人, 2021)。这些预训练的语言编码器为直接转移到多个分类任务带来了显著性能提升效果。值得注意的是,在从图像层面提取表征方面取得了巨大成功的同时,在对象层面进行表征学习以实现开放分类能力仍面临诸多挑战
在这项工作中,我们考虑借用预先训练的开放词汇分类模型的知识来实现开放词汇检测。我们从R-CNN(Girshick等人,2014)式的方法开始。我们把开放词汇检测变成两个子问题:1)广义物体提议和2)开放词汇图像分类。我们使用基础类别中的例子训练一个区域提议模型。然后,我们使用预先训练好的开放词汇图像分类模型对裁剪后的物体提议进行分类,这些提议可以包含基础类别和新类别。我们以LVIS(Gupta等人,2019)为基准,将所有罕见的类别作为新的类别,将其他类别作为基础类别。令我们惊讶的是,新类别的性能已经超过了其监督的对应类别。 然而,这种方法对于推理来说是非常缓慢的,因为它将对象建议逐一送入分类模型。为了解决上述问题,我们提出了ViLD(视觉和语言知识提炼)来训练两阶段的开放词汇检测器。ViLD由两部分组成:用文本嵌入(ViLD-text)和由开放词汇图像分类模型推断的图像嵌入(ViLD-image)学习,例如CLIP(Radford等人,2021)。在ViLD-text中,我们通过将类别名称输入预训练的文本编码器来获得文本嵌入。然后,推断出的文本嵌入被用来对检测到的区域进行分类。类似的方法已经被用于之前的零散和开放词汇检测工作(Bansal等人,2018;Rahman等人,2018;Zareian等人,2021)。我们发现与视觉数据共同学习的文本嵌入可以更好地编码概念之间的视觉相似性,与从语言语料库学习的文本嵌入相比,例如GloVe(Pennington等人,2014)。使用CLIP文本嵌入在LVIS上实现了10.1APr(新类别的AP),大大超过了使用GloVe的3.0APr。在ViLD-image中,我们通过将对象建议输入预训练的图像编码器来获得图像嵌入。然后我们训练一个物体检测器,其检测到的方框的区域嵌入与这些图像嵌入相一致。与ViLD-text相比,ViLD-image从基础和新的类别中提炼知识,而ViLD-text只学习基础类别的概念。我们表明,从文本和图像嵌入中共同学习的ViLD在LVIS上取得了16.1的APr,比有监督的对应方高出3.8。为了突破性能极限,我们使用ALIGN(Jia等人,2021)作为更强大的教师模型,并获得了26.3APr的最佳性能,这比使用额外技巧的2020年LVIS挑战赛冠军(Tan等人,2020)仅差3.7APr。我们还在COCO(Lin等人,2014)上获得了最先进的结果。我们的方法比之前的SOTA(Zareian等人,2021年)在新的类别上的表现要好4.8AP,在所有类别上的表现要好11.4AP。此外,在LVIS上训练的ViLD可以直接转移到其他检测数据集,包括Objects365、COCO、PASCAL VOC。
相关工作
提升视觉识别技术中专业术语库的数量
其中一项重点是零点识别技术,在训练数据中未出现过的类别别进行识别工作。早期研究(Farhadi等, 2009;Rohrbach等, 2011;Jayaraman和Grauman, 2014)通过视觉属性构建二进制编码本来实现从已知类别到未知类别的知识转移。在此领域中,学者们还深入探讨了类的层次性特征、类别间的相似性以及对象的部分描述作为知识转移的关键鉴别特征(Rohrbach等, 2011;Akata等, 2016;Zhao等, 2017;Elhoseiny等, 2017;Ji等, 2018;Cacheux等, 2019;Xie等, 2020)。另一项重点是实现图像与文本之间的潜在对齐关系,在这种框架下任意形式的文本都能用于图像分类任务。包括从Frome等人(2013)和Norouzi等人(2014)开始的一系列研究都致力于构建视觉-语义嵌入空间的基础工作。随后的研究者如Wang等人(2018),他们通过结合单词嵌入模型与知识图谱信息进一步完善了这一领域。近年来,在Radford等人(2021)提出的CLIP模型与Jia等人(2021)提出的ALIGN框架的基础上,通过收集海量图像-文本配对数据并采用对比学习方法训练联合模型,在这一领域取得了突破性进展。这些基于互联网大规模知识库构建的知识密集型模型不仅在分类任务上表现出色,在其他相关任务中也展现出强大的泛化能力。
提升物体检测领域的词汇量,在面对高词汇量的物体检测挑战时(即大词汇量场景),扩大数据收集规模虽然能提供一定帮助但其成本依然高昂。零照检测提供了一个替代方案。大多数现有零点检测方法通过将区域特征与预训练文本嵌入对齐的方式进行匹配(Bansal等人于2018年;Demirel等人于2018年;Rahman等人于2019年;Hayat等人于2020年;Zheng等人于2020年)。然而,在监督学习框架下这些方法的表现与现有的监督方法仍有较大差距。针对上述问题Zareian等人(2021)提出了一种基于图像标题预训练骨干模型的新方法并通过微调该预训练模型来改进性能。然而我们采用图像-文本预训练模型作为教师网络来指导学生网络进行目标检测任务并取得了显著效果。以往的研究大多局限于几十个特定领域或类别的评估而本研究首次实现了超过一千个不同类别的统一评估框架

3.方法
在本节中阐述了我们的方法体系及其关键技术模块:首先详细讲解了新型物体的定位技术,并基于预训练的学习机制分别构建了文本嵌入模型(ViLD-text)与图像嵌入模型(ViLD-image)。这些核心技术均通过图2以图形化形式展示了该方法的整体框架。此外,在整合多模态特征方面进行了深入研究,并实现了最优检测效果。
符号方面,在本研究中涉及多个分类标记以区分不同类型的标注信息。
我们将来自物体检测的数据集中的标注信息按照所属类别进行二分组处理。
其中CB代表基础类群而CN代表新增类群。
仅采用CB类别的标注信息参与模型训练过程。
其中T(·)表示文本编码器,
V(·)表示预训练的开放词汇图像分类模型中的图像编码器
3.1 新颖类别的物体提议
在开放式的词汇检测中,默认的第一个主要挑战是实现对新型物体的识别与定位。在此问题上我们进行了改进设计,在原有的基础之上优化了现有的两阶段物体检测框架。通过将传统的基于特定类别的定位机制进行了创新性改造,在原有框架中引入了通用对象识别的技术。针对每一个被关注的重点区域,改进后的模块仅输出一个统一的边界框,并生成适用于所有类别的一组掩膜。这种通用的对象识别技术能够有效地泛化应用到各种新型物体上。
3.2 带交叉区域的开放词汇检测
当候选物体被初步识别后,我们推荐采用经过前期大量数据训练的开放词汇图像分类器,并对各个区域分别进行图像分类处理。

