【KD】2023 AAAI Oral Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer
目录
简介
一、 背景与挑战
二、解决思路
三、技术贡献
四、技术方案
4.1 Backbone 网络和双流模块
4.2 知识蒸馏和特征对齐
4.3 标签 Embedding 的提示学习
4.4 损失函数
五、算法效果
六、总结
简介
在多标签分类系统中

论文链接:
_https://arxiv.org/abs/2207.01887_
代码链接:
一、 背景与挑战
图像多标签 识别算法的核心目标是实现对图像中所包含的各种类别标签的自动识别。作为计算机视觉领域中的一项基本技能,在多个应用场景中得到了广泛应用。具体而言,在场景理解、监控系统以及自动驾驶等任务中均发挥着重要作用。然而,在实际应用过程中发现,在训练集中仅能处理已知类别的多标签识别系统存在明显的局限性——即难以满足现实中的需求。为了弥补这一不足,在现有研究中通常采取的方法是在模型训练阶段引入未知类别信息,并通过优化算法提升其泛化能力。然而目前仍存在较大的改进空间——因此设计出既能基于有限的已知类别进行精准分类又能在推理阶段同时处理有限已知类与海量未知类的多标签识别算法成为了当前研究的重点方向。
二、解决思路
为了辨识训练数据中的未知类别 ,现有的多标签零样本学习(ML-ZSL)方法 通常会利用从训练集中已知类别到待识别类别间的知识迁移机制 来实现对未知类别的识别 然而 这些方法仍面临以下挑战:
这类方法仅依赖预训练语言模型(例如GloVe)所获取的一维语义信息,并未考虑多模态数据中的潜在关系网络构建;如同图1(b)所示,在这种情况下生成的结果往往偏离真实值;
然而,在GloVe等语言模型中虽然能够较为精准地生成单个单词单位(Word)的嵌入表示(如'Cat'),但无法有效地扩展至由多个单词组成的复合词(如'Black Cat'),这直接限制了模型在处理词组标签方面的识别能力。
单模态的语言模型尽管成功地捕捉了标签之间的语义一致性。
然而它们在图像分类中遗漏了重要的视觉一致性信息。
最近基于图文预训练模型的 Open Vocabulary 分类模型在单标签 Open Vocabulary 分类任务上展现出了显著的应用潜力。
但是如何将其推广至多标签场景仍是一个亟待解决的关键问题。
在此基础上
此外
值得注意的是

图 1. ML-ZSL 和 MKT 方法比较
**三、**技术贡献
该研究的主要技术贡献可概括为如下几点:
- 研究者开发了一种新型Open Vocabulary多标签识别框架MKT,该框架通过多模态知识迁移机制,结合图文预训练模型中提取的多模态语义特征,实现了对未知类别标签的有效识别,并成为该领域首个系统性研究Open Vocabulary多标签分类任务的方法。
 - MKT体系主要由图像编码器构成,同时包含图文预训练模型中的图像编码器以及文本编码器。研究者采用知识蒸馏技术来确保图像与文本嵌入之间的高度一致性,并引入了提示学习机制以动态更新标签嵌入表示能力。
 - 为提升特征表达效果,研究者设计并实现了双流特征提取模块,该模块能够有效捕获样本的局部细节特征与全局语义特征。
 - 实验结果表明,MKT在NUS-WIDE公开数据集上的平均准确率达到了78.9%,在Open Images基准测试中也取得了65.7%的成功率;在Open Vocabulary多标签分类任务上显著超过了现有ML-ZSL方法,并成功地将基准测试准确率提升至当前国际最优水平。
 
四、技术方案
MKT总体框架示意图如图2所示,主要包括Vision Transformer模块,双流模块(Two-Stream Module)以及基于视觉语言预训练模型(Image/Text Encoder)等关键组件.其中,Vision Transformer被定义为提取图像语义特征的关键组件,其在多模态信息处理中发挥着重要作用.鉴于CLIP在图像与文本匹配方面展现出卓越的能力,研究者借鉴了CLIP在图像编码与文本编码方面的技术优势,将其实现融入到多模态模型中进行知识迁移.具体而言,标签嵌入体通过CLIP提供的文本编码器生成,并借助提示学习机制得到优化.此外,研究者还引入了知识蒸馏技术,以促进图像嵌入体与文本嵌入体之间的对齐与融合

图 2. MKT 总体框图
4.1 Backbone 网络和双流模块
在处理一张图片时,在处理过程中首先经过分块(Patchify)输入 Vision Transformer 网络以获取代表整体特征的 CLS Feature 和代表局部特征的 Patch Feature。随后分别通过全局头和局部头将这些特征转换为 Embedding 空间中的表示。接着基于 Top-K 的方法计算局部头的相似度得分并与全局头的得分进行综合计算以获得最终预测分数,并通过排序损失(Ranking Loss)来优化模型:


4.2 知识蒸馏和特征对齐
在图像与标签的嵌入对齐问题上,在从已知标签向未知标签的知识迁移过程中具有重要意义,并且在开放集合多标签分类任务中扮演着关键角色。由于CLIP模型在预训练阶段通过图文对比进行过广泛训练,在此过程中生成的图像与文本嵌入呈现出较高的相似度。研究者们通过知识蒸馏技术提取了CLIP模型多模态特征表示能力的关键信息,并成功地促进了图像嵌入与其相关联的文本嵌入之间的更加精准的对齐关系。所采用的蒸馏损失函数如下式所示:

其中 o_cls是图像全局特征, o_dist是 CLIP 图像编码器产生的特征。
4.3 标签 Embedding 的提示学习
参照CLIP框架,在研究中发现:研究者首先采用了固定的提示模板,并将该提示输入到CLIP的文本编码器中以获取对应的嵌入表示。然而由于所使用的固定提示与CLIP normally training使用的自然语言存在差异,并且我们有理由相信这种生成方法无法达到最佳效果;因此为了进一步优化这一过程;然而在训练数据量有限的情况下;直接对整个编码器进行优化容易导致过拟合问题;借鉴CoOp的方法;研究者采用提示学习策略;仅对上下文嵌入进行优化;其余模型参数保持不变;通过这种方式可以在嵌入空间中持续搜索以获得最优解;从而提升整体性能表现
4.4 损失函数
研究者将MKT训练过程划分为两个具体阶段进行分析。在第一阶段中,标签嵌入通过经过预先训练的CLIP模型生成,其中Backbone网络与双流模块协同工作,其优化目标主要基于排序损失与蒸馏损失相结合以提升模型性能:

在第二阶段,采用排序损失进行提示学习,只优化标签上下文 Embedding:

五、算法效果
为了评估该算法的效果, 研究团队在两个标准化数据集——NUS-WIDE和Open Images——上进行了系统性实验. 其中NUS-WIDE数据集包含了925个已知标签和81个未知标签, 共计提供约16.2万张训练图片以及约10.8万张测试图片; 其更具挑战性的Open Images(v4)数据集则拥有7,186个已知标签和400个未知标签, 提供了约900万张训练图片以及约12.5万张测试图片. 如图所示的具体实验结果展示于表1中. 研究表明MKT相较于现有ML-ZSL领域的最优方法SOTA取得了显著进步, 同时显著优于基于直接微调的CLIP模型(CLIP-FT)的结果

表 1. 不同方法在 NUS-WIDE 和 Open Images 数据集上 ZSL 和 GZSL 任务的比较
MKT 和 CLIP、BiAM 模型在 NUS-WIDE 数据集上的样本图像可视化效果对比实验结果如图 3所示。

图 3. NUS-WIDE 测试集示例图片及预测
MKT 和 BiAM 的 Grad-CAM 可视化效果对比见图 4.。

图 4. Grad-CAM 可视化比较
在表 2 和表 3 的消融研究中, 研究者对知识蒸馏, 提示学习以及双流模块展开了深入探讨, 并揭示了这些模块在 MKT 框架下的关键作用

表 2. 知识蒸馏和提示学习对实验结果的影响

表 3. 双流模块对实验结果的影响
六、总结
腾讯优图实验室针对现有基于大量训练数据无法识别不可见未知类别标签的多标签分类问题, 提出了基于可迁移多模态知识构建的通用 Open Vocabulary 多标签学习框架 MKT。该研究利用预训练的图文模型展现了强大的图像与文本匹配能力, 通过结合提示学习与知识蒸馏技术优化目标嵌入空间并提升图像与标签嵌入一致性, 并采用了双轨机制以同时捕获局部与全局特征信息, 进而显著提升了模型的整体性能表现。实验结果表明, 在 NUS-WIDE 和 Open Images 两个公开数据集上, 该方法成功实现了对未标记类别的有效识别
参考文献
[1] Pennington J, Socher R, Manning CD. Glove: Global vectors for word representation. InProceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 2014 Oct (pp. 1532-1543).
[2] Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G. Acquisition of transfer-capable visual representations through natural language guidance. In the International Conference on Machine Learning in July 2021 (pp. 8748-8763). PMLR.
Duy Du, Weifeng Wei, Zhangming Zhang, Shiwei Shi, Gaoyong Gao, Ligang Li. Mastering Effective Prompt Engineering for Open-World Object Detection Integrating Vision-Language Architectures. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 14084-14093).
The open-set instance segmentation approach was implemented through robust cross-modal pseudo-labeling in the InProceedings of the IEEE/CVF CVPR 2022 conference (pp. 7020–7031).
Developing methods for prompting in vision-language models, as demonstrated in the paper by Zhou et al., was published in the International Journal of Computer Vision in September 2022.
基于共享多注意力机制的多标签零样本学习框架在IEEE/CVF计算机视觉与模式识别会议2020年会上发表
[7] Ben-Cohen A, Zamir N, Ben-Baruch E, Friedman I, Zelnik-Manor L. Exploring semantic diversity in zero-shot multi-label classification tasks. In the Proceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 640-650).
The discriminant region-focused multi-label zero-shot learning approach was presented at the IEEE/CVF International Conference on Computer Vision in 2021.
