Multi-Label Zero-Shot Learning with Structured Knowledge Graphs
未完。。。
本研究设计了一种基于多标签零样本学习(ML-ZSL)的深度学习架构,并通过语义关联表征已知与未知类别间的相互依存关系。其中包含构建了一个知识图谱来描述各类别之间的关联性;通过语义标签空间推导出信息传播规律及其适用范围;结果表明该模型适用于解决多标签分类问题及ML-ZSL任务;相较于现有最优方法其性能达到或超越现有最优方法
Introduction:
我们不仅希望图片与多个标签建立关联,并且还想挖掘这些标签间的内在联系。通常而言,在处理多标签分类问题时,二元相关性方法是最基础且 simplest 的解决方案之一。然而,在实际应用中这种方法存在明显局限性:因为它无法有效建模多个标签共同出现的情况。为此我们需要探索其他方法:假设可以通过先验知识获得交叉类别的关联关系(如文献[38, 7]所提出的)。此外还有一种基于标签嵌入的技术框架(如文献[3, 43, 6, 5, 4]):通过将输入图像和其对应的标签映射到潜在空间中来捕捉它们之间的关联关系,并进一步提出基于深度神经网络的技术框架以提升性能。其中BPMLL[50]首次提出了专门针对标记间依赖关系建模的有效损失函数;随后另有研究者提出了不同类型的损失函数(如文献[18, 34])或改进体系结构(如文献[46, 45, 49])来进一步优化模型性能。
多标签零样本学习(ML-ZSL)作为零样本学习(ZSL)的一个细分领域,在其发展过程中源自于多标签分类技术的应用延伸。这种学习框架的主要目标在于对训练阶段尚未标注过的类别标记进行预测。值得注意的是,在现有传统的方法如基于二元相关性的技术或基于先验知识的方法中存在明显局限性:这些方法在ML-ZSL场景下难以直接适用,并且由于它们无法有效地扩展到未知类别的情况而显得力不从心。相比之下,在语义空间中运用标记表示的技术,则能够更为便捷地适应ML-ZSL框架的需求:例如使用标记嵌入技术就可以实现这一点。通常而言,在这一过程中所使用的标记表示形式是从被标注的数据属性特征向量获取的:以反映特定领域内关注的兴趣类别;此外还可以通过基于语言资源提取分布式词嵌入模型来完成这一目标。
虽然最近文献中出现了许多基于ML-ZSL的方法(如[31, 16, 51, 17, 39]等),但现有的方法却未能充分挖掘其结构化知识和推理能力的优势。为此我们需要开发一种新的框架以解决这一问题。

在知识图谱构建中,我们可以通过构建共现与非共现概念的模型,并将其延伸至包含外部结构化的知识图谱来处理未知类别的问题。已有研究基于这种结构性的知识体系展开多标签分类任务研究[10]。其中一种新的图形表示被提出用于增强标签间的关系推理能力[21]。我们运用递归神经网络(RNN)来建模不同层次间的关系以及其间的正负相关性[20,41]。近年来的研究进一步发展了这一方法论框架,在传播信息的过程中有效地提取出能够推断不同类标签之间相互作用的知识[30,40,27]。
现有研究尚未提出基于ML-ZSL(零样本学习)的知识性推理架构。本文提出了一种创新性的ML-ZSL方法,在系统性地收集与相关领域知识相关的数据后实现了对新类别的识别能力提升。具体而言,在构建该体系时首先定义了基于语义向量的知识表示方式,并在此基础上设计了能够自动提取信息传播路径的学习机制。随后,在这一信息传播机制指导下逐步优化各分类器对应的初始特征表示参数。完成上述训练流程后即可实现多标记分类任务(或多标记零样本学习任务)。值得注意的是,在这一创新架构下我们首次实现了零样本学习任务中的知识性推理过程,并成功将未知类别实例的信息自然融入到了训练模型之中。此外我们还在实验层面进行了系统性评估并展示了该方法在提升基于结构化知识的数据驱动推理能力方面所取得的有效成果
本文主要贡献:
- 主要通过系统性知识体系与知识图谱构建了适用于ML-ZSL的一种新模型。
- 构建了语义空间中的信息传播机制框架,并通过该框架设计的推理机制实现了对未知类别标签的有效预测。
- 在标准多标签分类任务中展现出与现有方法相当的效果,并且超越了当前最前沿的ML-ZSL方法。
Related work:
近期工作:多标签分类利用标签共现和标签之间的关系。
多标签分类的方法:
- 二元相关性采用神经网络模型
- 标签嵌入方法通过将标签转换为嵌入形式来实现对标签间相关性的利用。
- 深度神经网络
- 分析标签间的显式语义关联
- 构建(Hierarchy and Exclusion) HEX图以捕捉任何两个标签间的语义关联,并通过这种关联改进分类性能。
- 提出了基于递归神经网络(SINN)的设计思路:该方法从正向和反向传播信息的角度出发,在概念层间建立正负相关联系。
- GGNN
- GSNN
零样本学习方法通常是通过结合属性、词向量等语义信息与视觉内容建立联系来处理视觉任务的。
