Advertisement

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

阅读量:

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

针对零样本识别问题,在基于无标签数据的情况下研究如何对某个特定类别进行分类器的学习工作。在迁移学习中,关键在于将已掌握的知识迁移到新的领域。本研究中,我们主要关注于利用图卷积神经网络这一方法论框架来解决该问题。具体而言,在本研究中提出了一种创新性方法:即通过同时融合语义向量与类别间的关系信息来构建高效的分类器模型。基于预训练的知识图谱模型,在这一过程中将语义向量作为每个节点的关键输入特征,并通过一系列精心设计的图卷积操作提取多级表示信息。随后,在模型训练阶段采用微调策略:通过对少量相关领域的分类器进行优化调整而获得改进型GCN参数配置。最终在测试环节,则利用这些优化后的滤镜特性来进行未知领域分类器性能评估与预测任务

本文综合运用了隐性知识表示(词向量)与显性知识(知识图谱)来构建新类别视觉分类器。每个节点代表一个语义类别,在这些节点间通过关系边连接起来。每个节点的输入是各个类别的向量表示,在此基础之上使用图卷积在不同类别间进行知识迁移。具体而言,文中构建了一个6层的GCN模型用于输出不同类别的分类器。

本文关注于图片分类问题,考虑两种测试设置

  • 最终的测试类别仅限于零示例的类别。
    • 在测试过程中,在已有的或未曾见过(归属)的情况中进行标签归属,并被称为广义零示例设置。
方法
图卷积

图卷积网络最初设计用于解决半监督学习中的实体分类问题。具体而言,在这种设置下,我们关注的是基于有限 labeled 数据推断未标注数据(即无标签数据)的任务。例如,在自然语言处理领域中我们可以将猫和狗归类为哺乳动物这一类别,并将椅子与沙发归类为家具这一类别。为了更好地理解这一概念,请考虑以下示例:假设有这么一幅图示意图中点代表不同的实体节点而边则表示这些节点之间的关系连接。
在形式上我们定义了一个包含n个实例的数据集(X,Y)=\{(x_i,y_i)\}_{i=1}^n其中x_i代表第i个实例对应的词向量描述而y_i属于类别集合\{1,2,...,C\}即对应于该实例的真实类别标签。
在实际应用中通常情况下我们假设前m个实例的真实标签信息是已知的而在剩余n-m个实例上则需要通过模型推理出其对应的类别标签。
为了实现这一目标我们可以使用F表示一个图卷积神经网络模型它负责对所有节点对应的词向量集合X进行处理并输出每个节点的概率分布结果。
在这种情况下训练过程主要涉及对前m个实例应用交叉熵损失函数来进行优化以最小化预测概率与真实标签之间的差异从而完成模型参数的学习任务。

\sum_{i=1}^m\frac{1}{m}L_{softmax}(F_i(X),y_i)
在测试阶段, 通过已学习权重生成剩余n-m个实体的标签.

与传统的局部卷积不同,在GCN中,其卷积运算基于预先定义好的邻接图来获取节点间的相互作用。从形式上来看,在每一层的操作中

Z = \hat{A}X'W

\hat{A} (n×n) 是无向图 G 的二进制邻接矩阵的一种标准化形式。由上一层网络传递来的特征信息构成 n×k 维的空间 X' ,其中每一行对应于一个节点。每一层都包含一个 k×c 维度数为 c 的权重矩阵 W ,用于将输入空间转换为目标空间。每个卷积层接收作为输入 n×k 维的数据并计算得到的结果 Z 作为输出。每个卷积操作之后都会应用激活函数 ReLU 来引入非线性特性,在完成这一过程后生成具有标签类别的输出维度。

GCN for zero-shot

输入是类别的集合和他们对应的语义特征向量,输出是每个输入类别的视觉分类器。我们希望GCN预测的分类器是在预训练的固定的卷积特征上的logistic回归模型。如果视觉特征向量的维度是D,对类别i的每个分类器w_i也是一个D为的向量,因此GCN每个节点的输出也是D维的,而不是C维的。在零示例的设定下,我们假设一共n个类别的前m个类别的有足够的视觉样例来估算他们的权重向量。对于剩下的n-m个类别,通过给定的特征向量作为输入来预测他们对应的权重向量。

基于m组训练数据进行了学习神经网络的参数

针对头m类数据集,在进行模型训练时会生成其预估对应的分类器权重向量\hat{W}_{1:m};同时,在基于真实标签构建的数据集中也会获得其真实标签对应的训练集上的分类器权重向量W_{1:m};其中均方误差被选作损失函数的标准度量工具。

在训练过程中,我们基于已有的m个类别数据来训练GCN模型,并通过这些预训练参数,在零示例类别中构建了相应的分类器权重。在测试阶段,则是首先利用预训练完成的卷积神经网络提取图像特征表示,并随后利用生成的独立分类器进行图像分类任务。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~