Advertisement

知识图谱向量化表示

阅读量:

作者丨姜天文

学校丨哈工大SCIR博士生

**
**

**
**

前言

知识图谱的主要目标在于构建对真实世界中实体及其关联关系的描述模型。它广泛应用于以下几个领域:(1)信息检索;(2)聊天机器人及问答系统。近年来一些学者尝试将这一技术引入推荐系统,并取得了一定成效。本文选取了八篇关于知识图谱向量表示的论文进行了综述 Translating embeddings for modeling multi-relational data

Bordes A, Usunier N, Weston J, et al. NIPS. 2013.

**
**

写作动机

先前采用单层模型等传统技术进行知识图谱推理,在实际应用中面临着较高的训练难度及难以进行扩展的缺点。针对这些问题,在本研究中我们提出了一种基于低维向量空间实现实体与关系嵌入的新模型 TransE。该创新性方法现已成为知识图谱量化表示的基础基准方案,并衍生出多种变种形式以适应不同场景需求。

模型

△ 目标函数

△ 算法流程

如前所述,在目标函数中所描述的算法核心在于使正类样本的h + r - l 的值趋近于零,并将相应地趋向于无穷大。其中d代表L1范数或L2范数,γ则表示边缘距离。整个TransE模型的学习过程相对简单明了:初始化阶段主要针对头尾节点和关系进行设置;学习过程中,在处理每一个正例子时选择相应的负例子配对(本文采取的方法是在固定relation的前提下更换头尾节点);随后通过使用hinge损失函数来尽量将正类与负类区分开来;最后通过随机梯度下降法更新模型参数完成学习任务。

Knowledge Graph Embedding by Translating on Hyperplanes

Wang Z, Zhang J, Feng J, et al. AAAI. 2014.

**
**

写作动机

尽管 TransE 模型在训练速度和实现难度上具有优势[1](注:[1] 表示脚注),但它无法有效处理单对多和多对单的关系问题。以单对多关系为例[2](注:[2] 表示脚注),当固定关系 r 和尾端节点 t 时[3](注:[3] 表示脚注),TransE 模型通过强制满足三元组间的闭包性质[4](注:[4] 表示脚注)而导致首端节点向量变得极为相似。为此我们提出了一种新的模型架构——TransH——它通过将首尾节点映射至与特定关系相关的子空间来有效解决这些问题。

以图为例,在处理多对一关系时 TransH 模型无需严格满足 h+r-l=0 的条件 而是只需确保头节点和尾节点在其关系空间中的投影位于同一直线上即可 这样一来 该模型便能准确地描述图中头节点向量(以红线表示)的位置

模型

本文所提出的模型较为简单。具体而言,该方法通过公式1将head和tail节点分别映射到对应的关系r所在的平面。随后其后续训练过程与TransE相似。尽管TransH相较于TransE多了一次向量转换步骤;然而在参数规模上仅增加了wr这一项;因此整体算法效率依然保持高效。

此外,在TransE模型中是通过随机采样头节点和尾节点作为负样本的方式来进行负样本生成的,在本文中我们则分别对头节点和尾节点设定相应的采样概率。其中具体的采样概率计算公式如下所示:

即对于多对一的关系,替换尾节点,对于一对多的关系,替换头节点。

Developing Entity and Relation Embeddings in order to achieve Knowledge Graph Completion or Reconstruction.

Lin Y, Liu Z, Zhu X, et al. AAAI. 2015.

**写作动机 **

TransE 和 TransH 基于相同的向量空间中进行实体和关系的嵌入。然而,在实际应用中,一个实体通常由多种属性构成,并且不同关系与实体之间的关联涉及不同的属性维度。针对这一问题,在本研究中我们开发了一种 novel approach named TransR.

模型

**
**

TransR 的核心概念体现在图中。针对每一个三重组(h, r, t),该方法首先通过 Mr矩阵将实体空间中的实体投射至与关系 r 相关联的空间中,生成 hr 和 tr 两个向量;随后要求 hr 与 tr 满足 hr + t ≈ tr 的条件。具体而言,在特定关系对应的投影区域(以彩色圆圈标记)能确保头体与尾体在该关系下相互接近;而不具备这种关系的其他实体则会被标记为彩色三角形区域,在此情况下它们会远离其他相关实体。

此外, 单一的关系向量仍不足以完成从一个实体到另一个实体的所有转换任务. 即使是对同一条关系而言,它也包含着丰富的语义信息. 为此, 本文提出了一种新的方法: 通过对不同类型的头尾实体进行分类聚类, 并学习其在各自类别中的特征表示. 这种方法的具体实现基于预训练的三元组 (h,r,t), 并针对 t-h 关系进行了深入分析. 这种方法也被称为 CTransR.

The Acquisition of Entity and Relation Embeddings for the Construction of Knowledge Graphs.

Lin Y, Liu Z, Zhu X, et al. AAAI. 2015.

****写作动机 ****

之前的研究如 TransE、TransH 和 TransR 假设每种关系都对应单一的语义表示,在实际应用中这种假设往往不够合理。例如,在图 1 中可以看到,在实际应用中关系 r 可能会包含多种不同的含义:例如,在 'location' 关系中它既可以表示山系与国家之间的联系(如喜马拉雅山脉与印度尼西亚),又可以表示地区与国家之间的联系(如东南亚地区与日本),因此针对上述问题,本文提出了一种基于一种动态矩阵的 TransD 模型来有效解决了这一问题。

****模型 ****



与CTransR模型类似的是TransD模型; 它们都旨在处理关系的不同语义形式. 相较于CTransR模型采用了聚类方法, TransD模型则提出了基于动态变化矩阵的方法. 具体公式如上图所示.

对于一对实体(h', r', t')及其相关的关系来讲,它们在知识表示方面有两种不同的表现形式:一种是基于映射矩阵的知识表示(hp, rp, tp),另一种则是基于自身语义的知识表示(h, r, t).其中,h与t之间的动态转移关系主要由各自独立的知识体素以及关联关系所决定,这与TransR模型不同,在后者中关联关系仅受单一因素影响.

此外值得注意的是 本模型的一个显著优势在于其将TransR模型中的矩阵乘法运算优化为向量之间的内积计算 并且这种改进能够显著提升计算效率 具体公式如下

TransA: An Adaptive Approach for Knowledge Graph Embedding

Xiao H, Huang M, Hao Y, et al. Computer Science. 2015.

****写作动机 ****



从本质上来讲,TransE是一种基于欧氏距离的计算方式。在图形上表现为一个圆形区域。通过下图可以看出正例区域被标注为蓝色,而负例区域则以红色表示。值得注意的是,在这一模型中将七个关键样本误分为非正例。我们则提出了一种基于马氏距离的新模型 TransA,在经过主成分分析后的降维图形呈现出椭圆形特征,并且在分类过程中仅将三个异常样本误判为正常样本。

此外而言之,在之前的方案中,默认的做法是对向量的各个维度实施了同等对待。然而实际上各维度具有不同的重要性,在这种情况下,默认的做法显得不够合理。具体而言,在当前的研究中发现仅有少数几个维度展现出显著的有效性;其余的一些则被视为噪声,并且这些噪声的存在会导致整体性能受到影响。

如图所示(见附图),针对关系 haspart 来说,该模型基于欧氏距离计算方法生成了类似于 Room(has, Goniff) 这样的三元组数据结构。然而其真实结果应为 Room(has, Wall)。我们对坐标轴进行分解分析,则会发现点 Room 在x轴上的位置更接近墙 Wall的位置。由此可知,在x轴方向上具有更重要的意义。此外 TransA 模型则通过引入加权矩阵来赋予各维度不同的权重

******模型 ******

就 TransA 模型而言,在整体上相对较为简单。与 TransE 相比,则本研究引入了 Wr 矩阵来给各个维度的向量赋予不同的权重,并采用 LDL 分解方法将 Wr 分解为多个部分。其中 Dr 作为一个对角矩阵,其主对角线元素则分别代表各维度对应的权重系数。在本研究中发现的一个显著特点是利用图像形式直观地展示了各类损失函数的表现情况。

TransG: A Generative Mixture Model for Knowledge Graph Embedding

Xiao H, Huang M, Zhu X. TransG. ACL. 2016.

****写作动机 ****



本文所提出的 TransG 模型遵循了与 CTransR 和 TransD 相同的基本模式,在解决关系的不同语义表达方面表现出色。研究者首先进行了一个具有启发性的实证研究,在预训练数据的基础上进行了深入分析,并在此过程中对已训练好的 t-h 数据集进行了分类处理(即分析其对应的关系 r)。通过分析不同关系 r 的特征后发现,在这种分类方法下能够生成若干个类别,并且从现实意义来看这种分类方法在实际应用中具有显著的意义。

********模型 ********

基于贝叶斯非参数混合模型创造多个关系表示的TransG本质上是一致的;其核心机制与CTransR相同;同样地;两者都采用聚类方法来创建r的不同表达形式;区别在于CTransR依赖于预训练好的TransE向量来进行聚类;相比之下;TransG则采取边学习边聚类的独特策略。具体公式如下:

M 表示聚类的数目,πr,m 表示关系 r 的第 m 中表示的权重。

Knowledge Graph Completion with Adaptive Sparse Transfer Matrix

Ji G, Liu K, He S, et al. AAAI. 2016.

****写作动机 ****

在知识图谱中面临的主要问题包括非同质性和分布失衡状态。

知识图谱中的多样性表征了各关系所连接的节点数量存在显著差异这一特征;而失衡性则表征了各关系所连接的头尾节点数量存在明显差异这一特征;如果仅采用单一模型来处理全部的关系,则可能导致对简单的关系出现过拟合现象的同时也会对复杂的关系产生欠拟合的问题;本文通过提出两个Transparse模型(共享型与分离型)分别解决了这两种情况

********模型 ********



Transparse模型本质上是对TransR模型的一种增强。主要区别体现在对复杂关系赋予稠密的转移矩阵以及对简单关系赋予稀疏的转移矩阵上。该模型中稀疏程度由参数θr决定。具体计算公式如下:$$
\theta_{r} = \frac{1}{1 + e^{-\lambda \cdot s_{r}}}}

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/sBzhjno6NZUePJ2pR7kw9tfyTuxF.png) θmin 代表0-1之间的调节因子,在此范围内调节某个系统的行为。$Nr$ 则代表实体对通过关系 $r$ 连接的数量;而 $Nr^*$ 则表示该关系下能达到的最大数量。类似地,在其他相关的关系中也可以进行类似的分析。 ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/oXTi9RSIZeAC4VYqjftdwJDEuPvk.png) 表示关系 r 连接的头\尾实体数, ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/kybdVRAvnoC8BfatXm2e3PlJcDpK.png) 表示其中的最大值。 请点击此处输入图片描述 share与separate的主要区别在于,在separate模型中,head与tail各自拥有独特的转移矩阵;相比之下,在share模型中,head与tail之间的转移矩阵是相同的。具体公式如下所述: ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/uJwyY7Ib5X4OiBVAoGqCj02NapFs.png) ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/qstBN2OdmRkbf057KhoQULiMw3jg.png) 本文的主要创新点体现在对知识图谱存在的异构性与不平衡性这一关键问题上。研究者针对这一挑战性问题,提出了两类具有独特特征的模型来应对相关技术难点。然而研究者并未尝试将这两类模型进行整合以发挥协同效应,在经过一系列实验验证后发现,在triplet分类和link预测任务中所取得的表现均未显著超越TransD方法。 **Locally Adaptive Translation for Knowledge Graph Embedding** Jia Y, Wang Y, Lin H, et al. AAAI, 2016. ******写作动机** **** ****** ****** 之前传统的机器学习模型普遍采用了固定的$margin$值。然而,在局部区域设置不同的$margin$是否能显著提升模型的整体性能?研究者通过实验验证这一假设。随后进行了一系列实验研究,在各自的数据子集中找到了各自对应的最优 $margin$ 值。观察到各区域最优 $margin$ 值呈现出明显的差异性。 从理论上分析,在 Margin 增大时会促使更多的数据参与训练,并可能导致模型过度拟合。另一方面,在 Margin 减小时则可能导致模型欠拟合。这进一步验证了 Margin 在模型性能中的重要作用。 ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/EmlVythnYi9qkGX1MHN6AosILbQ2.png) **********模型** ******** ********** ********** 该研究将 margin 参数划分为 entity 类别与 relation 类别两类,并采用加权融合方法进行处理。在 entity 类别的 margin 值应当确保内层圆能够包容较多的正样本实例,而外层圆区域应尽量容纳负样本。在 relation 类别中,则采用基于 L2 范数的距离计算方法来评估相似度程度。具体公式如图所示: ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/VufKikncZg9P7h4MD2XGaCblYWep.png) Rh,r 由不包括关系 r 在内的所有关系构成。该集合能够使任何与之关联度较低的关系与其保持距离。本文巧妙地应用了基于局部 margin 的方法,在link prediction和triple classification任务中取得了显著的效果。 最后用一张图表总结下这 8 篇论文的 9 种模型。 ![](https://ad.itadn.com/c/weblog/blog-img/images/2025-03-07/Nz75ZtW0DdLsfujMBbxGiwkgUTHO.jpeg) **参考文献** ****[1]** TransE算法(Translating Embedding)** ****[2] 基于翻译模型(Trans系列)的知识表示学习** ** https://mp.weixin.qq.com/s/STflo3c8nyG6iHh9dEeKOQ

全部评论 (0)

还没有任何评论哟~