Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读
I aim to develop a method that can effectively learn Hierarchy-Aware Structure in Knowledge Graph Embedding Representations for the Link Prediction Task.
-
- 摘要
- 介绍
- 模型设计
- modulus\ part 模数模块设计
- phase\ part 相位模块设计
- 模数模块与相位模块的集成
- 优化策略
- 目标函数设计
摘要
知识图嵌入的目标是将实体与关系表示为低维向量,并已被证实是一种在知识图中预测缺失链接的强而有力的技术。现有的知识图谱嵌入模型主要关注于建模对称/反对称、反转以及组合等关系模式。然而,在现有方法中仍存在无法有效建模语义层次结构的问题。针对这一难题,本文提出了一种新的层次感知知识图嵌入方法HAKE。该方法将实体映射至极坐标系中,并借鉴了极坐标系中的同心圆自然反映层次结构这一特性。其中的径向坐标则旨在分别对应层次结构中的不同层级实体;较小半径表明处于较高层级;角坐标则用于区分同一层级的不同实体
介绍
虽然常用的知识图谱包含了数十亿个三元组, 但其完整性仍存在问题, 因此 Knowledge Graph Completion(KGC)备受关注. 这一技术旨在通过自动推理的方式补充实体间的缺失关系. 类似于 Word Embedding(WE)成功捕捉到单词语义信息的做法, 研究者转而采用 Knowledge Graph Embedding(KGE)方法来处理 Link Prediction 任务. KGE技术将实体与关系表示为低维向量, 并能有效保留其语义及固有结构特征. 此外, 该技术还可应用于多种下游任务. 现有KGE模型的成功主要得益于它们对复杂关联模式的关注, 如对称性、反称性、逆关系及复合关系等. 在建模语义层次结构方面,HAKE方法通过区分两类实体(a)在不同层级;(b)在同一层级来实现目标. 借鉴实体具有层次属性这一特点, 可以利用节点深度来建模层级差异. 因此, 采用模数对类别(a)中的实体进行建模是有意义的, 因为其大小可反映深度信息. 在上述框架下, 类别(b)中的实体因模数大致相同而难以区分. 借鉴同一圆上点可具有不同相位的特点, 可以利用相位信息建模类别(b)中的实体. 结合模与相位信息,HAKE方法将每个实体映射到极坐标系中
模型
首先采用了如下运算:(实际上就是对应元素相乘)

符合说明:其中参数变量中的模数参数包括了m_e=m_h=m_t=1.5\times10^4, m_r=m_h=m_t=5\times10^3, m_a=m_h=m_t=2\times10^4, m_b=m_h=m_t=1\times10^4, m_c=m_h=m_t=3\times10^4, m_d=m_h=m_t=2.5\times10^4. 其中m_e, m_r, m_a, m_b, m_c, m_d,m_h,m_t\in\mathbb{R}. 相似地,在相位模块中也有类似的定义
modulus part 模数部分
相应的距离函数如下:

作者规定了实体嵌入中某些项目的值可以取负值,并要求所有项目都可能取正值。这是因为实体间的关系存在与否是一个关键点。举例来说:如果h和t₁之间存在关系r,则(h, r, t₁)是一个正样本;而如果h和t₂之间不存在这种关系,则(h, r, t₂)就是一个负样本。我们的目标是使距离度量d_r(h_m, t_{1,m})最小化,并使d_r(h_m, t_{2,m})最大化。通过这种方式设计的距离度量能够有效地区分正反样本之间的差异。
phase part 相位部分
旨在对同一层级中的实体的语义层次进行建模。
相应的距离函数如下:

由于相位具有周期性,因此采用sin函数建模距离函数。
模数与相位的结合
通过HAKE方法,在极坐标系中建立实体与半径及角度之间的对应关系。其中h由h_m和h_p两个部分组成,并用\left[h_{m}; h_{p}\right]表示;这里h_{m}代表模数部分而h_{p}代表相位部分。进而将其转化为具体的数学表达式。

相应的距离函数为:

相应的评分函数为:
f_r(h,t)=-d_r(h,t)
改进
研究者注意到,在计算d{r,m}(h,t)时引入一种混合偏差项将有助于提升模型性能。鉴于此,在计算距离时采用以下更新公式:

损失函数
为了训练模型,采用负采样损失函数和自我对抗训练:

其中(h_i', r, t_i')被视为negative samples。这些样本的权重计算方式如下:总体而言,则是分数越高权重越大

