实体对齐7.ACL2019:(GMNN)Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network
**关键词:**Cross-lingual EA,GCN,Graph Matching
摘要
以往的跨语言知识图对齐研究依赖于仅从单语知识图结构信息中导出的实体嵌入,可能无法匹配在双语知识图中具有不同事实的实体。本文引入了 主题实体图 ,一个实体的局部子图,用它们的上下文信息来表示实体。从这个角度看,知识库对齐任务可以被看作是一个图匹配问题;在此基础上我们提出了基于图注意的解决方案,该方案首先匹配两个主题实体图中的所有实体,然后联合建模局部匹配信息,得到一个图级匹配向量。
介绍
对于跨语言实体对齐任务,已有多种基于实体匹配的方法被提出。通常,这些方法首先通过编码单语KG事实将每个KG的实体嵌入到低维向量空间中,然后学习一个相似性得分函数,基于它们的向量表示来匹配实体。然而由于不同语言中的一些实体会有不同的KG事实,在实体嵌入中编码的信息可能在不同的语言中是不同的,这使得这些方法很难匹配这些实体。图1展示了这样一个例子,我们想要对齐
和
,但它们周围的邻居中只有一个邻居是对齐的。此外,这些方法不将实体表面形式编码到实体嵌入中,也使得匹配那些在KG中有少量邻居且缺乏足够的结构信息的实体变得困难。
为解决这些缺点,我们提出 主题实体图 来表示KG中实体的上下文信息。与以往利用实体嵌入来匹配实体的方法不同,我们将此任务表述为主题实体图之间的图匹配问题。为了实现这一点,我们提出了一种新的图匹配方法来估计两个图的相似度。具体来说,我们先使用GCN编码两个图
和
,生成每个图的实体嵌入列表。然后,我们通过使用注意力匹配方法将
中的每个实体与
中的实体进行比较,从而为
和
中的所有实体生成跨语言的、支持KG的匹配向量。因此,我们使用另一个GCN在整个图中传播局部匹配信息。这将为用于最终预测的每个主题图生成一个全局匹配向量。这背后的动机是,图卷积可以联合所有实体相似度,包括主题实体和它的邻居实体,编码成一个匹配向量。
方法
1、主题实体图
-
图2展示了 Lebron James 在英文和中文知识图谱中的主题实体图。为创建出主题图,我们首先收集主题实体的单跳邻居,得到一个实体集合
,它们是图的节点。然后,对于每个实体对
,如果
和
通过一个关系直接相连,则在主题图中对应节点之间增加一条有向边,在KG中称作 r 。注意,我们不将这条边标记为
和
在KG中拥有的关系 r ,只保留 r 的方向。在实践中,我们发现这种策略大大提高了效率与性能。
2、图匹配模型
对于图2,我们首先从两个KG中检索 Lebron James 的主题实体图,称作
和
。然后,我们提出一个图匹配模型来估计
和
描述相同的实体的可能性。具体而言,匹配模型包含以下四层:
输入表示层 这一层的目标是用GCN(后面称作
)学习出现在主题实体图中的实体的嵌入。下面我们以实体 v 的嵌入生成为例来解释GCN算法:
(1)首先应用一个基于词的LSTM来将 v 的实体名称转换为它的初始特征向量
;
(2)我们根据边的方向将 v 的邻居分为传入邻居
与传出邻居
;
(3)我们利用一个聚合器将 v 的传入邻居邻居
的传入表示聚合成一个单一向量
,其中 k 是迭代索引。该聚合器将每个邻居的向量提供给一个全连接的神经网络,并应用一个元素级的平均池化操作来捕获邻居集的不同方面;
(4)我们将 v 的当前传入表示
与新生成的邻居向量
连接起来,并提供给一个全连接层来更新 v 的传入表示为
;
(5)我们用与步骤(3)和(4)中介绍的类似的流程更新 v 的传出表示
;
(6)我们将步骤(3)~(5)重复K次,并将最终传入和传出表示的串联作为 v 的最终标识。这层的输出是两个实体嵌入集合
和
。
节点级(局部)匹配层 在这一层,我们将一个主题实体图中的每一个嵌入与另一个主题图中的所有嵌入进行比较,两个方向都进行(从G1到G2和从G2到G1),如图2所示。我们提出了一个注意力匹配方法,具体来说,首先计算
中的实体
与
中的所有实体
的余弦相似性。

然后,我们将这些相似度作为权重,对
的所有实体嵌入进行加权求和,计算出整个图
的一个注意力向量。

我们通过在每一个匹配步骤中使用多角度余弦匹配函数
为
和
中的所有实体计算出匹配向量。

注:匹配函数
是一个对于两个向量的多角度匹配函数
,其中
和
是两个 _
_维的向量,
是一个可训练参数, _
_是角度的数量,返回向量 _
_是 _
_维向量
。每个元素
是从第 k 个角度得到的匹配值,它是计算两个权重向量之间的余弦相似度得到的
,其中
是逐元素的乘法,
是 _
_的第 k 列,它控制着第 k 个角度并为 d 维空间的不同维度分配不同的权重。
图级(全局)匹配层 直观上看,上面的匹配向量(
)是通过主题图捕获了
(或
)中的每个实体是如何在另一种语言中进行匹配的。然而,它们都是 局部 匹配状态,不足以衡量图的 全局 相似度。例如,许多实体在
和
中只有很少的邻居实体。对于这些实体,利用局部匹配信息的模型很有可能错误地预测出这两个图描述的事不同主题实体,因为
和
中的大多数实体在嵌入空间中并不接近。
为解决这一问题,我们用了另一个GCN(后面称作
)来在整个图中传播局部匹配信息。直观上,如果每个节点都表示为自己的匹配状态,通过在图上设计一个GCN(有足够数量的跳数),就可以在整个图所有对之间编码全局匹配状态。然后我们将这些匹配表示输入到全连接神经网络,并应用元素级的最大池化和平均池化方法来生成一个固定长度的图匹配表示。
预测层 我们使用两层前馈神经网络处理固定长度的图匹配表示,并在输出层应用softmax函数。
训练与推理 为训练模型,我们使用启发式方法为每个正例
随机构建20个负例。即,我们首先通过对每个实体表面形式中单词的预训练嵌入进行求和,生成G1和G2的粗略实体嵌入;然后,在粗略嵌入空间内选择10个最接近
(或
)的实体,与
(或
)形成负对。在测试中,给定
中的一个实体,我们根据模型估计的匹配概率对
中的所有实体进行排序。


是一个对于两个向量的多角度匹配函数
,其中
和
是两个 _
_维的向量,
是一个可训练参数, _
_是角度的数量,返回向量 _
_是 _
_维向量
。每个元素
是从第 k 个角度得到的匹配值,它是计算两个权重向量之间的余弦相似度得到的
,其中
是逐元素的乘法,
是 _
_的第 k 列,它控制着第 k 个角度并为 d 维空间的不同维度分配不同的权重。