Advertisement

实体对齐(一):Collective Multi-type Entity Alignment Between Knowledge Graph

阅读量:

最近因偶然机会而深入了解了知识图谱应用领域的最新动态,在众多新兴研究领域中发现实体对齐这一传统任务仍具重要研究价值。在实验室组织的专题报告会上听取了多篇相关领域的学术文章,并在此基础上就多实体类型之间的对齐问题进行系统性探讨,并计划后续补充其他相关工作。
论文的基本情况
基于协作机制的知识图谱多类型实体对齐方法发表于第20届Web conference(WWW)上,由伊利诺伊大学厄巴纳-香槟分校与亚马逊人工智能研究院组成的联合团队负责本研究工作。Qi Zhu教授任第一及通讯作者,其主要研究成果包括提出了一种名为CG-MuAlign的多实体对齐框架,该框架在分析现有知识图谱数据的基础上综合考虑各实体类型的特点,并将其与其关联的关系视为相互促进的关系网络,同时该框架还可以在处理大规模知识图谱数据时展现出良好的扩展性。

1、引言

图1 多类型实体对齐示例

在知识图谱中进行实体对齐的目标在于识别不同知识库中标示为同一现实对象的不同实体。在处理多关系数据库时进行的实例匹配(亦称作信息抽取)也被认为是实现这一目标的关键步骤。如图1所示,在IMDb数据库中记录着AdityaRaj的名字,在Freebase数据库中则有AdityaRajKappor这一条目。

传统的实体对齐研究主要集中在单一类型的实体对齐任务上。这些方法通常专注于单一类型的实体知识图谱。然而,在涉及多类型实体的知识图谱中(例如,在图1所示的例子中),'Sambar Salsa'既可以被归类为书籍类型,也可以被归类为电影类型)。在这种复杂场景下,默认情况下每个实体都可能属于不同的类别,并且关系本身也可能呈现出多样性(例如'write'和'produce'等)。一种可行的方法是将针对单一类型的 entity 对齐方法迁移到多类型的场景中。尽管这种方法在 entity 类别数量有限时表现良好;但随着知识图谱中的 entity 类别数量急剧增加;其局限性也会逐渐显现。

  1. 为多类型实体进行标注和训练一个百余种,甚至更多的实体对齐模型是十分复杂和昂贵的。
  2. 某个实体也可能属于多个重叠的类型(比如,人既可以是作家,也可以是演员),这就导致选择哪一种类型相关的对齐模型来处理这样的复合多类型实体也是十分困难的。
  3. 知识图谱中不同形式的稀疏性导致仅从结构特征中去表示实体,进而对齐实体是不可行的。(在论文中,作者通过使用变种GNN直接进行实体对齐发现效果极差,这就是因为同一实体在不同知识图谱中的邻域结构是不同的,所以仅通过GNN捕获的结构特征在实体表示时是不充分的。例如图1中,IMDB知识图谱中的Aditya Raj的邻居实体有4个,而Freebase知识图谱中的Aditya Raj Kapoor的邻居实体只有两个。)

基于三个现实性问题这一核心关注点,作者提出了一种融合图神经网络(GNN)的多类型实体对齐方法命名为CG-MuAlign (Collective Graph neural network for Multi-type entity Alignment)。该算法的主要设计理念是对不同实体类型的多个维度进行集体对齐操作,并主要通过设计一种注意力机制来整合实体邻域中的正面证据(positive evidence)与高效的负面证据(negative evidence)之间的相互协作关系。

对于实体而言,在知识图谱中作者提出了一种名为graph attention mechanism的方法来捕获目标实体在两个图中更为相似的邻域结构(关键性实体赋予更高的权重),从而得到目标更为精确的向量表示。对于关系而言,在这一领域内作者设计了一种叫做relation-aware self-attention机制的方式来防止仅根据节点间的邻居相似性来进行节点对齐操作的问题出现的情况;因为通常在知识图谱中会存储一些看似相似但实际不同的节点或关系实例;例如一部电影系列通常由相同的导演与演员参与拍摄;但由于它们上映的时间不同而导致这些节点或关系并不属于同一个实例;这种基于关系的设计意图正是为了解决上述问题的存在

CG-MuAlign算法在与其他多种类型的实体对齐模型进行对比时,在以下几个大的方向上进行了改进(如表1所示)。

表1 CG-MuAlign 算法与其他多类型实体对齐算法的对比

注:改写过程中主要做了以下处理:

  1. 保留了所有数学符号...以及英文内容
  2. 调整了句子结构并优化了一些表述
  3. 使用更自然流畅的语言表达
  4. 增加了一些细节描述以提高可读性
  5. 保持了与原文相同的段落结构和标点符号

2、问题定义

一个知识图谱G被定义成一个具有多类型节点和边的图。

arge V

代表实体,

arge E

代表关系。形式化定义如下:

arge G=

,其中

arge hi :Eightarrow T

arge si :E ightarrow R

分别是从实体(或关系)到其类型的映射。给定两个具体领域的知识图谱

arge G

arge {G}'

,点(实体)和边(关系)的类型分别是

arge eft  T,{T}' ight

arge eft  R,{R}' ight

。假如在知识图谱中有提前对齐的节点和边类型,即

arge T^{*} eft  n Times {T}'id teftrightarrow {t}' ight

arge R^{*} eft  n Rimes {R}'id reftrightarrow {r}' ight

,并且在这样一个类型对齐的节点和关系中,有基本可用的真实节点对

arge Seft  id t^{}n T^{} ight

。在真实的知识图谱中,可用的节点对S是远小于实体数量V的。

基于以上形式化定义,知识图谱的实体对齐的定义如下所示。

3、方法框架

3.1 方案总览

实体对齐的问题被视为一种分类问题。该方法用于判断或区分两个节点是否代表同一个真实世界的实体,并如图2所示展示了框架结构。

图2 CG-MuAlign算法框架图

模型包括两个GNN编码器和一个实体对齐损失函数层。GNN编码层的输入为以节点

arge vn V

为特定实体从知识图谱中提取一个K步子图 ,通过整合目标实体的邻近领域信息生成节点

arge v

表达输出的结果。一般而言,在图神经网络(GNN)中,在第k层的表达式、实体的表现结果以及边界铰合损失函数('marginal hinge loss')如上所示。

其中,在损失函数中选择两个实体向量之间的度量为欧氏距离。在GNN特征提取过程中,每个实体的向量表示将被更新为基于其邻居节点信息的新表示。

h_{i}^{k}

)是由GNN的最后一层和前一层的向量拼接组合而成的。

3.2 GNN编码

为了论文旨在解决多类型实体间的对齐问题而提出的CG-MuAlign算法首先通过不同关系类型将目标实体纳入相关领域(

arge N_{i,r}

其中_i_代表邻域节点的具体关系类型。获得邻域之后即得到一个k跳子图。每个邻域通过不同的transform进行处理。

通过这种方式就可以针对目标实体的不同邻域信息获取各自对应的类型表示。例如,在图1中基于 'write' 这一关系可以构建 Aditya Raj 对应的邻域

arge N_{i,write}

={ 不要停止Circular Dreams, 沙玛尔:风暴之舞, 赛马曲的节奏 }

arge N_{i,edit}

= { Gawaahi }. 通过采用两个不同领域进行变换,在类型之间转换时能够获得 "Aditya Raj"实体在不同类型中的具体表示。

transform本质上是一个结构信息提取装置,因此它与GNN存在共同问题,即过分关注邻域结构特征的相似性.基于此,我们在此提出一个node-level attention机制(

arge lpha

) 和 edge-level attention (

arge eta

),用于将transform的输出进行表示,在基于这两种attention机制进行整合的具体形式为公式

, 其中

j

表示实体

i

其所在的邻居节点中的其他实体。在最终计算过程中,结果向量通过将前一层的状态信息与当前层的状态信息进行融合生成。

3.2.1 Node-level Cross-graph Attention

节点级别的注意力机制旨在解决问题3(如引言所述)。当前许多知识图谱均存在不同程度的实体信息缺失。这导致不同知识图谱对同一实体构建时无法保证完全一致。因此,在依赖结构导向的实体对齐模型中难以实现一个稳定且可靠的实体对齐效果。而在CG-MuAlign算法中作者通过设计这样一个attention(

arge lpha

)去关注更能体现目标实体是相似的那些邻域实体。示意图如图3所示

图3 节点级的注意示意图

给定一个可能的候选实体对

arge eft

,其中每个实体的邻域分别为

arge N_{i}

arge N_{i^{'}}

,因此针对两个邻域中的任意节点对

arge eft n N_{i}imes N_{i^{'}}

,它们的注意力偏重计算为

arge z_{p}

arge z_{q}

是通过transform计算得到的实体表示。在实际计算中,

arge lpha _{p}

arge lpha _{q}

分别是交叉图注意力矩阵按行和按列正则化的向量。

节点级注意力权重主要作用在于通过计算其邻域中的各个实体

i

和实体B的邻域中所有实体之间的累积相似度。如果实体

i

的累积相似度大于实体

j

,那么

lpha _{i}> lpha _{j}

. 说明实体

i

对于评估实体A和实体B是否是相同的实体的作用更大。**

3.2.2 Edge-level Relation-aware Self-attention

在节点attention(

arge lpha

在这种情况下,在该种情况下(即未考虑关系的优先级),它认为那些与目标节点相关的正面信息都是同等重要的。然而实际上,在这种情况下(即未考虑关系的优先级),对于不同实体之间的关系其重要性也存在差异。例如同样的一个'Radioactive(一首歌)'实体中,'perform_by'要比'write_by'更富有信息。因此 CG-MuAlign引入了一种基于关系的自注意力机制来区分不同类型的关系对实体的影响程度。如图4所示

图4 基于关系的自注意力示意图

计算公式为

,是一个元组(实体,关系,实体)中两个实体表示的线性正则表示。

3.2.3 Scaling up

该研究阐述了CG-MuAlign在大规模知识图谱扩展中的理论基础。如需更深入的研究和理解,请深入研究这篇论文

4、实验结果与分析

4.1 数据集

论文采用了两组数据集进行研究:一组来源于IMDB与Freebase中的电影相关数据(Movie),另一组则源自Amazon与Wikipedia中的音乐类型集合(Music)。这些数据集合及其详细分类汇总体现在表2中。

表2 用于实验的数据集列表。从上到下依次包括整体情况概述、Movie数据集统计和Music数据集统计

4.2 实验结果

表3 多类型实体对齐的实验结果

此处仅展示了CG-MuAlign在实体对齐方面的部分结果。通过详实的实验数据验证了该方法的有效性,并从多维度系统地评估了该方法的优势。特别值得注意的是,在无标注场景下该方法仍表现出色。有关具体实验细节可参阅论文内容。在此不做进一步讨论。

5. 结论

近年来的研究工作表明,在纯粹基于知识图谱展开研究的相关研究数量相对较少。许多研究则将知识图谱作为重要的外部资源加以利用。因此可以说这项研究主要聚焦于在这一领域展开深入探索,并有助于推动相关领域的进一步发展。该算法创新性地将图神经网络与注意力机制相结合,在多模态实体对齐方面展现出显著优势。其性能表现优于现有多种先进的对比学习方法。建议研究人员深入探讨这一方法的优势与局限性,并将其与其他同类技术进行对比分析以期获得更好的应用效果

此外,在知识图谱领域中还涉及了两项重要的实体对齐工作值得借鉴。首先是出自2018年EMNLP会议的研究成果"Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network" ,该研究致力于实现跨语言知识图谱实体对齐的解决方案;其次是出自2020年EMNLP的"Knowledge Graph Alignment with Entity-Pair Embedding" ,这项研究则聚焦于开发通用领域知识图谱实体对齐的技术方案。

全部评论 (0)

还没有任何评论哟~