Open-world knowledge graph completion for unseen entitiesand relations via attentive feature aggreg

摘要
现有静态KGC模型主要针对固定实体与关系设计,在处理动态场景时存在局限性
1.介绍
知识图谱(KGs)是一种高效实用的数据模型,在真实世界中将实体的事实进行结构性整理,并通过有机连接的方式将它们相互关联起来,从而使机器能够更好地理解和处理这些信息。在知识图谱中,每个具体的事实通常以三元组形式(h、r、t)表示:其中头实体h与尾实体t通过特定语义关联r建立联系。近年来由于其在促进异构数据的语义整合与跨平台交互方面的显著作用,知识图谱技术逐渐受到广泛关注。目前已有DBpedia [1]、YAGO [2]、NELL [3]、WikiData [4]、Freebase [5]以及WordNet[6]等知名大规模知识图谱被构建并广泛应用于多个实际场景:包括问答系统[7]、推荐系统[8,9]、信息提取任务[10,11]以及 entity linking[12,13]等多个方面。然而这些三元组基于符号逻辑属性及任意结构化的特点,在涉及复杂的知识推理任务时往往难以实现精细的操作和管理。
近几十年来, 知识图嵌入(KGE)发展为一种广泛认可的方法, 在解决关联预测以及三元组分类等问题时展现出显著效果. 在给定的事实中, 我们有两个元素, 并且它们被赋予了评估机制.

链接预测的作用在于确定剩余元素作为能够达到最高可信分数的事实。依据预先学习得到的关系特定阈值进行三重分类评估,在训练数据中未包含的事实是否具有潜在的有效性?嵌入式知识图谱(KGC)的核心理念在于通过在知识图谱(KGs)中最大化现有事实的信任分数总和来自动地将结构性信息编码到潜在的任务特定低维向量(或矩阵)中。通过给定事实获得的相关评分结果进一步精炼知识图谱结构,在手工构建的知识图谱中常存在不完整性与噪声干扰的问题。
然而
而是在封闭的世界视角下工作
以下是支持开放世界KGC的外部实体和关系的几个关键问题:
c1推导嵌入:即使在训练过程中未接触过实体与关系,开放世界知识图谱系统仍可自主判断测试事实的可信度.对于传统知识图谱系统而言,这一过程充满挑战,因为它们本质上属于基于传递的学习模式(例如,在封闭世界假设下),即实体与关系被赋予唯一的向量表示以完成学习.实时为不可见的实体和关系推导新型嵌入(亦称归纳学习),而非仅根据动态变化的知识图谱结构进行重构训练——这是一个极具难度的任务。
C2保留结构:基于KG[16]中统计模式的结构性相似性,每个事实所处的局部邻域环境有助于提升其嵌入表示的能力。考虑到KGs可能具有任意复杂的拓扑结构,大多数模型仅关注有限范围内的局部信息,例如单步邻居或关系路径连接结果。整合全局图拓扑信息(如多层连接)到实体嵌入空间面临诸多困难
然而,在解决这些挑战方面,并非所有的KGC模型都表现出了足够的成效。开放世界KGC[17]采用组合向量空间模型来计算任意长度关系路径的向量表示,并确定与这些路径向量相关的预学习不可见关系。最近研究者提出了ConMask[14]和DKRL[15]两种方法,在利用实体描述的基础上生成了相应的实体嵌入。由于这些模型仅关注kg外部实体或开放世界KGC中的关系,则它们在某种程度上满足了条件C1。LiLi[18]提出了一种基于对话系统的方案,在持续互动中学习新知识并保留对话中获得的知识信息,并将其应用在未来的学习任务中以提高效率。然而该方案同时也处理了kg外部实体以及kg演化的各种关系类型。值得注意的是尽管一些最先进的图嵌入(GE)方法也满足了条件C2但它们比KGE更具挑战性因为它们忽略了节点之间的相互关联性以及未考虑开放世界的任务需求
针对前述挑战,在本研究中探讨了一种新型面向开放知识图谱(OKT)辅助的知识增强网络(KGAN),即IKGE(Inductive KG Embedding)模型。这种新方法无需重新训练即可将超kg领域内的实体与关联有效推广至外部知识库中,并成功保留了整体架构。相较于现有绝大多数双向知识图谱(DyKG)类方法而言,在整个嵌入构建阶段采用生成器函数从基础层面构建了独特的归纳机制:首先通过生成器函数采用自底向上策略构建特征表达;其次利用多跳邻域信息精确捕捉节点间的全局关联特征;最后实现对任意潜在节点及未知关系的有效表征学习与推理能力
具体来说,在所有知识图谱中的实体通过其描述被编码为特定的实体特征。值得注意的是,不同描述词可能对同一实体的不同事实识别产生不同影响。因此,在编码过程中我们引入了注意力机制以捕获与每个实例相关的更多细节信息。随后我们通过融合头部和尾部实体的特征向量来提取每个事实的具体特征,并将其作为初始的事实嵌入向量进行计算。实验表明,在知识图谱中每个实例的基础上我们能够从其相关的外部侧信息中生成更加丰富的嵌入表示。这些外部侧信息中的词汇在多个实例之间被共享使用,并且这种共享方式能够有效概括每个实例所包含的事实内容。如图1所示,在Harvard_University这一实例中Massachusetts州/哈佛大学相关的特定实体特征与哈佛大学/ Massachusetts州相关的特定实体特征均从词汇层面上实现了跨实例的信息共享,并以此为基础生成了相应的初始嵌入向量。

如图1所示。该示例展示了事实特征提取流程。基于关系相关的(名称与类型约束)以及实体相关的(名称、描述及类型)侧信息中提取的实体特征被整合起来,综合形成事实特征并以初始事实形式表示。
然后
鉴于词级共享辅助信息间的语义关联性被用来识别事实及其关联. 而各相关因素间的关系辅助信息数量远少于其他因素,则难以精确指定每个单独的关系. 此与相对地, 该模型更关注通过评分机制评估目标实体(即开放世界知识图谱)的存在可信度. IKGE特别适用于在开放世界环境下进行路径推理及三元组分类任务. 注意到的是, IKGE不仅处理常规的知识图谱中的实体与关系,甚至不考虑其自身的嵌入空间. 实验结果表明, IKGE通过成功聚合邻域特征, 在换能式和归纳式设置上都优于所有现有的方法.
2.相关工作
GE/KGE的主要目的是学习图表示的同时保持其结构及其辅助信息。大部分GE/KGE架构遵循编码器-解码器模式,在其中编码器会将符号图形元素转换为可学习表示。这些表示随后通过解码过程进行优化生成以提取任务相关的特定信息例如聚类中的节点对相似度或者用于链接预测中的节点-边-节点有效性指标。读者可参考 GE 和 KGE 的最新综述研究 [20 16 21] 进一步了解相关内容。此外 编码器通常分为两类即简单的编码方法与复杂的建模策略。
在复杂编码技术方面,几何(Geometry)及其扩展(K-Geometry)(G E 和 K G E)与开敞式领域学习(OpenWorld Learning)紧密相关于。
在开敞式领域中进行分类的任务并不涉及训练集中未曾见过的目标类别。
相比之下,在监督式模式识别中假定测试样本始终属于预先定义好的类别。
值得注意的是,在开敞式场景下 GE 和 K G E 模型特别关注图外节点或者边。
然而,在这种情况下这些节点或者边并未被预先分配到特定表征空间中需要进行 learn 的实体。
为此,在对开敞式实体进行分类时必须利用其辅助信息来生成相应的表征空间。
简单的编码方法
简单编码器直接优化为分配给每个节点的唯一嵌入表示。随后采用传统的GE(Graph Embedding)模型架构来模拟两个嵌入对之间的相似性关系(如邻接矩阵),这些关系通常通过内积来衡量(如相似度)。多项研究工作致力于通过成对解码器来保持图中节点间的局部近性[23-25];其中一些方法还特别保留了连接节点的一阶近性[25]。从本质上讲,在带有标记有向边性质的图中进行KGE(Knowledge Graph Embedding)相较于传统GE更具挑战性。因此,在KGC(Knowledge Graph Completion)模型中扩展成对解码器为三重解码器,并引入特定于关系的关系参数;这样就能够有效评估事实陈述的真实程度。
现有的KGC架构体系主要包含翻译型与组合型两种类型。通过分析KGs中的连接模式所形成的结构(拓扑)来推导实体及其之间的关系。而基于拓扑结构的模型仅依赖于结构信息,并缺乏额外侧向信息。例如单一的事实片段[26-28]以及多个事实节点[29]等
然而
组合向量空间模型基于计算两个实体间任意长度关系路径的向量表示以实现对开放世界KGC[17]的支持。随后通过对路径向量与预先训练的关系向量展开比较分析从而识别出潜在不可见的关系然而这种方法仅专注于从固定关系集预训练中推导出看不见的关系(而非涉及的具体实体)。相比之下近期提出的ConMask[14]与DKRL[15]等模型均基于实体描述生成相应的嵌入表示但与我们提出的IKGE模型不同在于这些方法无法同时有效处理开放世界知识图谱中超出预定义范围的外部实体及其相关联的关系
复杂的编码方法
相较于仅基于每个节点唯一嵌入进行直接优化的传统编码器,在复杂架构中, 这些复杂的架构通常会整合主流简单的解码方案以提升表现能力. 由此可见, 在特定的应用场景下, 大多数复杂的编码模型倾向于采用基于预训练方法(如node2vec[24]和DeepWalk[23])的设计策略以实现更好的性能效果.
Graph Convolutional Networks (GCNs) are designed to perform convolution operations on graphs of any structure. Given a node, a complex encoder based on GCNs leverages the local neighborhood structure and various features of the neighborhood (such as images or text) to achieve node embedding. Patchy-san[30] standardizes each node's local neighborhood by converting it into a unique node sequence through predefined node ordering. Nodes in this sequence serve as the input domain for convolution operations. Spectral-based GCNs were first introduced by [31], whose core concept involves iteratively aggregating all or partial [32] and [19] features from a node's local neighborhood to compute its embedding. Inspired by their work, R-GCNs[33] extended GCNs for knowledge graph completion by employing scoring functions from existing KGC models such as DistMult[27] and ComplEx[28], which serve as decoders in these architectures. Despite their success, most models are tailored for transductive reasoning on fixed graphs because node embeddings are generated using the full graph Laplacian and the features of the node and its neighbors.
近年来发展GE模型因其在演化节点上的潜在应用而备受关注。GraphSAGE[19]是一种扩展型GCN编码器,在聚合采样邻接区域特征的基础上生成新网络嵌入。然而,在生成新的网络嵌入时需要依赖现有网络中的连接信息以整合相邻单元特征。
3.预备知识
首先,在本文其余部分中介绍了使用的符号系统。其中采用斜体大写字母(例如\mathbf{F})来表示矩阵或张量,并使用斜体小写字母(例如\mathbf{f})来表示向量。对于集合而言,则采用非斜体的大写字母进行表示(例如\mathcal{F}),而变量或标量值则采用非斜体的小写字母进行表示(例如f)。

在本文中,我们专注于基于模式的知识图谱(KGs)。这些实体包含丰富属性(如类型和文本描述)。此外,在知识图谱中定义的关系不仅具有独特的名称以及与特定类型相关联的信息,并且这些信息不仅限定了知识图谱头部节点的属性类型,同时也限定了尾部节点的属性类型。
大多数流行的知识库都采用了基于W3C资源描述框架(RDF)的方法进行构建,并将其应用于语义Web领域。这一数据表示框架允许对不同类型的实体(如 rdf:type)进行明确标识。此外,在RDF Schema(RDFS)中提供了一个数据建模词汇表,默认包含分层实体分类(如 RDFS:subClassOf),以及定义头部实体(如 RDFS:domain)和尾部实体(如 RDFS:range)上的特定于关系的类型约束。因为每个实体在其所属的不同场景中扮演着不同的角色,在基于模式的知识图谱(KGs)中通过层次化的实体分类系统来直观地归属到多个语义类别。

4.问题公式化

5.IKGE模型
如图2所示,在训练阶段:
(a)从给定的实体知识图谱中提取信息。
(b)我们解析了每个实例的事实特征信息并构建了一个线性架构。
(c)通过监督学习训练了三个关键组件:
①事实特征提取器
②注意力机制聚合函数
③事实评估全连接层
在推理阶段:
(d)针对任意不在知识图谱中的关系r和对象t

, (e)我们用训练过的事实特征提取器提取目标事实的特征信息

然后(f),我们借助训练好的聚合器函数处理多轮次相关联的事实特征数据,并按照层次性的方式完成汇总工作。最终阶段,则可以通过全连接层(FC layer)处理生成目标事实的嵌入表示。

进行评分,以确定目标事实

该系统中提出的开放世界知识图谱推理框架IKGE涉及两大核心环节,在现有数据基础上推断其参数配置情况。

如图2所示

如图3所示:事实特征信息提取说明。对于任意一个事实f,在其文本描述中提取头部实体及其对应的特征向量eh以及尾部实体对应的特征向量et。随后将提取到的eh与et进行组合,并基于类型匹配机制生成完整的事实特征信息f。

5.1事实特征信息提取
基于由头尾实体及其关联关系构成的事实基础之上 我们通过利用 entity 描述作为辅助信息来识别出与特定 relation 紧密相关的 tail 和 head entity 的特征性标记 从而实现对 fact 特征层面上的关键属性进行捕捉 然后从各 entity 所具有的 feature 中提取出反映 fact 整体特性的综合 information 并通过进一步整合其他 related entity name 以及与其密切相关的 specific information 来强化 attention mechanism 最终特别地 我们采用基于 relation 特性的 constraint mechanism 以有效减少测试 sample 中那些易被误判的事实案例的数量 从而在提升 model 的 overall accuracy 方面发挥重要作用 如图所示 主要有三个功能模块 包括 word-level encoding 基于 attention 的 conv nets 和 type matching module
基于模式的知识图谱中绝大多数采用全局唯一标识符表示每个实体(节点),并且仅在知识图谱中出现一次;类似地,在知识图谱中关系也具有独特的标识符数量远少于实体数量,并且每个关系在知识图谱中对应多条边。由于每个关系通常与大量不同的头部和尾部实体相关联,在建模过程中关系比实体更为复杂。因此,在建模过程中它们主要依赖于对实体的描述来确定其属性,并利用预先训练的词向量生成相应的嵌入表示。
此外,在描述中提取出的各种实体特征之外,并非仅此而已,在关注辅助信息的过程中还需要聚焦于关系名称、类型限制条件以及相关实体名称等要素所构成的具体属性体系。当完成事实特征信息提取后,在将多个相邻的事实节点的信息进行综合时需采用归纳的方式生成目标节点的具体嵌入表示。值得注意的是,在这一特定阶段上所采取的目标节点构建过程中应当充分考虑邻域图结构的信息。
5.1.1 Word encoding
如

5.1.2. Attention-based convolution
近年来,在自然语言处理领域中

通常情况下,在词对词建模方面

5.1.3. Type matching

为了使我们的模型变得全微分, 我们构建了一个基于矩阵乘法与求和运算的类型匹配机制. 在梯度下降的支持下进行端到端优化过程中, 模型参数得以实现有效的优化与更新. 为了有效利用类型信息进行分类任务中的特征提取过程, mask操作用于屏蔽非相关数据的影响.

然后,在计算过程中针对类型向量及其所有元素的总和,在元素层面进行相应的乘法运算;因为h-R与t-R配对时必须满足以下条件,在计算它们的结果值时需进行相乘操作

5.2Attentive feature aggregation
分层聚合器函数聚合从5.1节获得的多跳邻域特征信息。

5.2.1聚合函数
基于多跳邻居的事实特征信息与预设的聚合路径共同分层累积的方式生成目标事实的最终嵌入表示。采用基于初始事实特征提取的方法设定事实向量的具体数值表示形式。每个构建的聚合路径均连接至根实体节点以实现信息整合关系的有效传递与存储。所有构建的聚合路径构成了如图2 (c)所示的树状结构框架

通常情况下,实体的重要信息可通过Weisfeler-Lehman算法[45]及其相关指标来获取;然而,并非需要从邻域中整合图结构信息的重要性。我们采用基于内容的关注机制,在注意力特征聚合函数中以可学习的方式提取事实向量的重要性而非依赖于顺序信息。
因此,我们不需要对相邻的事实

执行采样过程以筛选出更为重要且剔除那些无关紧要的事实。这通过IKGE模型中的专注特征聚合整合不同规模的邻居节点,并将其转换为固定长度的向量表示



5.2.3推理

5.2.4复杂性分析

大多数面向开放世界的传统知识图谱构建(Knowledge Graph Construction, KGC)模型都未充分依赖于邻域信息。然而所提提出的方法虽然增加了计算复杂度但通过整合事实特征信息与K-hop邻居成功地提升了预测性能。
6.实验
6.1实验装置
除了预训练词嵌入之外,在可训练参数中涉及事实特征信息提取和注意特征聚合的部分采用了小批量随机梯度下降算法配合AdamW优化器进行处理。为了实现更好的收敛效果,在初始学习率设置为0.01的基础上进行了多次实验调优,并结合余弦退火学习率调度器以解决Adagrad算法中学习速率容易出现突变的问题。所有实验均在Python环境下完成,并借助PyTorch框架实现,在Intel Core i7-10700 CPU与NVIDIA GeForce GTX 3080 GPU配置下实现了高效的GPU加速深度学习工具开发。
6.1.1 真实数据集
在封闭世界假设下评估KGC任务的相关子任务时,在现有的标准现实世界知识图谱数据集中最常用的是基于Freebase构建的两个著名数据集:FB15K(Bordes等人提出)以及其扩展版本——FB13(TransE模型提出者)。这些数据集均基于Freebase构建。与此同时开发了适用于开放世界知识图谱推理的数据集——如FB20K(与Freebase-KG结合)以及基于大规模语料库构建的DBPedia-5M等。其中一些如FB20K扩展了基础的数据量,并通过引入具有丰富语义信息的新实体来增强表现能力;而另一些如DBPedia-5M则基于大规模语料库构建,并采用随机抽样策略选择一部分样本用于训练模型识别模式的能力;剩余部分则用于评估模型的表现水平。
在换向设置下,在测试集中所有实体与关系必须符合现有KG数据集的In-KG格式。另一方面,在IKGE框架中支持kg域外实体及关系。因此,在归纳设置下的测试集中至少包含一个kg域外实例或关联。为此,在我们的实验设计中基于一致抽样方法随机选择了out-kg相关的关系。结果,在分类上将测试集划分为8种类型:OOO、OOX、OXO、XOO、OXX、XXO、XOX以及XXX(其中O代表in-KG对象而X代表out-kg对象)。需要注意的是,在我们的实验设计中假设每个测试事实至少包含一个in-KG对象;因此,在这种情况下我们不考虑XXX类型。表1说明了我们实验中使用的5个真实数据集的统计数据
考虑到数据集中包含了丰富的事实与长文本描述;然而建议采用的模型IKGE依赖于某些辅助信息以支持开放世界知识图谱构建。例如基于关系的(名称及类型限制)与基于实体的(描述与类型)辅助信息能够有效补充知识图谱的基础构建需求。我们引入了FB2O、DBpedia-5Ok及DBpedia-5Ok等数据集分别对应FB2O⁺、DBpedia-5Ok⁺与DBpedia-5Ok⁺;这些增强版本的数据集被用来进一步完善归纳能力与换向设置机制。

6.1.2基线
在开放环境下(open world setting),当前最先进的人工智能知识图谱构建(KGC)方法主要依赖于基于预先训练好的词向量模型识别实体间的关联性。这些嵌入是通过其文本描述所生成的结果。从而评估了包含in-KG与out-KG实体的相关三元组的有效性。与IKGE方法相比的情况如下:


6.1.3超参数

6.1.4性能测试
reciprocal 倒数的

6.2实验结果




6.2.1开放实体预测

6.2.2开放的关系预测


6.2.3封闭的世界实体预测


6.2.4封闭的世界三元组分类



7.总结
我们提出了一种专为开放世界知识图谱(KG)推理任务设计的归纳式嵌入模型。该模型通过聚合相邻事实中的特征信息来提取关键数据。...
未来展望方面
