Advertisement

Knowledge Graph Embedding: A Survey of Approaches and Applications (2)

阅读量:

这份综述对知识图谱领域的阅读进行翻译,探讨了知识图谱嵌入技术的综述方法与应用。

Knowledge Graph Embedding: A Survey of Approaches and Applications

  • 5 下游任务的应用

    • 5.1 KG内应用

      • 5.1.1 链接预测
      • 5.1.2 三元组分类
      • 5.1.3 实体分类
      • 5.1.4 实体解析
    • 5.2 KG外应用

      • 5.2.1 关系抽取
      • 5.2.2 问答
      • 5.2.3 推荐系统
  • 6.结论

5 下游任务的应用

在回顾现有知识图谱嵌入技术的基础上,本节将阐述如何将学习获得的实体与关系嵌入应用于多样的下游应用场景,以实现实际价值。我们将这些应用场景分为两类:一类是与知识图谱相关的内部应用,另一类是与外部系统相关的外部应用,随后将分别进行阐述。

5.1 KG内应用

KG中的应用主要在KG内部进行,其中实体和关系嵌入主要通过学习获得。我们介绍了四种相关应用,包括链路预测、三重分类、实体分类和实体解析,这些方向在研究领域中已获得广泛的关注和研究。这些应用主要从不同角度和应用场景出发,对输入的KG进行相应的优化和处理(例如,消除数据冗余或重复信息)。

5.1.1 链接预测

链接预测任务旨在预测与给定实体具有特定关系的其他实体。具体而言,给定三元组(r,t),任务是预测头实体h或尾实体t。前者对应于(?,r,t)形式,后者对应于(h,r,?)形式。例如,(?,DirectorOf, Psycho)任务旨在预测电影的导演,而(AlfredHitchcock,DirectorOf,?)任务旨在预测由特定人导演的电影。这些任务本质上属于知识图谱(KG)填充问题,即通过在图中添加缺失的知识来扩展现有知识。在已有文献中,链接预测任务有时也被称为实体预测或实体排序。类似的方法还可用于关系预测任务,即给定三元组(h,?,t),任务是预测关系r。通过预先学习实体和关系的表示,链接预测任务可以简单地通过排序过程进行。以预测头实体为例,任务是将KG中的所有可能实体h'作为候选答案,计算每个候选三元组(h',r,t)的得分f_r(h',t)。在经过嵌入模型训练后,这些得分可以通过评分函数f_r(h',t)=-||\bm h'+\bm r-\bm t||_{1/2}进行计算(假设使用TransE模型进行KG嵌入)。将这些得分按降序排列即可生成候选答案的排名列表。例如,对于(?,DirectorOf,Psycho)任务,排序结果可能得到{JamesCameron,AlfredHitchcock,GeorgeLucas,QuentinTarantino}。类似的方法也可用于预测尾实体或关系。为了评估预测性能,通常将正确答案的排名记录在生成的有序列表中,以便比较正确答案是否排在错误答案之前。在(?,DirectorOf,Psycho)任务中,正确答案AlfredHitchcock的排名为2。排名越靠前,预测性能越好。基于此排序设计了多种评估指标,包括平均排名、平均倒数排名、Hits@n(正确答案排名在n以内)和精确召回曲线下的面积(AUC-PR)。

5.1.2 三元组分类

三元组分类任务涉及验证不可见的三元组事实(h,r,t)的真实性。例如,(AlfredHitchcock,DirectorOf,Psychol)应归类为真实事实,而(JamesCameron,DirectorO,Psyhoc)则应归类为虚假事实。同样,这项任务可以被视为对知识图谱(KG)的一种形式填充任务,此前已有大量相关研究。一旦在知识图谱上学习了嵌入模型,我们便能够计算任意三元组(h,r,t)的得分,只要h,t属于实体空间\mathbb{E}且关系r属于实数空间\mathbb{R},即f_r(h,t)=-||\bm h+\bm r-\bm t||_{1/2}(若采用TransE模型)。接着,我们可通过该三元组的得分来进行三元分类。得分较高的三元组通常代表真实事实。特别地,为每个关系r设定一个阈值\delta_r。若未观察到的事实(h,r,t)的得f_r(h,t)高于\delta_r,则预测其为真实事实,否则为假。通过这种方法,我们为每个关系构建了一个三分类器。传统分类指标可用于评估该任务,例如基于微观和宏观的平均精确度。由于每个三元组都会输出一个实值得分和二进制标签,因此也可以采用排名指标,例如平均精确度。

5.1.3 实体分类

实体分类主要通过将实体归类为不同的语义类别来实现对实体的分类。例如,AlfredHitchcock属于个人,而Psycho则属于创造性工作。在大多数情况下,KG中已编码的实体类型(以IsA形式)以及其嵌入表示。实体分类可以被视为一种特定任务,即(x,IsA,?)。在此,可以采用类似的预测和评估程序(详见第5.1.1节)。实体分类显然属于KG填充问题,已经在[13]和[22]中进行了研究。

5.1.4 实体解析

实体解析旨在验证两个实体是否引用同一对象。在一些知识图谱(KG)中,许多节点实际上指的是相同的对象。例如,在Cora数据集中,作者、标题和地点字段的引用中,作者或地点的名称可能以不同的方式书写。实体解析任务的目标是消除这种节点重复。Bordes等人提出了一种方法,该方法考虑了KG中已存在的一种场景:即KG中已包含一个关系,用于表示两个实体是否等效(表示为EqualTo),并且为该关系已学习了嵌入。在这种情况下,实体解析任务退化为一个三重分类问题,即判断三元组(x,EqualTo,y)是否成立,或其成立的可能性有多大。嵌入模型输出的三元组分数可以直接用于此类预测(详见第5.1.2节)。然而,由于并非所有KG都编码EqualTo关系,因此这种直观的策略并非总是有效。Nickel等人建议仅根据实体表示进行实体解析。具体而言,给定两个实体x,y及其向量表示\bm x,\bm y,它们之间的相似性可通过公式k(x,y)=e^{-||\bm x-\bm y||^2_2/\sigma}进行计算,该相似度分数用于衡量xy指向同一实体的可能性。即使KG中未编码EqualTo关系,该新策略仍能有效实施。AUC-PR指标是该任务中被广泛采用的评估指标。

5.2 KG外应用

KG之外的应用是那些突破输入KG边界并进行拓展的实例。我们通过实例分析了三个具有代表性的应用领域,涵盖关系抽取、问答和推荐系统。我们不旨在系统回顾这些任务或介绍最新技术进展,相反,我们特别关注如何将KG嵌入技术应用于这些领域。我们期望这些应用能够为KG嵌入技术的未来发展提供新的视角和方向。

5.2.1 关系抽取

关系提取旨在从已检测到实体的纯文本中提取关系事实。例如,给定一个句子"Alfred Hitchcock directed Psycho",其中检测到实体h=Alfred Hitchcockt=Psycho,关系提取器应预测这两个实体之间的关系DirectorOf。长期以来,关系抽取一直是自然语言处理中的一项重要任务,它为丰富KGs提供了有效手段。许多研究试图利用KG完成这项任务,但通常是远程监控,以自动生成标记数据。这些方法仍然是基于文本的提取器,忽略了KG本身推理新事实的能力。
最近,Weston等人提出将TransE与基于文本的提取器相结合,以便更好地执行关系提取。具体而言,在训练阶段,他们从文本语料库中学习基于文本的提取器,并从与该语料库对齐的KG中学习TransE模型。基于文本的提取器对每个关系r与其文本提及m(即,S_{text}(m,r))之间的相似度进行评分。然后,这些分数可用于预测文本提及的关系,即来自文本语料库的证据。同时,TransE模型对每个缺失事实(h,r,t)的可信度进行评分比如S_{KG}(h,r,t)。这些分数可用于预测其与KG中实体的交互关系,即KG中的证据。在测试阶段,给定两个实体h,t,所有关系都提到\mathbb{M}_{h,t},首先使用基于文本的提取器进行预测\hat r,然后为候选事实引入合成分数,比如,
S_{text+KG}(h,\hat r,t)=\sum_{m\in\mathbb{M}_{h,t}}S_{text}(m,\hat r)+S_{KG}(h,\hat r,t).
这种复合模型有利于预测不仅与文本提及一致,而且与KG一致。实验结果进一步表明,结合TransE模型可以成功地改进传统的基于文本的提取器。在合并TransH和TransR后,也观察到类似的改进。
Riedel等人设计了一个不同的框架,通过联合嵌入纯文本和KG来执行关系提取。在他们的工作中,文本和KG在同一矩阵中表示。矩阵的每一行代表一对实体,每一列代表文本提及或KG关系。如果两个实体与纯文本中的提及或KGs中的关系同时出现,则相应条目设置为1,否则设置为0。对于训练实例(实体对),可以观察文本提及和KG关系,后者作为远程监督。但对于测试实例,只有文本提及可用。然后,关系提取用于预测测试实例缺少的KG关系。图7给出了该场景的简单说明。协同过滤技术进一步用于此任务,它分解输入矩阵以学习实体对、文本提及和KG关系的向量嵌入。该框架还改进了传统的基于文本的提取器。Fan等人提出了一种类似的关系提取方法。但在他们的工作中,矩阵中的第一组列对应于文本特征,而不是文本提及,并且采用矩阵填充技术,而不是矩阵分解技术。Chang等人后来设计了一种基于张量的变体,将纯文本和KG编码为三模式张量,然后使用RESCAL模型对张量进行因子分解。

在这里插入图片描述

5.2.2 问答

本文聚焦于一个特定的问答任务,即基于知识图谱(KGs)的问答。对于用自然语言表达的问题,任务是从知识图谱中检索由三元组或三元组集合支持的正确答案。我们展示了几个问题、答案及其支持的三元组示例:

*Who directed the film Psycho? – Alfred Hitchcock
(Alfred Hitchcock, DirectorOf, Psycho)

A. Hitchcock的出生地是哪里?:Leytonstone (AlfredHitchcock, BornIn, Leytonstone)

Alfred Hitchcock的国籍是什么? – England
(Alfred Hitchcock,出生于Leytonstone)
(Leytonstone居住于England)

通过以结构化格式组织答案,KGs的使用显著简化了问题的回答过程。尽管自然语言的多样性及其大规模的KG规模,这一任务仍充满挑战。Bordes等提出的方法核心在于学习单词和知识图谱成分的低维向量嵌入,以使问题及其答案在嵌入空间中相互接近。具体而言,设q表示问题,a表示候选答案。函数S(q,a)基于向量嵌入设计,旨在评估问题与答案之间的相似性,即
S(q,a)=(W\phi(q))^T(W\psi(a))
其中,W是一个包含单词、实体和关系嵌入的矩阵;\phi(q)\psi(a)是两个稀疏向量,分别表示问题中单词的出现情况以及答案中实体和关系的出现情况。W\phi(q)W\psi(a)则分别代表嵌入空间中问题和答案的向量表示。如果a是q的正确答案,则S(\dot,\dot)将产生高分;反之则产生低分。基于由问题及其正确答案配对组成的训练集,通过典型的成对排序优化方法可训练嵌入矩阵W,使正确对的得分高于错误对。训练集可通过众包或通过KG上自动归纳种子模式生成。在测试阶段,对于给定的问题q,答案预测为
\hat a=\mathop{argmax}\limits_{a\in\mathbb{A}(q)}S(q,a),
其中\mathbb{A}(q)为候选答案集合。Bordes等人通过实证研究表明,该方法在不依赖词库、规则或额外步骤进行词性标注、句法或依赖性分析的情况下,仍能取得较为客观的性能,且与传统问答系统相比具有显著优势。

5.2.3 推荐系统

推荐系统向用户推送他们可能感兴趣的物品的推荐信息。在多种推荐策略中,协同过滤技术通过将用户与项目之间的交互建模为潜在表示的乘积,已经取得了显著的效果。然而,这种方法并非总是理想,因为用户与项目之间的互动往往非常稀疏。为了弥补这一不足,研究者们提出了混合推荐系统,该系统能够结合用户与项目之间的互动信息,并通过辅助信息提升推荐性能。

6.结论

KG嵌入主要通过将实体和关系嵌入到连续向量空间中,已在多种实体相关任务中得到了广泛应用,并引起了广泛关注。本文系统回顾了现有技术,特别是基于KG嵌入中使用的不同信息类型。首先介绍了仅基于KG中观察到的事实进行嵌入的现有技术。我们详细描述了总体框架、模型设计、训练程序及其优缺点。随后,探讨了更先进的技术,这些技术利用了KG嵌入之外的其他信息。我们特别关注了四种类型的额外信息整合,即实体类型、关系路径、文本描述和逻辑规则。关于整合额外信息的研究目前仍处于起步阶段,未来可能会得到更多关注。最后,本文探讨了KG嵌入的应用。引入了两种应用类型,一种是限定在输入KG范围内的KG应用,另一种是扩展到更广泛领域外的KG外应用。我们希望这项简短的研究能为KG嵌入的未来发展提供新的见解。

全部评论 (0)

还没有任何评论哟~