Advertisement

【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

阅读量:

Unsupervised embedding techniques improve knowledge graph construction based on textual relationships.

摘要

知识图谱嵌入在表示复杂多关系数据方面发挥了辅助作用。最近的嵌入模型在从现有数据库中推断新事实方面展现了高效的性能。然而,在数量和范围上有限的知识图谱精确结构数据仍然存在局限。为了全面优化嵌入表示能力,考虑更广泛的数据来源变得尤为重要,尤其是非结构化的文本数据。本文提出了一种无监督的方法来整合文本信息通过关联词项的嵌入来增强实体嵌入效果。该方法并未更改知识图谱嵌入优化目标,并支持与现有模型集成的过程。针对文本数据的不同呈现形式提出了两种不同的增强策略:第一种情况下每个实体都伴随着相关文本文档来进行描述;第二种情况下则依赖于实体以单词或短语形式出现在非结构化语料库中进行间接描述。实验表明,在多种知识图谱嵌入模型上应用这两种方法都能显著提升链接预测任务的表现

本文模型

关系抽取旨在通过识别相关文档中的新三元组来扩展现有知识图谱。大多数关系抽取方法依赖于远程监控系统以完成训练任务。启发式技术常被用于自动对齐现有知识图谱与文本内容。

但是,在一个句子中出现两个实体的同时呈现并不一定表明该句子明确指出了它们之间的关系;这种现象导致了较高的噪声水平。

本文提出的方法针对两种情况:

  1. 一段专门针对某个具体实体的文本
  2. 一段不以主题为中心但包含具体实体的内容

针对第一种情况:如图一所示

image-20211025145207276

图上显示的是实体信息和非结构化数据的表现,并分别对应文中提到的第一类和第二类内容。

对于实体描述这种情况,可以使用如下公式获得实体的嵌入:

\mathbf{e}_{i}等于\mathbf{A}_{i}与矩阵\mathbf{W}相乘的结果除以\mathbf{A}_{i}的一阶范数。其中,
矩阵\mathbf{W}大小为n_w \times d
其维度为d
具体来说,
\mathbf{A}_i
是一个具有n_w
个元素的一维向量,
其中每个元素
\mathbf{A}_{ik} 表示词
\omega_k
在实体描述文本中的出现次数。

上式的缺陷在于采用了相同的权重处理所有单词。然而,在实际应用中,并非所有单词都对预测关系同样重要;有些单词更适合捕捉特定的关系信息。文中提出了使用 B 矩阵来改进这一问题;其中 B_{jk} 具体表示的是单词 w_k 在预测关系 r_j 时的重要程度评分值;这样做的结果是能够更准确地反映不同单词与各关系之间的关联性

该表达式等于矩阵\mathbf{A}_i与矩阵\mathbf{B}_j按元素相乘后与权重矩阵\mathbf{W}的乘积除以该乘积的曼哈顿范数。
其中,
此公式整合了词项在文本中的出现频率以及词项间关系的重要程度。

一般情况下,在初始化阶段设定所有B_{ij}值为1,并利用梯度下降算法优化这些参数以学习单词间的关联性。该模型被命名为WWV模型。

但是该式仍存在的问题是:矩阵B中的参数数量等于n_r \times n_w。在某些特定的数据集上而言,在这种情况下单词与关系的数量极大程度上会导致计算负担也随之变得非常沉重。本文提出,并非将所有B_{ij}视为独立参数而是允许通过少量基础参数生成每个B_{ij}值为此引入了一个n_r \times d的矩阵\bold P来定义关系r_i与单词j之间的权重关系:即对于每个r_ij来说\mathbf{P}_i\mathbf{W}_j^T即代表了r_iw_j之间的相似性度量进而成为它们之间联系的重要权重指标

实体\ e_i\ 在关系\ r_j\ 下的嵌入可被表示为:

\mathbf{e}_{i}^{\left(r_{j}\right)}=\frac{\sum_{w_{k} \in \operatorname{text}\left(e_{i}\right)} A_{i j} \exp \left(\mathbf{P}_{j} \mathbf{W}_{k}^{T}\right) \mathbf{W}_{k}}{\sum_{w_{k} \in \operatorname{text}\left(e_{i}\right)} A_{i j} \exp \left(\mathbf{P}_{j} \mathbf{W}_{k}^{T}\right)}

对于每个单词\ w_k\ 属于实体\ e_i\ 的所有单词集合,在该模型中每个单词都有一个对应的向量表示\ \mathbf{W}_k\ 。矩阵\ \mathbf{P}_{j}\ 则代表了关系\ r_j\ 的性质。值得注意的是,在这种模型中虽然参数数量有所减少(从\ n_r\times n_w\ 减少到\ n_r\times d\ ),但实验结果表明该模型仍能实现与WWV相当的预测性能。

另外,在WWV和PE-WWV模型的参数训练过程中(即词嵌入参数\mathbf{W}和权重\mathbf{B})必须同时在无监督条件下进行学习。考虑到最初的随机性可能会导致优化过程过于关注不相关词汇的问题。为此作者提出了一种解决方案:在训练初期的前50轮中保持词嵌入参数\mathbf{W}和权重\mathbf{B}不变(即固定这些参数),这样可以使优化过程不受这些固定参数干扰,在无变化影响下优先学习具有语义意义的单词表示。待到后续阶段再逐步更新所有参数

所述文章中还提出了一种其他一种改进的实体嵌入方法用于处理非结构化文本的内容不作详细说明

实验

该研究采用了Wordnet与Freebase两大数据库作为数据源。在Wordnet数据库中涉及的概念描述均采用其官方定义,在Freebase数据库中涉及的概念则参考维基百科的相关介绍。当某个概念在现有资料中无法明确界定时,则将其相关三元组从训练集中剔除以确保实验的有效性。表4详细列出了实验所涉及的概念、关系及其三元组的数量统计情况。

image-20211028153855332

本文实验结果如表二所示:

表二

其中,在Base模型中,默认情况下实体向量采用了简单随机初始化的方式,并经过了优化处理,并未添加额外的补充信息;WV-desc模型则将输入的数据整合为更为具体的实体描述形式。

在多数场景下, PE−WWv 的性能不低于 WWv, 并且在许多情况下甚至更为出色. 实际上, 在大多数情况下它的表现会较差, 因为其表征能力并不超过 WWv. WWv 确实可以通过设置 b_{jk}=exp(\mathbf{P}_{j}\mathbf{W}_{k}^{T}) 来等价于 PE−WWW, 并且从理论上讲 WWv 至少能够达到 PE−WWW 的水平. 研究表明, 在某些条件下 PE−WWW 确实表现出更强的权重能力. 由此可知, 限制 WWv 的主要因素在于优化算法而非其理论特性.

探讨两种新方法如何借助文本数据信息来提升知识图谱中的实体嵌入。第一种方法通过将每个实体向量表示为其关联单词的直接函数来实现这一目标,并且无论何种情况下使用基于实体描述的形式处理文本数据都是适用的。第二种方法是基于文本文档训练word2vec算法后,在原始实体特征向量中整合学习所得的具体 entity name 特征。实验结果显示,在保证 text data 质量较高的条件下,在多种不同的 embedding 模型中应用这两种方法都能显著提升 link prediction 的准确度。

全部评论 (0)

还没有任何评论哟~