【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

阅读量：

Unsupervised embedding techniques improve knowledge graph construction based on textual relationships.

摘要

知识图谱嵌入在表示复杂多关系数据方面发挥了辅助作用。最近的嵌入模型在从现有数据库中推断新事实方面展现了高效的性能。然而，在数量和范围上有限的知识图谱精确结构数据仍然存在局限。为了全面优化嵌入表示能力，考虑更广泛的数据来源变得尤为重要，尤其是非结构化的文本数据。本文提出了一种无监督的方法来整合文本信息通过关联词项的嵌入来增强实体嵌入效果。该方法并未更改知识图谱嵌入优化目标，并支持与现有模型集成的过程。针对文本数据的不同呈现形式提出了两种不同的增强策略：第一种情况下每个实体都伴随着相关文本文档来进行描述；第二种情况下则依赖于实体以单词或短语形式出现在非结构化语料库中进行间接描述。实验表明，在多种知识图谱嵌入模型上应用这两种方法都能显著提升链接预测任务的表现

本文模型

关系抽取旨在通过识别相关文档中的新三元组来扩展现有知识图谱。大多数关系抽取方法依赖于远程监控系统以完成训练任务。启发式技术常被用于自动对齐现有知识图谱与文本内容。

但是，在一个句子中出现两个实体的同时呈现并不一定表明该句子明确指出了它们之间的关系；这种现象导致了较高的噪声水平。

本文提出的方法针对两种情况：

一段专门针对某个具体实体的文本
一段不以主题为中心但包含具体实体的内容

针对第一种情况：如图一所示

图上显示的是实体信息和非结构化数据的表现，并分别对应文中提到的第一类和第二类内容。

对于实体描述这种情况，可以使用如下公式获得实体的嵌入：

$\mathbf{e}_{i}$ 等于 $\mathbf{A}_{i}$ 与矩阵 $\mathbf{W}$ 相乘的结果除以 $\mathbf{A}_{i}$ 的一阶范数。其中，
矩阵 $\mathbf{W}$ 大小为 $n_w \times d$ ，
其维度为 $d$ 。
具体来说，
$\mathbf{A}_i$
是一个具有 $n_w$
个元素的一维向量，
其中每个元素
$\mathbf{A}_{ik}$ 表示词
$\omega_k$
在实体描述文本中的出现次数。

上式的缺陷在于采用了相同的权重处理所有单词。然而，在实际应用中，并非所有单词都对预测关系同样重要；有些单词更适合捕捉特定的关系信息。文中提出了使用 $B$ 矩阵来改进这一问题；其中 $B_{jk}$ 具体表示的是单词 $w_k$ 在预测关系 $r_j$ 时的重要程度评分值；这样做的结果是能够更准确地反映不同单词与各关系之间的关联性

该表达式等于矩阵 $\mathbf{A}_i$ 与矩阵 $\mathbf{B}_j$ 按元素相乘后与权重矩阵 $\mathbf{W}$ 的乘积除以该乘积的曼哈顿范数。
其中，
此公式整合了词项在文本中的出现频率以及词项间关系的重要程度。

一般情况下，在初始化阶段设定所有 $B_{ij}$ 值为1，并利用梯度下降算法优化这些参数以学习单词间的关联性。该模型被命名为WWV模型。

但是该式仍存在的问题是：矩阵 $B$ 中的参数数量等于 $n_r \times n_w$ 。在某些特定的数据集上而言，在这种情况下单词与关系的数量极大程度上会导致计算负担也随之变得非常沉重。本文提出，并非将所有 $B_{ij}$ 视为独立参数而是允许通过少量基础参数生成每个 $B_{ij}$ 值为此引入了一个 $n_r \times d$ 的矩阵 $\bold P$ 来定义关系 $r_i$ 与单词 $j$ 之间的权重关系：即对于每个 $r_i$ 和 $j$ 来说 $\mathbf{P}_i\mathbf{W}_j^T$ 即代表了 $r_i$ $w_j$ 之间的相似性度量进而成为它们之间联系的重要权重指标

实体 $\ e_i\$ 在关系 $\ r_j\$ 下的嵌入可被表示为：

\mathbf{e}_{i}^{\left(r_{j}\right)}=\frac{\sum_{w_{k} \in \operatorname{text}\left(e_{i}\right)} A_{i j} \exp \left(\mathbf{P}_{j} \mathbf{W}_{k}^{T}\right) \mathbf{W}_{k}}{\sum_{w_{k} \in \operatorname{text}\left(e_{i}\right)} A_{i j} \exp \left(\mathbf{P}_{j} \mathbf{W}_{k}^{T}\right)}

对于每个单词 $\ w_k\$ 属于实体 $\ e_i\$ 的所有单词集合，在该模型中每个单词都有一个对应的向量表示 $\ \mathbf{W}_k\$ 。矩阵 $\ \mathbf{P}_{j}\$ 则代表了关系 $\ r_j\$ 的性质。值得注意的是，在这种模型中虽然参数数量有所减少（从 $\ n_r\times n_w\$ 减少到 $\ n_r\times d\$ ），但实验结果表明该模型仍能实现与WWV相当的预测性能。

另外，在WWV和PE-WWV模型的参数训练过程中（即词嵌入参数 $\mathbf{W}$ 和权重 $\mathbf{B}$ ）必须同时在无监督条件下进行学习。考虑到最初的随机性可能会导致优化过程过于关注不相关词汇的问题。为此作者提出了一种解决方案：在训练初期的前50轮中保持词嵌入参数 $\mathbf{W}$ 和权重 $\mathbf{B}$ 不变（即固定这些参数），这样可以使优化过程不受这些固定参数干扰，在无变化影响下优先学习具有语义意义的单词表示。待到后续阶段再逐步更新所有参数

所述文章中还提出了一种其他一种改进的实体嵌入方法用于处理非结构化文本的内容不作详细说明

实验

该研究采用了Wordnet与Freebase两大数据库作为数据源。在Wordnet数据库中涉及的概念描述均采用其官方定义，在Freebase数据库中涉及的概念则参考维基百科的相关介绍。当某个概念在现有资料中无法明确界定时，则将其相关三元组从训练集中剔除以确保实验的有效性。表4详细列出了实验所涉及的概念、关系及其三元组的数量统计情况。

本文实验结果如表二所示：

其中，在Base模型中，默认情况下实体向量采用了简单随机初始化的方式，并经过了优化处理，并未添加额外的补充信息；WV-desc模型则将输入的数据整合为更为具体的实体描述形式。

在多数场景下, PE−WWv 的性能不低于 WWv, 并且在许多情况下甚至更为出色. 实际上, 在大多数情况下它的表现会较差, 因为其表征能力并不超过 WWv. WWv 确实可以通过设置 $b_{jk}=exp(\mathbf{P}_{j}\mathbf{W}_{k}^{T})$ 来等价于 PE−WWW, 并且从理论上讲 WWv 至少能够达到 PE−WWW 的水平. 研究表明, 在某些条件下 PE−WWW 确实表现出更强的权重能力. 由此可知, 限制 WWv 的主要因素在于优化算法而非其理论特性.

探讨两种新方法如何借助文本数据信息来提升知识图谱中的实体嵌入。第一种方法通过将每个实体向量表示为其关联单词的直接函数来实现这一目标，并且无论何种情况下使用基于实体描述的形式处理文本数据都是适用的。第二种方法是基于文本文档训练word2vec算法后，在原始实体特征向量中整合学习所得的具体 entity name 特征。实验结果显示，在保证 text data 质量较高的条件下，在多种不同的 embedding 模型中应用这两种方法都能显著提升 link prediction 的准确度。

全部评论 (0)

还没有任何评论哟~

【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

UnsupervisedEmbeddingEnhancementsofKnowledgeGraphsusingTextualAssociations 摘要知识图谱嵌入对于表示和学习多关系数据是有帮助...

ICML 2023|《INGRAM: Inductive Knowledge Graph Embedding via Relation Graphs》论文细读+理解笔记

模型名称INGRAM 代码：GitHubbdilab/InGram:InGram:InductiveKnowledgeGraphEmbeddingviaRelationGraphsICML2023 注...

【HOLE】论文浅读：Holographic Embeddings of Knowledge Graphs

HOLE HolographicEmbeddingsofKnowledgeGraphs 基于向量的循环相关任务提出全息嵌入holographicembeddings，HOLE来学习整个知识图的组成...

[论文笔记] Enhancements of V2X Communication in Support of Cooperative Autonomous Driving

概要 CODE;000 内涵协同感知的内容，后文对架构和应用层描述较多，通信方面描述较少自动驾驶有两个关键特征：感知和操控（maneuvering）。若想更好的增强这两个功能，将V2X通信技术融入到...

论文笔记——News Recommendation with Topic-Enriched Knowledge Graphs

文章目录 Abstract Model 问题定义模型探究（TEKGR）总结 Abstract 概述引用论文中的一句话，新闻推荐系统的目标是处理大量的新闻以及给用户提供个性化的新闻推荐。

【论文笔记】Explainable Reasoning over Knowledge Graphs for Recommendation

原文作者：XiangWang，DingxianWang，CanranXu,XiangnanHe,YixinCao, TatSengChua 原文标题：ExplainableReasoningoverK...

【论文笔记】（VLDB 2020） A Benchmarking Study of Embedding-based Entity Alignment for Knowledge

ABenchmarkingStudyofEmbeddingbasedEntityAlignmentforKnowledge 论文原文开发代码摘要：实体对齐旨在在不同的知识图谱KG中找到指代现实世...

【论文笔记】Unsupervised Deep Embedding for Clustering Analysis（DEC）

【论文笔记】UnsupervisedDeepEmbeddingforClusteringAnalysis（DEC）文章题目：UnsupervisedDeepEmbeddingforClusterin...

【阅读笔记】Using Knowledge Graphs to Search an Enterprise Data Lake

摘要论文总结了为自动驾驶领域大型企业的数据湖构建语义数据管理平台的研究和开发搜索能力是对基于Hadoop大数据的分析和机器学习的一个重要的支持 1.背景博世底盘系统控制（BoschChassis...

【论文笔记】Can Knowledge Graphs Reduce Hallucinations in LLMs_ _ A Survey

Abstract 问题：LLM很容易产生幻觉，这主要源于模型中的知识差距。解决：通过整合外部知识来增强llm，旨在减少幻觉并提高推理准确性。 Introduction 人类通过学习或经验获得离散的事...

是否确定退出登录?

【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

摘要

本文模型

实验

全部评论 (0)

相关文章推荐

【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

ICML 2023|《INGRAM: Inductive Knowledge Graph Embedding via Relation Graphs》论文细读+理解笔记

【HOLE】论文浅读：Holographic Embeddings of Knowledge Graphs

[论文笔记] Enhancements of V2X Communication in Support of Cooperative Autonomous Driving

论文笔记——News Recommendation with Topic-Enriched Knowledge Graphs

【论文笔记】Explainable Reasoning over Knowledge Graphs for Recommendation

【论文笔记】（VLDB 2020） A Benchmarking Study of Embedding-based Entity Alignment for Knowledge

【论文笔记】Unsupervised Deep Embedding for Clustering Analysis（DEC）

【阅读笔记】Using Knowledge Graphs to Search an Enterprise Data Lake

【论文笔记】Can Knowledge Graphs Reduce Hallucinations in LLMs_ _ A Survey