Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings论文阅读

阅读量：

研究问题

将基于记忆的方法与预训练语言模型相结合，以完成知识图谱补全任务

背景动机

传统模型在面对未曾识别的实体时表现出明显的局限性
相关研究重点转向探索与记忆增强神经网络相关的最新研究动态，并提出了一种创新性的解决方案：在现有的计算架构中引入专门的内存单元以提升数据存储能力

模型方法

通过预训练的语言模型建立实体知识库，并利用嵌入向量间的相似度来识别最接近的概念；随后将记忆搜索结果与语言模型的预测输出进行加权融合

在这里插入图片描述

Masked Entity Modeling

在这里插入图片描述

在每一个三元组查询 $\left(e_i, r_j, ?\right)$ 及其对应的实体信息 $d$ 的情况下，生成相应的查询语句。

在这里插入图片描述

接下来计算mask位置对应不同实体的词的概率：

在这里插入图片描述

最终的损失函数即为分类器损失函数：

在这里插入图片描述

Entity Vocabulary Expansion

在这里插入图片描述

这一步实际上是上一步的一个预处理步骤。由于预训练语言模型在编码阶段会对单个词进行分词处理，并将其分解为多个sub token单位。然而，在这种情况下其输出的token概率与实体之间无法实现完全对应关系。因此我们需要通过扩展语料库来实现这一目标。具体而言，在这种情况下我们需要引入一些特殊的tokens，并确保这些特殊tokens能够具有明确且一致的意义基础之上还需要完成以下相关的预训练任务

对于每个实体及其描述，获得以下查询语句：

在这里插入图片描述

预训练目标损失：

在这里插入图片描述

词表扩展相关代码

复制代码

    def get_entities(self, data_dir):
        """Gets all entities in the knowledge graph."""
        with open(self.entity_path, 'r') as f:
            lines = f.readlines()
            entities = []
            for line in lines:
                entities.append(line.strip().split("\t")[0])
        ent2token = {ent : f"[ENTITY_{i}]" for i, ent in enumerate(entities)}
        return list(ent2token.values())
        
    entity_list = self.processor.get_entities(args.data_dir)        
    num_added_tokens = self.tokenizer.add_special_tokens({'additional_special_tokens': entity_list})
    
    
      
      
      
      
      
      
      
      
      
      
      
      
    
    代码解读

Knowledge Store

在这里插入图片描述

基于涵盖语义信息的实体描述内容以及涵盖结构信息的实体三元组两方面的分析来构建知识库

在实体描述部分采用的是Entity Vocabulary Expansion部分所学得的向量表达。

在这里插入图片描述

三元组部分就是把所有包含目标实体的三元组对应的嵌入加入库中

在这里插入图片描述

知识库中采用（k,v）对的形式组织实体与嵌入的关系结构，其中k由描述或三元组生成的嵌入表示，v则包含对应实体名称信息。该论文采用了开源库FAISS来进行高维空间检索任务。

记忆推理

基于三元组查询框架，在利用该方法推导出缺失实体对应的向量表示 $h_{[mask]}$ 的情况下, 计算过程如下:

在这里插入图片描述

knn算法通过计算候选实体与目标实体之间的向量空间距离来评估其概率。值得注意的是,每个候选实体会产生多个多样化的向量表达.因此,在选择时仅考虑最邻近的那个

在这里插入图片描述

最终结果为二者的加权和

在这里插入图片描述

实验结果

链路预测

在这里插入图片描述

KS即KNN部分

在这里插入图片描述

低资源场景

论文研究了不同训练样本比例的变化，并对加入KS部分对模型性能的影响进行了对比分析；同时评估该方法在何种情况下能够超越现有最优（SOTA）的效果。

在这里插入图片描述

长尾实体上的效果比较

在这里插入图片描述

在这里插入图片描述

KNN中K的数目设置

通过这里我大致掌握了整个KNN算法的基本概念。当设定一个最近邻居数量为k时，在知识库中提取出与给定嵌入表示最接近的前k个实体。这些实体的距离被用来计算它们的概率值，并与另一种方法得出的概率结果进行加权平均。基于假设，在这k个候选实体中包含目标实体。然而，在现有公式推导中并未明确体现这一点。

在这里插入图片描述

插值参数的取值

在这里插入图片描述

可视化

2D t-SNE实现了将距离最近的k个邻居以及其他实体进行可视化展示，并通过观察可以看出，在空间布局上，那些语义相近的实体同样会显得更加靠近。

在这里插入图片描述

模型比较

在这里插入图片描述

规模越大越好，RoBERTa上限最高

案例

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~

Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings论文阅读

研究问题将基于记忆的方法与预训练语言模型相结合，以完成知识图谱补全任务背景动机传统模型无法处理未见实体记忆增强神经网络的相关进展，即在传统的计算模块之外添加单独的记忆存储模块模型方法首先使...

Reasoning Through Memorization:Nearest Neighbor Knowledge Graph Embeddings

摘要以前的知识图嵌入方法通常将实体映射到表示，并利用分数函数来预测目标实体，但它们很难推断出罕见或未出现的实体。本文提出了一种基于预训练语言模型的kNNKGE知识图嵌入方法，该方法通过k近邻对其实体...

GENERALIZATION THROUGH MEMORIZATION: NEAREST NEIGHBOR LANGUAGE MODELS

Abatract 我们引入了kNNLMs，它扩展了一个预先训练的神经语言模型（LM），通过与k个最近邻（kNN）模型线性插值。最近邻是根据预先训练好的LM嵌入空间中的距离进行计算的，并可以从任何文本集...

论文阅读《Editing Language Model-Based Knowledge Graph Embeddings》

论文综述：基于语言模型的知识图谱嵌入编辑问：怎么最低成本的编辑三元组，同时更新三元组对应的网络里面的嵌入？解：用一个额外的LSTM超网络更新目标网络的部分超参。作者与机构本文由浙江大学、浙江大...

Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读

LearningHierarchyAwareKnowledgeGraphEmbeddingsforLinkPrediction 摘要介绍模型 moduluspart模数部分 phasepart相位...

阅读文章：Incorporating Knowledge Graph Embeddings into Topic Modeling

阅读文章：IncorporatingKnowledgeGraphEmbeddingsintoTopicModeling 这是一篇发表到AAAI17的Oral的文章：IncorporatingKnowl...

论文阅读笔记（4）——《Language Generation with Multi-Hop Reasoning on Commonsense Knowledge Graph》

基于常识知识图的多跳推理语言生成 1Abstract&Introduction 2RelatedWork 2.1CommonsenseAwareNeuralTextGeneration（常识感知神经文...

【论文阅读】EMNLP2020-Semantic Role Labeling Graph Reasoning Network

SRLGRN 论文：EMNLP2020SemanticRoleLabelingGraphReasoningNetwork 语义角色标注图推理网络任务提出了一个基于句子语义结构的图推理网络来学习跨...

【论文阅读】Unifying Knowledge Graph Learning and Recommendation

UnifyingKnowledgeGraphLearningandRecommendation:TowardsaBetterUnderstandingofUserPreferences 总体大纲如下图...

【论文阅读】Towards Time-Aware Knowledge Graph Completion

TowardsTimeAwareKnowledgeGraphCompletion 重点：知识图谱中考虑时间因素time实现知识图谱的补全。框架模型 1TimeAwareEmbeddingTaskM...