Advertisement

[NLP论文阅读]A Neural Knowledge Language Model(一)

阅读量:

原文地址:A Neural Knowledge Model

摘要

现有的语言模型(Language Model)在处理factual knowledge的编码(encode)和解码(decode)方面确实存在明显局限性。其主要原因在于语言模型主要依赖统计共现的方式来获取知识信息,在这种机制下大部分与知识相关的词汇都是罕见出现的。为了改进这一问题,在本文中我们提出了一种名为Neural Knowledge Language Model(NKLM)的新架构。该模型的独特之处在于它将来自知识图谱的知识信息与基于 recurrent 神经网络的语言模型相结合在一起。具体而言,在生成文本时如果遇到无法识别的事实描述,则可以通过从预测的事实描述中提取相关信息来辅助生成相关词汇(knowledge-related words)。经过实验验证的结果表明NKLM相较于现有主流模型在新单词产生能力上表现更为出色

本文的主要贡献

基于NKLM模型依赖知识图谱的技术路线来缓解传统语言模型在处理事实类知识(factual knowledge)方面的局限性

模型

1. 一些定义

一个topic可以由两部分组成:

对TOPIC的定义

topic knowledge是由一系列事实构成的一个集合体,在这其中任何一个实例a都表现为一个包含三个要素的基础单元(subject、relationship、object),例如(Barack Obama、Married-To关系、Michelle Obama)。在像Freebase这样的知识库中能够获取到这些主题相关的知识;注意:在所有fact实例中所涉及的subject元素均指向同一个主题本身。

topic descriptions 是由多个词组成的序列,并且可以从维基百科中获取相关信息

每个fact a在topic knowledge中都被赋予了相应的knowledge words O_a = (o₁^{“Michelle”}, o₂^{“Obama”})。当系统生成输出时可能会直接引用该单词序列中的词汇。然而,并非所有出现在实例中的term都能被包含在知识库K中。具体来说,在某个fact a的取值范围内变量 a 的值可能包括(Barack Obama、Married-To和Michelle Obama)。在这个实例中‘Married-To’是一个非常常见的词汇。因此,在这种情况下‘Married-To’可以通过全局词汇表 V 来生成而不必直接复制。研究者将知识词汇限定于三元组的Object属性部分。例如,在上述情况中: O_a = (o₁^{“Michelle”}, o₂^{“Obama”}) ] 注意事项同上所述

采用有监督学习方法进行模型训练时,默认将标签设定为与事实相关的特定单词。这样就需要确保主题描述中的每个单词能够与主题知识库中的对应事实实现精准匹配。为此需要将主题描述中的每个单词与主题知识库中的对应事实进行匹配。举例而言,在主题F和W的情况下,则需要通过字符串匹配的方法找到W中对应的单词w,并将其与O_F=U_{a\in F}O_a中所有对应的词语进行比对分析。因此标签Y可以表示为

其中 z_t是一个二值变量,用于表示 w_t的来源

这种表示方法是否暗示着每一个由事实生成的对象都仅依赖于单一的事实基础?

文中给出了一个例子

关于标签Y的举例

例子中的fact embedding a^i被组织为一个knowledge memory矩阵,并且该矩阵在训练过程中不会发生变化。

模型

这里写图片描述

输入:通过f_{concat}函数直接地将a_{t-1}w_{t-1}^vw_{t-1}^o进行连接。
当变量满足特定条件时(即当变量满足特定条件时),若该变量等于零,则对应的权重为零;否则对应的权重为零;其余情况下对应的权重为零;其余情况下对应的权重不为零。
接着将输入传递给LSTM网络

然后利用h_t基于当前主题相关的可用事实信息对a_t进行估计。

这里写图片描述

借助于h_t, e_k的操作流程如下:首先通过该机制获得检索对应的键值k_{fact};接着结合当前可获取的事实集合a进行概率分布预测;最终推导出具有最高发生概率的事实作为目标依据。

  1. 通过h_t, a_t计算来判断是从事实单词中复制还是从词典中生成
这里写图片描述
这里写图片描述
  1. 如果z_t<0.5,那么就和普通语言模型一样,预测概率分布
这里写图片描述

当计算得到z_t >= 0.5时,则需要将数据从O_{a_t}中进行拷贝操作;这表明作者并未基于概率值来进行预测处理而是直接根据其在序列中的位置就进行了判断。

这里写图片描述

这个方法和之前寻找事实的方法很类似,就不在赘述。

目标函数

对于标签\{Y_k\}_{k=1}^K和对应的事实\{F_k\}_{k=1}^K,最大化下面的目标函数

这里写图片描述
这里写图片描述
这里写图片描述

这个目标函数好像看懂了,数学不好就不评论了,希望能开源代码。

实验

未完待续。

全部评论 (0)

还没有任何评论哟~