【PaperReading】Knowledge Graph Embedding Based Question Answering
Knowledge Graph Embedding Based Question Answering
-
摘要
-
关键词
-
引言
-
问题陈述
-
基于QA-KG的知识嵌入
-
-
知识图嵌入
-
谓词和头部实体学习模型,
-
- 基于神经网络的谓词表示学习
- 基于神经网络的头部实体学习模型
-
头部实体检测模型
-
联合搜索嵌入空间
-
- 联合距离矩阵
- 基于知识嵌入的问答
-
-
实验
-
-
数据集
-
实验环境设置
-
KEQA的有效性
-
泛化能力和鲁棒性评估
-
- KEQA的泛化能力。
- KEQA的鲁棒性
-
参数分析
-
-
相关工作
-
总结与展望
-
参考文献
Knowledge Graph Embedding Based Question Answering
-
摘要
-
关键词
-
引言
-
问题陈述
-
基于QA-KG的知识嵌入
-
-
知识图嵌入
-
谓词和头部实体学习模型,
-
- 基于神经网络的谓词表示学习
- 基于神经网络的头部实体学习模型
-
头部实体检测模型
-
联合搜索嵌入空间
-
- 联合距离矩阵
- 基于知识嵌入的问答
-
-
实验
-
-
数据集
-
实验环境设置
-
KEQA的有效性
-
泛化能力和鲁棒性评估
-
- KEQA的泛化能力。
- KEQA的鲁棒性
-
参数分析
-
-
相关工作
-
总结与展望
-
参考文献
ng Li, Ping Li*
摘要
知识图问答(QA-KG)旨在利用知识图(KG)中的事实来回答自然语言问题。它可以帮助最终用户更高效,更轻松地访问KG中的重要知识,而无需了解其数据结构。 QA-KG是一个不平凡的问题,因为捕获自然语言的语义对一台机器来说很困难。同时,已经提出了许多知识图嵌入方法。关键思想是将每个谓词/实体表示为低维向量,以便可以保留KG中的关系信息。所学习的向量可以使各种应用受益,例如KG完成和推荐系统。在本文中,我们探索使用它们来处理QA-KG问题。但是,由于谓词在自然语言问题中可能以不同的方式表达,因此这仍然是一项艰巨的任务。同样,实体名称和部分名称的含糊不清使得可能的答案数量变大。
为了弥合差距,我们提出了一个有效的基于知识嵌入的问答系统(KEQA)。 我们专注于回答最常见的问题类型,即简单问题,如果正确识别了其单个头部实体和单个谓词,则机器可以直接回答每个问题。 为了回答一个简单的问题,KEQA的目标不是在直接推断其主体和谓词,而是在KG嵌入空间中共同恢复问题的主体,谓词和尾部表示。 根据精心设计的联合距离度量,将三个学习到的向量在KG中最接近的事实作为答案返回。 在广泛采用的基准上进行的实验表明,所提出的KEQA优于最新的QA-KG方法。
关键词
问题解答,知识图嵌入,深度学习
引言
随着诸如Wikidata,Freebase [19],DBpedia [22]和YAGO [33]之类的大规模知识图谱的兴起,对知识图的问答(QA)成为一个至关重要的话题,并引起了广泛的关注[6,27, 29]。知识图(KG)是一个以现实世界中的实体为节点,它们之间的关系为边的有向图[25,36] 。在此图中,每个有向边及其头部实体和尾部实体共同构成一个三元组,即(头部实体(head entity),谓词(predicate),尾部实体(tail entity)),也称为事实(fact) 。现实世界中的知识图通常包含数百万或数十亿个事实。它们庞大的数量和复杂的数据结构使普通用户难以访问其中的大量宝贵知识。为了弥合差距,提出了基于知识图的问答(QA-KG)[10,21]。它的目标是自动将最终用户的自然语言问题转换为结构化查询(例如SPARQL),并在结果中返回KG中的实体和/或谓词。例如,思考问题“哪个奥运会是在澳大利亚举行的?”,QA-KG旨在确定其相应的两个事实,即(澳大利亚,olympics_participated_in,1952/2004年夏季奥运会)。
知识图上的问题解答为人工智能系统提供了一种将知识图作为回答人类问题的关键要素的方法,其应用范围从搜索引擎设计到会话代理构建[20] 。 但是,QA-KG问题远未解决,因为它涉及到多个具有挑战性的子问题,例如语义分析[45]和实体链接[4,30]。
知识图嵌入[7,38]在不同的实际应用中的有效性[36]促使我们探索其在解决QA-KG问题中的潜在用途。知识图嵌入[26,41]的目标是学习KG中每个谓词/实体的低维向量表示,以使原始关系很好地保留在向量中 。这些学习的向量表示可以被用来有效地完成各种下游应用。示例包括KG完成[25,34],推荐系统[49]和关系提取[20,40]。在本文中,我们建议利用知识图嵌入的优势来执行QA-KG。 KG嵌入表示可以以多种方式推进QA-KG。它们不仅在低维空间内,而且还可以促进下游应用程序将整个KG纳入考虑范围[49],因为即使单个谓词/实体表示形式也是与整个KG交互作用的结果。另外,相似的谓词/实体往往具有相似的向量 。此属性可以帮助下游算法处理不在训练数据中的谓词或实体。
然而,基于知识图嵌入进行QA-KG仍然是一项艰巨的任务[23]。存在三个主要挑战 。首先,谓词在自然语言问题中经常有各种表达[3,45] 。这些表达式可能与谓词名称完全不同。例如,谓词person.nationality可以表示为“ …的国籍”,“ …来自哪个国家”,“ …来自哪里”等。其次,即使假设实体名称可以被准确地识别,实体名称和部分名称的歧义性仍然使很难找到正确的实体 ,因为候选者的数量通常很大。随着KG规模的不断扩大,许多实体将使用相同的名称。同样,最终用户可以在其话语中使用部分名称。例如,在“奥巴马几岁了?”问题中,仅显示实体名称巴拉克•奥巴马的一部分。第三,最终用户的问题域通常是无限制的 ,并且任何一个KG都不是完整的[25]。新问题可能涉及与训练中所用谓词不同的谓词。这对QA-KG算法的鲁棒性提出了要求。
为了弥合差距,我们探索了如何利用知识图嵌入来进行问题解答。 在本文中,我们重点介绍QA-KG中最常见的问题类型[2,13],即简单问题。 一个简单的问题是一种自然语言问题,它仅涉及一个头实体和一个谓词。 通过分析问题,我们旨在回答三个研究问题。 (i)如何运用谓词嵌入表示法来弥合自然语言表达与KG谓词之间的鸿沟? (ii)如何利用实体嵌入表示法应对歧义性挑战? (iii)如何利用KG嵌入表述中保留的全局关系来改善QA-KG框架? 在这些问题之后,我们提出了一个简单的框架,名为基于知识嵌入的问答系统 (KEQA)。 总而言之,我们的主要贡献如下:
- 正式定义基于知识图嵌入的问答问题。
- 提出一种有效的框架KEQA,该框架可以通过在知识图嵌入空间中*共同恢复(jointly recovering)*其头实体,谓词和尾部实体表示来回答自然语言问题。
- 设计一个联合距离度量,该度量将把保留在嵌入表示形式的知识图中的结构和关系考虑在内。
- 在一个较大的基准上以经验方式证明KEQA的有效性和鲁棒性(即SimpleQuestions)。
问题陈述
符号:我们使用大写的粗体字母表示矩阵(例如W ),使用小写的粗体字母表示向量(例如p )。 矩阵P 的第i行表示为p_i。向量的转置记为p^T。向量的l^2范数表示为||p||_2。我们用{p_i}表示向量p_i的一个序列。运算s =[ x; h]表示将列向量x和h连接到一个新向量s中。
定义1(简单问题)[6] 如果自然语言问题仅涉及知识图中的单个首部实体和单个谓词,并以其尾部实体/实体作为答案,则该问题称为简单问题
我们在表1中总结了本文中的重要符号。我们使用(h,ℓ,t)表示一个事实,这意味着从头部实体h到尾部实体t存在一个关系ℓ。令G是一个包含大量事实的知识图。谓词和实体的总数分别表示为M和N。 这些谓词和实体的名称已给出。我们将可扩展的KG嵌入算法(如TransE[7]和TransR[25])应用于G,并获得其谓词和实体分别以P和E表示的嵌入表示。因此,第i个谓词和第j个实体的向量表示分别表示为p_i和e_j。KG嵌入算法定义的关系函数为f(\cdot),即给定一个事实(h,ℓ,t),我们有e_t \approx f(e_h,p_ℓ)。 让Q表示一组简单的问题。 对于其中的每个问题,将给出相应的头部实体和谓词。
表1:重要的符号和它们的定义
| 符号 | 定义 |
|---|---|
| G | 一个知识图 |
| (h,ℓ,t ) | 一个事实,即(头部实体,谓词,尾部实体) |
| Q | 一组具有基本事实的简单问题 |
| M | G中谓词的总数 |
| N | G中实体的总数 |
| d | 嵌入表示的维度 |
| P \in \Reals^{M\times d} | G中所有谓词的嵌入表示 |
| E \in \Reals^{M\times d} | G中所有实体的嵌入表示 |
| f(\cdot) | 关系函数,给定(h,ℓ,t),有e_t \approx f(e_h,p_ℓ) |
| \hat{P}_\ell \in \Reals^{1\times d} | 预测的谓词表示 |
| \hat{e}_h \in \Reals^{1\times d} | 预测的头部实体表示 |
| HED | 头部实体预测模型 |
| {HED}_{entity} | 由HED返回的头部实体名称tokens |
| {HED}_{non} | 由HED返回的非实体名称tokens |
术语“简单问题”在定义1中定义。如果确定了机器的单个头部实体和单个谓词,则机器可以直接回答简单问题。 给定上述条件,我们现在正式定义基于知识图嵌入的问答题。
给定一个与其所有谓词和实体的名称以及嵌入表示P&E相关的知识图G,关系函数f(·),以及与相应的头部实体和谓词相关的一组简单问题Q,我们旨在设计一种end-to-end框架,它将一个新的简单问题作为输入,并自动返回相应的head实体和谓词。框架的性能通过正确预测头部实体和谓词的准确性来评估。
基于QA-KG的知识嵌入
简单问题构成了QA-KG问题中的大部分问题[2,13]。如果标识了正确的头部实体和谓词,则每个尾部实体都可以回答它们。为了准确地预测头实体和谓词,我们提出了基于知识嵌入的问答机制(KEQA)。其主要思想如图1所示。KG已被嵌入到两个低维空间中,并且每个事实(h,ℓ,t)都可以表示为三个潜在向量,即e_h,p_ℓ, e_t。 因此,给定一个问题,只要我们可以预测其相应事实e_h和p_ℓ,那么这个问题就可以正确回答。
图1:KEQA并没有直接推断头部实体和谓词,而是着眼于在知识图嵌入空间中共同恢复问题的头部实体,谓词和尾部实体表示形式 (\hat{e}_h, \hat{p},\hat{e}_t)。
KEQA通过三个步骤实现目标:(i)基于Q中的问题以及它们的谓词的嵌入,KEQA训练一个谓词学习模型,该模型将问题作为输入并返回位于KG嵌入空间中的向量\hat{p}_ℓ作为预测的谓词表示。类似地,可以构造一个头部实体学习模型来预测问题的头部实体表示\hat{e}_h。(ii)由于KG中的实体数量通常很大,因此KEQA使用Head Entity Detection模型来减少候选的Head实体。主要目标是将问题中的多个标记识别为预测的头部实体名称,然后将搜索空间从整个实体缩减为多个具有相同或相似名称的实体。然后\hat{e}_h主要用于解决歧义性挑战。 iii)给定由KG嵌入算法定义的关系函数f(\cdot),KEQA计算预测的尾部实体表示\hat{e}_t = f(\hat{e}_h,\hat{p}_ℓ)。根据精心设计的联合距离度量(joint distance metrics),将G中最接近的预测事实(\hat{e}_h,\hat{p}_ℓ,\hat{e}_t)作为问题的答案返回。
知识图嵌入
所提出的框架KEQA使用所有谓词P 和实体E 的嵌入表示作为基础结构。 我们利用现有的KG嵌入算法来学习P 和E 。
知识图嵌入[8,36]旨在将KG中的每个谓词/实体表示为低维向量,以便在这些学习的向量中保留KG中的原始结构和关系。现有的大多数KG嵌入方法[7,24,25,38–41]的核心思想可以总结如下。对于G中的每个事实(h,ℓ,t),我们将其嵌入表示表示为e_h,p_ℓ和e_t。嵌入算法随机地初始化e_h,p_ℓ和e_t的值[7,14]或基于训练的单词嵌入模型[26,32]。然后,定义用于测量嵌入空间中的事实(h,ℓ,t)的关系的函数f(\cdot),即,e_t \approx f(e_h,p_ℓ)。例如,TransE[7]将关系定义为e_t \approx e_h + p_ℓ,而TransR[25]将关系定义为e_{t}M_{ℓ} \approx {e_{h}M_{ℓ} + p_ℓ},其中M_ℓ是谓词ℓ的变换矩阵。最后,对于G中的所有事实,嵌入算法都会使e_t与f(e_h,p_ℓ)之间的总距离最小。一种典型的方法是定义基于边距的排名标准,并对正样本和负样本进行训练,即G中不存在的事实和综合事实 。
如图1所示,对于i=1,....,M,我们将一个由学习到的谓词表示{p_i}构成的曲面定义为谓词嵌入空间,对于i=1,....,M,将由{e_i}构成的曲面表示实体嵌入空间。
谓词和头部实体学习模型,
给定一个简单的问题,我们的目标是在谓词嵌入空间中找到一个点作为其谓词表示\hat{p}_ℓ,并在实体嵌入空间中找到一个点作为其头实体表示\hat{e}h。
对于所有可以由G回答的问题,其谓词的向量表示必须位于谓词嵌入空间中。 因此,我们旨在设计一个以问题为输入并返回向量\hat{p}_ℓ的模型,该向量尽可能接近该问题的谓词嵌入表示p_ℓ。 为了实现此目标,采用了一种简单的神经网络架构 ,如图2所示。它主要由双向递归神经网络层和注意层组成。 核心思想是考虑单词的顺序和重要性。 顺序不同的单词可能具有不同的含义,单词的重要性也可能不同。 例如,问题中与实体名称相关的单词通常对谓词学习模型的贡献较小。
图2,提出的谓词和头部实体学习模型架构
基于神经网络的谓词表示学习
为了预测问题的谓词,传统的解决方案是基于语义解析和手动创建的词典来学习映射[3],或者简单地将每种谓词类型视为标签类别,以将其转换为分类问题[29, 35]。 但是,由于最终用户的问题域通常是不受限制的,因此新问题的谓词可能与训练数据Q中的所有谓词都不同。 传统解决方案无法处理这种情况。 此外,我们观察到保留在P和E中的全局关系信息是可用的,并且可以潜在地用于提高总体问题回答的准确性。 为了弥合差距,我们开发了基于神经网络的谓词学习模型。
以长短期记忆(LSTM)[1]作为递归神经网络的典型示例,图2展示了我们提出的解决方案的体系结构。给定一个长度为L的问题,首先我们将其L个令牌映射到单词嵌入向量{x_j}的序列中,对于j=1,...,L,基于一个预先训练的模型,例如GloVe[31]。然后,我们使用双向LSTM [1]来学习前向隐状态序列(\vec{h_1},\vec{h_2},...,\vec{h_L})和后向隐状态序列(\overleftarrow{h_1}, \overleftarrow{h_2},...,\overleftarrow{h_L})。 以后向为例,通过以下等式计算{\overleftarrow{h_j}}:
f_j = \sigma(W_{xf}x_j+W_{hf}\overleftarrow{h}_{j+1}+b_f)............................................................(1)
i_j = \sigma(W_{xi}x_j+W_{hi}\overleftarrow{h}_{j+1}+b_i).............................................................(2)
\omicron_j = \sigma(W_{xo}x_j+W_{ho}\overleftarrow{h}_{j+1}+b_o)...........................................(3)
c_j = f_j\circ c_{j+1}+i_j tanh(W_{xc}x_j+W_{hc}\overleftarrow{h}_{j+1}+b_c)...............................(4)
\overleftarrow{h}_j=o_j \circ tanh(c_j).............................................................................................(5)
其中f_j, i_j和\omicron_j分别是遗忘、输入和输出门的激活向量,c_j是单元状态向量,\sigma和tanh是sigmoid和Hyperbolic正切函数。\circ表示Hadamard乘积。我们将前向和后向的隐藏状态向量连接起来,获得h_j=[\overrightarrow{h}_j;\overleftarrow{h}_j]。
根据以下公式计算第j个令牌(token)的注意力权重,即α_j:
\alpha_j=\frac {exp(q_j)} {\sum_{i=1}^L exp(q_i)}...........................................................(6)
q_j=tanh(w^T[x_j;h_j]+b_q)...............................................................(7)
我们将注意力权重\alpha_j应用到h_j上,将其与词嵌入嵌入x_j连接,得到一个隐状态s_j=[x_j;\alpha_j h_j]。然后将一个全连接层应用到s_j上,将其结果r_j \in \Reals^{d\times1}作为第j个token的目标向量。谓词预测表示\hat{p}_\ell被计算为所有token目标向量的均值,即:
\hat{p}_\ell = \frac {1} {L} \sum_{j=1}^{L}{r_j^T}.............................................................(8)
所有权重矩阵,权重向量w和偏差项都是根据训练数据(即Q中的问题及其谓词的嵌入表示)来计算的。
基于神经网络的头部实体学习模型
给定一个问题,而不是直接推断head实体,我们的目标是恢复其在KG嵌入空间中的表示。 因此,头部实体学习模型的目标是计算向量\hat{e}_h,该向量应尽可能接近该问题的头部实体嵌入表示。 类似于\hat{p}_ℓ的计算,我们使用图2中相同的神经网络架构来获得预测的头部实体表示\hat{e}_h。
但是,KG中的实体数量通常很多,将\hat{e}_h与E中的所有实体嵌入表示进行比较时,可能会费力且噪音很多。为了使学习更加有效,KEQA采用了头部实体检测模型来减少候选主实体的数量。
头部实体检测模型
在这一步骤中,我们的目标是选择一个问题中的一个或几个连续的记号作为标题实体的名称,以便可以将搜索空间从整个实体缩减为多个具有相同或相似名称的实体。 这样,\hat{e}_t的主要作用将变成处理歧义性的挑战。
为了简化我们的框架,我们采用了双向循环token检测任务。 这种头部实体检测(HED)模型的体系结构如图3所示。它的结构与谓词/头部实体学习模型中的结构相似,但没有关注层。 对于j=1,...,L,我们首先将问题映射到单词嵌入向量{xj}的序列中,然后将双向递归神经网络应用于x_j以学习h_j=[\overrightarrow{h}_j;\overleftarrow{h}_j]。 然后将完全连接层和softmax函数应用于h_j,得到目标向量r_j \in \Reals^{2\times1}。 v_j中的两个值对应于第j个token属于两个标签类别的概率,即实体名称令牌(entity name token)和非实体名称令牌(non entity name token)。 通过这种方式,我们将每个标记分类,并将一个或多个标记识别为头实体名称。 我们将这些token表示为{HED}_{entity},并将问题中的其余token表示为{HED}_{non}。

图3:头部实体检测(HED)模型架构图
我们使用Q中的问题及其主实体名称作为训练数据来训练HED模型。 由于这些问题中的实体名称标记是连续的,因此训练后的模型也很有可能将连续的标记作为{HED}_{entity}返回。 如果返回离散的{HED}_{entity},则每个连续的部分将被视为独立的头部实体名称。 应该注意的是,{HED}_{entity}可能只是正确的头实体名称的一部分。 因此,所有与{HED}_{entity}相同或包含{HED}_{entity}的实体都将被包括在内作为候选的头实体,这可能仍然很大,因为许多实体在一个大的KG中会共享相同的名称。
联合搜索嵌入空间
对于每一个新的简单问题,我们已经预测了它的谓词和头部实体表示,即\hat{p}_\ell和\hat{e}_h,以及它的候选头部实体。我们的目标是在G中发现一个事实,即能够最大匹配那些学到的表示和候选实体。
联合距离矩阵
如果一个事实的头部实体属于候选头部实体,那么我们将其称为一个候选事实。令C是收集所有候选事实的一个集合。为了度量一个候选事实(h,ℓ,t)和预测的表示之间的距离,一个直观的解决方案是把(h,ℓ,t)表示为(e_h,p_ℓ)并且定义距离矩阵,作为e_h和\hat{e}_h之间的距离和p_ℓ和\hat{p}_\ell之间的距离之和。然而,这个解决方案没有考虑到KG嵌入表示中保留的有意义的关系信息。
我们提出了一个联合距离度量,利用了关系信息e_t \approx f(e_h, p_\ell)的优势。数学上,提出的联合距离度量定义为:
{minimize}_{{h,\ell,t}\in C} ||p_\ell-\hat{p}_\ell||_2+\beta_1||e_h-\hat{e}_h||_2+\beta_2||f(e_h,p_\ell)-\hat{e}_t||_2-\beta_3sim[n(h),HED_{entity}]-\beta_4sim[n(\ell),HED_{non}]......(9)
其中\hat(e)_t=f(\hat{e}_h,\hat{p}_\ell)。函数n(\cdot)返回一个实体或谓词的名称。HED_{entity}和HED_{non}由HED模型定义的被分为为实体名称和非实体名称的token。函数sim[\cdot,\cdot]度量了两个字符串的相似性。\beta_1,\beta_2,\beta_3,\beta_4是预定义的权重,用来平衡每个term的贡献。·本文中,我们使用\ell_2范式度量这个距离,并且它可以直接扩展到其他向量距离度量。
首先等式9中的三个term度量了在一个KG嵌入空间中一个事实(h,ℓ,t)与我们预测的之间的距离。我们使用f(e_h,p_\ell)来表示尾部实体的嵌入向量,而不是e_t。这是因为,在KG中,可能有多个事实,它们具有相同的头部实体和谓词,但是不同的尾部实体。因此,一个单独的尾部实体e_t可能无法回答问题。与此同时,f(e_h,p_ℓ)匹配预测的尾部实体\hat{e}_t,因为它也基于f(\cdot)推断出来。我们倾向于选择一个事实,其头实体名称与HED_{entity}完全相同,并且问题提及谓词名称。 我们通过等式9中的第四和第五项来分别实现这两个目标。 返回使目标函数最小化的事实(h^∗,ℓ^∗,t^∗)。
基于知识嵌入的问答
在算法1中总结了KEQA的整个过程。给定一个KG和一个带有相应答案的问题集Q,我们训练谓词学习模型,一个头部实体学习模型和一个HED模型,如第1行到第9行所示。 对于任何新的简单问题Q,我们将其输入到经过训练的谓词学习模型,头部实体学习模型和HED模型中,以学习其预测的谓词表示\hat{p}_ℓ,头部实体表示\hat{e}_h,实体名称标记HED_{entity}和非实体名称标记HED_{non} 。 基于HED_{entity}中学习到的实体名/名称,我们搜索整个G以找到候选事实集C。对于C中的所有事实,我们根据等式9中的目标函数计算它们与预测的表示形式的联合距离(\hat{e}_h,\hat{p}_ℓ,\hat{e}_t) 。 选择具有最小距离的事实(h^∗,ℓ^∗,t^∗)。 最后,我们返回头部实体h^*和ℓ^∗谓词作为Q的答案。

算法1:KEQA 框架
总之,提出的框架KEQA具有几个不错的特性。 首先,通过基于KG嵌入执行问题回答,KEQA能够使用与训练数据中所有谓词和实体不同的谓词和实体来处理问题。 其次,通过利用KG嵌入表示中保留的结构和关系信息,KEQA可以联合执行头实体,谓词和尾实体预测。 这三个子任务将相互补充。 第三,KEQA可推广到不同的KG嵌入算法。 因此,可以通过更复杂的KG嵌入算法来进一步提高KEQA的性能。
实验
我们在大型QA-KG基准上评估所提出框架KEQA的有效性和可推广性。 在本节中,我们旨在研究以下三个研究问题:
- Q1:与目前最先进的QA-KG方法相比,KEQA的效果如何。 不同的freebase子集呢?
- Q2:当采用不同的KG嵌入算法时,KEQA的性能如何变化?
- Q3:KEQA的目标函数包括五个项,如等式9所示。每项贡献多少?
数据集
我们首先介绍实验中使用的知识图子集和问答数据集。 所有数据都是公开可用的。 其统计信息如表2所示。

FB2M和FB5M [19] :Freebase通常被视为可靠的KG,因为它主要是由社区成员收集和整理的。 本文使用了两个较大的Freebase子集,即FB2M和FB5M。 表2中列出了它们的谓词编号M和实体编号N。重复的事实已被删除。 Freebase的应用程序编程接口(API)不再可用。 因此,我们使用实体名称collection3来建立实体及其名称之间的映射。
SimpleQuestions [6] :它包含与相关事实相关的一万多个简单问题。 所有这些事实都属于FB2M。 所有问题均由讲英语的人根据事实和上下文来表述。 它已被用作最近的QA-KG方法的基准[6,18,29]。
实验环境设置
为了评估QA-KG方法的性能,我们遵循传统设置[10、27、46],并使用与SimpleQuestions [6]中最初提供的相同的训练集,验证集和测试集。 将FB2M或FB5M用作KG G。然后将KG嵌入算法(例如TransE [7]和TransR [25])应用于G来学习P和E。应注意,P和E不是额外的信息资料来源。 然后,使用QA-KG方法来预测测试集中每个问题的标题实体和谓词。 它的性能通过正确预测首部实体和谓词的准确性来衡量。
正如我们在正式问题定义中所主张的那样,评估标准是指预测新问题的准确性(正确的主谓和正确的谓词)。 KG嵌入表示d的维数设置为250。使用基于GloVe [31]的预训练词嵌入。 为了测量两个字符串的相似性,即构建函数sim,我们使用实现Fuzzy(https://pypi.org/project/Fuzzy/)。 如果不是特定的,则将使用KG嵌入算法TransE [7]来学习所有谓词P和实体E的嵌入表示。
KEQA的有效性
现在,我们回答本节开始时提出的第一个研究问题,即KEQA有多有效。 我们包括7种最新的QA-KG算法和KEQA的一种变体作为基准:
- Bordes等[6]:它根据训练问题学习单词,谓词和实体的潜在表示形式,以便可以将新问题和候选事实投影到同一空间中并进行比较。
- Dai等[10]:它使用基于双向门控递归单元的神经网络对候选谓词进行排名。 使用了来自freebase API的建议。
- Yin等[46]:它使用字符级卷积神经网络来匹配问题和谓词。
- Golub和He[18]:它设计了一个字符级和基于注意力的LSTM来编码和解码问题。
- Bao等[2]:它手动定义了几种约束类型,并执行约束学习以处理复杂的问题,其中每个问题与多个事实有关。 使用了额外的训练问题和freebase API。
- Lukovnikov等[27]:它利用字符级门控循环单元神经网络将问题和谓词/实体投射到同一空间中。
- Mohammed等[29]:将谓词预测视为分类问题,并使用不同的神经网络对其进行求解。 它基于Fuzzy执行实体链接。
- KEQA_noEmbed:不使用KG嵌入算法。 相反,它随机生成谓词和实体嵌入表示P和E。
如上面的导言所示,所有基线都利用了深度学习模型来改进其方法。 我们使用他们在相应论文或作者的实现中报告的结果。 在SimpleQuestions上不同方法的性能,即FB2M和FB5M,在表3中列出:

正如其他几项工作[27,29]所述,一些算法[10,46]实现了高精度,但是它们要么使用了额外的信息源,要么没有可用的实现[35,47]。 额外的训练数据freebase API建议,freebase实体链接结果和训练有素的细分模型。 它们依赖于不再可用的freebase API。 相反,我们的框架KEQA使用了不完整的实体名称collection(https://github.com/zihangdai/CFO)。 因此,对于Dai等人[10]和Yin等人[46],我们报告了它们结果,当不使用额外的训练数据时。有两项工作[35,47]声称精度更高,但没有公开可用的实现。我们无法复制它们,其他工作也指出了这一点[29]。
从表3的结果中,我们得出三个结论。 首先,提出的框架KEQA优于所有基准。 与发布SimpleQuestions时的准确性相比,KEQA的准确性提高了20.3%[6]。 其次,与KEQA_noEmbed相比,KEQA的准确性提高了3.1%。 它表明单独的任务KG嵌入确实可以帮助回答问题。 第三,当应用于FB5M时,KEQA的性能下降0.7%。 这是因为所有基础事实都属于FB2M [6],而FB5M的事实比FB2M多26.1%。
通过共同预测问题的谓语和主语,KEQA的准确性为0.754。 在谓词预测子任务中,KEQA在验证集上的精度为0.815,这比Mohammed等人最近获得的精度0.828差[29]。 这种差距表明我们的框架可能会通过更复杂的模型得到进一步改善。 然而,KEQA仍然优于Mohammed等[29]在简单的问答任务中。 这证实了我们提议的共同学习框架的有效性。 通过共同学习,在测试集和FB2M上,KEQA预测头实体的准确性为0.816,预测头实体和谓词的准确性为0.754,预测整个事实的准确性为0.680。 这意味着FB2M中不存在某些ground truth事实。
泛化能力和鲁棒性评估
KEQA的泛化能力。
为了研究使用不同的KG嵌入算法时KEQA的通用性,我们在比较中包括了三种可扩展的KG嵌入方法。 详细介绍如下:
- KEQA_TransE:TransE[7]被用来执行KG嵌入。它是一种典型的基于translation的方法。它定义一个关系函数为e_t \approx f(e_h,p_\ell)=e_h+p_\ell,并且然后执行基于边距的排名,使所有事实方法都满足关系函数。
- KEQA_TransH:TransH[39]被用来执行KG嵌入。TransH和TransE类似,定义关系函数为e_{t}^{\perp} \approx e_h^\perp +p_\ell,其中e_t^\perp = e_t-m_{\ell}^{\perp}e_t m_\ell,并且m_\ell是谓词\ell的超平面。
- KEQA_TransR:TransR[25]与TransE类似,定义关系函数为e_tM_\ell \approx e_h M_\ell +p_\ell,其中M_\ell是\ell的变换矩阵(transform matrix)。
表4显示了不使用KG嵌入和不使用KG嵌入算法时KEQA的性能。从结果来看,我们有三个主要观察结果。 首先,KG嵌入算法提高了KEQA的性能。 例如,与KEQA_noEmbed相比,基于TransE的KEQA可获得3.1%的改进。 其次,当使用不同的KG嵌入算法时,KEQA具有相似的性能。 它证明了KEQA的推广性。 第三,即使不使用KG嵌入,KEQA仍可以达到与表3所示的最新QA-KG方法相当的性能。它证明了KEQA的鲁棒性。 随机生成的P和E可以达到可比性能的原因是,它倾向于使所有pℓ均匀分布并且彼此远离。 这会将表示预测问题转换为类似于分类任务的问题。

KEQA的鲁棒性
为了进一步验证KEQA的鲁棒性,我们重新组合了SimpleQuestions中的所有108,442个问题,并获得了一个名为SimpleQ_Missing的新数据集。 为了执行改组,我们将所有谓词类型随机分为三组,并根据谓词将问题分配给这些组。 因此,在SimpleQ_Missing中,训练和验证拆分中从未提及测试拆分中所有相应的谓词。 最后,我们在训练分组中获得75,474个问题,在验证分组中获得11,017个问题,在测试分组中获得21,951个问题,其比率与SimpleQuestions中的比率大致相同。 表4显示了在SimpleQ_Missing上使用不同KG嵌入算法的KEQA的性能。
从表4的结果中,我们可以看到,借助TransE,KEQA仍可以达到0.418的精度。 KG嵌入表示P和E中保留的全局关系和结构信息使KEQA的性能比Random高8.3%。 这些观察证明了KEQA的鲁棒性。
参数分析
现在,我们研究KEQA的目标函数中的每个术语可以贡献多少。 如等式9所示,我们的目标函数中有五项。 我们确认KEQA的表现,也就是三组不同的术语组合。 为了研究等式9中每个单项的贡献。在第一组,即Only_Keep中,我们仅保留五个项之一作为新的目标函数。 为了研究缺少五个术语之一的影响,在第二组中,即“删除”,我们删除了五个术语之一。 为了研究累积的贡献,在第三组(即累积)中,我们逐项添加术语作为新的目标函数。 KEQA的表现,FB2M上不同的目标函数组如表5所示。

根据表5的结果,我们有三个主要观察结果。 首先,预测谓词表示\hat{p}_ℓ在我们的框架中具有最重要的作用。 第一项单独达到0.728的精度。 这是因为谓词的数量1837比训练问题的数量75910小得多。 其次,预测的头部实体表示\hat{e}_h可以在联合学习中补充\hat{p}_ℓ。 使用\hat{e}_h时,精度从0.728提高到0.745。 由于实体的总数N太大,例如FB2M中的N = 1,963,115,第二项单独使用获得了低的精度。 第三,谓词名称n(ℓ)将KEQA的性能提高1.1%。 可以用以下事实来解释:某些话语与相应的谓语名称共享一些单词。
相关工作
KG上的基于嵌入的问题解答最近引起了很多关注。它与我们提出的基于KG嵌入的问题回答问题有关,但与我们提出的问题不同。前者依赖于在QA-KG方法训练中获得的低维表示。后者首先执行KG嵌入以学习低维表示,然后执行QA-KG任务。 Yih[45]和Bao[2]将问答问题重新表述为特定子图的生成。建议进行一系列工作[5、6、9、11、12、21、27、43、44],以根据训练问题将问题和候选答案(或整个事实)投影到统一的低维度空间中,并进行测量他们的匹配得分是由他们的低维度表示之间的相似性决定的。 Bordes等[5,6,9]基于训练问题和问题释义[16],通过学习所有单词,谓词和实体的低维表示来实现这一预测。杨等[43,44]通过使用问题和潜在事实的逻辑属性(例如语义嵌入和实体类型)实现了这一预测。几种基于深度学习的模型[10、12、21、27、46]通过将问题中的单词输入到卷积神经网络[12、46],LSTM网络[18、21]或门控递归单元神经网络[10,27]中来实现这一预测。Das等[11]通过使用矩阵分解将语料库合并到KG中,并用LSTM提出了一个问题,实现了这一预测。这些模型大多数依赖于基于边距的排名目标函数来学习模型权重。还探索了一些工作[15、18、27、46],以利用字符级神经网络来提高性能。最近,Mohammed等[29]和Ture等[35]将每个谓词视为标签类别,并通过深度分类模型执行谓词链接。
知识图嵌入的目标是将高维KG表示为潜在谓词以及实体表示P和E。Bordes等[8]通过为每种类型的谓词ℓ构建两个变换矩阵M_{head}和M_{tail},并以ℓ为谓词,使所有事实(h,ℓ,t)的投影M_{head}e_h和M_{tail}e_t之间的距离最小,从而实现了这一目标。 Bordes等[7]设计了一个基于变换的模型TransE。它训练了两个矩阵P和E,目的是对于所有事实(h,ℓ,t)的整体距离\sum ||e_h+p_ℓ-e_t||_2^2最小。由TransE其他,一系列基于变换的模型[24、25、39]被提出。Wang等[39]提出TransH处理一对多或多对一关系。TransH不是直接测量e_h和e_t之间的距离,而是将它们投影到谓词特定的超平面中。Lin等[25]提出了TransR,对于每一个谓词ℓ定义一个转换矩阵M_ℓ,并目标是最小化\sum ||e_h M_ℓ+p_ℓ-e_t M_ℓ||_2^2。Lin等[24]提出了PTransE,其通过考虑多跳关系来优化TransE.
还致力于将语料库中的语义信息合并到KG嵌入中。 Socher等[32]和Long等[26]证明了使用预训练的词嵌入来初始化KG嵌入方法将提高性能。 通过考虑语料库中的关系提及[14、40],或通过将谓词/实体表示投影到从主题模型中学到的语义超平面中,探索了一些工作[14、40、41]来推进TransE。 尝试[37,38,50]分别应用TransE和word2vec[28]分别为KG和语料库建模,然后基于Wikipedia[38],实体描述[50]或上下文中的锚点将它们融合。从语料库学到的谓语/实体词[37]。 张等[48]通过负采样联合嵌入了KG和语料库[28]。 谢等[42]和范等[17]探索了实体描述中的语义信息,以促进KG嵌入。
总结与展望
知识图上的问题解答是一个关键问题,因为它使常规用户可以通过自然语言轻松访问大型知识图中有价值但复杂的信息。 这也是一个具有挑战性的问题,因为谓词可能具有不同的自然语言表达。 对于机器而言,很难捕获其语义信息。 另外,即使假设问题的实体名称正确识别,实体名称和部分名称的歧义仍然会使候选实体的数量变大。
为了弥合差距,我们研究了一种基于问答的新型知识图嵌入方法,并设计了一种简单有效的框架KEQA。它旨在解决简单的问题,即QA-KG中最常见的问题类型。 KEQA提议在KG嵌入空间中共同恢复问题的头部实体,谓词和尾部实体表示,而不是直接推断头部实体和谓词。基于注意力的双向LSTM模型用于执行谓词和头部实体表示学习。由于与KG中的所有实体进行比较既昂贵又嘈杂,因此使用头实体检测模型来选择问题中的后续标记作为头实体的名称,这样候选头实体集将减少为多个具有相同或相似名称的实体。给定预测事实\hat{e}_h,\hat{p}_ℓ,\hat{e}_t,可以使用精心设计的联合距离度量标准来度量其与所有候选事实的距离。返回最小距离的事实作为答案。大型基准测试表明,KEQA的性能要优于所有最新方法。
在未来的工作中,我们计划研究后续的未解决问题。(i)KEQA根据预先训练的KG嵌入执行问题回答。 我们如何通过联合进行KG嵌入和问题解答来提高它?(ii)现实世界中的知识图谱和训练问题通常会动态更新。 我们如何扩展我们的框架来处理这种情况?
参考文献
[1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015.Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR.
[2] Junwei Bao, Nan Duan, Zhao Yan, Ming Zhou, and Tiejun Zhao. 2016. Constraint- Based Question Answering with Knowledge Graph. In COLING. 2503–2514.
[3] Jonathan Berant, Andrew Chou, Roy Frostig,and Percy Liang.2013. Semantic Parsing on Freebase from Question-Answer Pairs. In EMNLP. 1533–1544.
[4] Roi Blanco, Giuseppe Ottaviano, and Edgar Meij. 2015. Fast and Space-Efficient Entity Linking for Queries. In WSDM. 179–188.
[5] Antoine Bordes, Sumit Chopra, and Jason Weston. 2014. Question Answering with Subgraph Embeddings. In EMNLP. 615–620.
[6] Antoine Bordes, Nicolas Usunier, Sumit Chopra, and Jason Weston. 2015. Large- Scale Simple Question Answering with Memory Networks. arXiv preprint arXiv:1506.02075 (2015).
[7] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Ok-sana Yakhnenko. 2013. Translating Embeddings for Modeling Multi-relational Data. In NIPS. 2787–2795.
[8] Antoine Bordes, Jason Weston, Ronan Collobert, and Yoshua Bengio. 2011. Learn-in Structured Embeddings of Knowledge Bases.
In AAAI.
[9] Antoine Bordes, Jason Weston, and Nicolas Usunier. 2014. Open Question An- swering with Weakly Supervised Embedding Models. In ECML PKDD. 165–180.
[10] Zihang Dai, Lei Li, and Wei Xu. 2016. CFO: Conditional Focused Neural Question Answering with Large-Scale Knowledge Bases. arXiv preprint arXiv:1606.01994 (2016).
[11] Rajarshi Das, Manzil Zaheer, Siva Reddy, and Andrew McCallum. 2017. Question Answering on Knowledge Bases and Text using
Universal Schema and Memory Networks. In ACL.
[12] Li Dong, Furu Wei, Ming Zhou, and Ke Xu. 2015. Question Answering Over Freebase With Multi-Column Convolutional Neural Networks. In ACL-IJCNLP. 260–269.
[13] Anthony Fader, Luke Zettlemoyer, and Oren Etzioni. 2013. Paraphrase-Driven Learning for Open Question Answering. In ACL. 1608–1618.
[14] Miao Fan, Kai Cao, Yifan He, and Ralph Grishman. 2015. Jointly Embedding Relations and Mentions for Knowledge Population. In RANLP. 186–191.
[15] Miao Fan, Yue Feng, Mingming Sun, Ping Li, Haifeng Wang, and Jianmin Wang. 2018. Multi-Task Neural Learning Architecture for End-to-End Identification of Helpful Reviews. In ASONAM. 343–350.
[16] Miao Fan, Wutao Lin, Yue Feng, Mingming Sun, and Ping Li. 2018. A Globalization- Semantic Matching Neural Network for Paraphrase Identification. In CIKM. 2067– 2075.
[17] Miao Fan, Qiang Zhou, Thomas Fang Zheng, and Ralph Grishman. 2017. Dis- tributed Representation Learning for Knowledge Graphs with Entity Descriptions. Pattern Recognition Letters 93 (2017), 31–37.
[18] David Golub and Xiaodong He. 2016. Character-Level Question Answering with Attention. In EMNLP. 1598–1607.
[19] Google. 2018. Freebase Data Dumps. https://developers.google.com/freebase.
[20] Dilek Hakkani-Tür, Asli Celikyilmaz, Larry Heck, Gokhan Tur, and Geoff Zweig. 2014. Probabilistic Enrichment of Knowledge Graph Entities for Relation Detec- tion in Conversational Understanding. In INTERSPEECH.
[21] Yanchao Hao, Yuanzhe Zhang, Kang Liu, Shizhu He, Zhanyi Liu, Hua Wu, and Jun Zhao. 2017. An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge. In ACL. 221–231.
[22] Jens Lehmann, Robert Isele, Max Jakob, Anja Jentzsch, Dimitris Kontokostas, Pablo N Mendes, Sebastian Hellmann, Mohamed Morsey, Patrick Van Kleef, Sören Auer, et al. 2015. DBpedia–A Large-Scale, Multilingual Knowledge Base Extracted From Wikipedia. Semantic Web 6, 2 (2015), 167–195.
[23] Dingcheng Li, Jingyuan Zhang, and Ping Li. 2018. Representation Learning for Question Classification via Topic Sparse Autoencoder and Entity Embedding. In IEEE Big Data.
[24] Yankai Lin, Zhiyuan Liu, Huanbo Luan, Maosong Sun, Siwei Rao, and Song Liu. 2015. Modeling Relation Paths for Representation Learning of Knowledge Bases. In EMNLP. 705–714.
[25] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In AAAI. 2181–2187.
[26] Teng Long, Ryan Lowe, Jackie Chi Kit Cheung, and Doina Precup. 2016. Leverag- ing Lexical Resources for Learning Entity Embeddings in Multi-Relational Data.In ACL. 112–117.
[27] Denis Lukovnikov, Asja Fischer, Jens Lehmann, and Sören Auer. 2017. Neural Network-Based Question Answering over Knowledge Graphs on Word and Character Level. In WWW. 1211–1220.
[28] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed Representations of Words and Phrases
and Their Compositionality. In NIPS. 3111–3119.
[29]Salman Mohammed, Peng Shi, and Jimmy Lin. 2018. Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks. In NAACL-HLT. 291–296. https://github.com/castorini/BuboQA
[30] Aasish Pappu, Roi Blanco, Yashar Mehdad, Amanda Stent, and Kapil Thadani. 2017. Lightweight Multilingual Entity Extraction and Linking. In WSDM. 365– 374.
[31] Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. GloVe: Global Vectors for Word Representation. In EMNLP. 1532–1543.
[32]Richard Socher, Danqi Chen, Christopher D. Manning, and Andrew Y. Ng. 2013. Reasoning with Neural Tensor Networks
for Knowledge Base Completion. In NIPS. 926–934.
[33]Fabian M Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. YAGO: A Core of Semantic Knowledge. In WWW. 697–706.
[34] Yi Tay, Anh Tuan Luu, Siu Cheung Hui, and Falk Brauer. 2017. Random Semantic Tensor Ensemble for Scalable
Knowledge Graph Link Prediction. In WSDM. 751– 760.
[35] Ferhan Ture and Oliver Jojic. 2017. No Need to Pay Attention: Simple Recurrent Neural Networks Work!. In EMNLP. 2866–2872.
[36] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo. 2017. Knowledge Graph Embedding: A Survey of Approaches and Applications. TKDE 29, 12 (2017), 2724–2743.
[37] Zhigang Wang and Juanzi Li. 2016. Text-Enhanced Representation Learning for Knowledge Graph. In IJCAI. 1293–1299.
[38]Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge Graph and Text Jointly Embedding. In EMNLP. 1591–1601.
[39]Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge Graph Embedding by Translating on Hyperplanes. In AAAI.
[40]Jason Weston, Antoin Bordes, Oksana Yakhnenko, and Nicolas Usunier. 2013. Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction.In EMNLP. 1366–1371.
[41]Han Xiao, Minlie Huang, Lian Meng, and Xiaoyan Zhu. 2017. SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions. In AAAI. 3104–3110.
[42]Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, and Maosong Sun. 2016. Rep- resentation Learning of Knowledge Graphs with Entity Descriptions. In AAAI. 2659–2665.
[43]Min-Chul Yang, Nan Duan, Ming Zhou, and Hae-Chang Rim. 2014. Joint Rela- tional Embeddings for Knowledge-Based Question Answering. In EMNLP. 645– 650.
[44]Min-Chul Yang, Do-Gil Lee, So-Young Park, and Hae-Chang Rim. 2015. Knowledge-Based Question Answering Using the Semantic
Embedding Space. Expert Systems with Applications 42, 23 (2015), 9086–9104.
[45]Scott Wen-tau Yih, Ming-Wei Chang, Xiaodong He, and Jianfeng Gao. 2015. Semantic Parsing via Staged Query Graph Generation:
Question Answering with Knowledge Base. In ACL-IJCNLP.
[46]Wenpeng Yin, Mo Yu, Bing Xiang, Bowen Zhou, and Hinrich Schütze. 2016. Simple Question Answering by Attentive Convolutional
Neural Network. In COLING. 1746–1756.
[47]Mo Yu, Wenpeng Yin, Kazi Saidul Hasan, Cicero dos Santos, Bing Xiang, and Bowen Zhou. 2017. Improved Neural Relation Detection for Knowledge Base Question Answering. In ACL. 571–581.
[48]Dongxu Zhang, Bin Yuan, Dong Wang, and Rong Liu. 2015. Joint Semantic Relevance Learning with Text Data and Graph Knowledge. In Workshop on Continuous Vector Space Models and their Compositionality. 32–40.
[49]Fuzheng Zhang, Nicholas Jing Yuan, Defu Lian, Xing Xie, and Wei-Ying Ma. 2016. Collaborative Knowledge Base Embedding for Recommender Systems. In KDD. 353–362.
[50]Huaping Zhong, Jianwen Zhang, Zhen Wang, Hai Wan, and Zheng Chen. 2015. Aligning Knowledge and Text Embeddings by Entity Descriptions. In EMNLP. 267–272.
