Advertisement

论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

阅读量:

文章目录

  • abstract

  • 1.introduction

  • 2.相关工作

    • 2.1 关系提取
    • 2.2 KG embedding
    • 2.3 GCNN
  • 3. 方法

    • 3.1符号
    • 3.2框架
      • 3.2.1 Instance Encoder
  • 3.4 基于关系的知识学习通过知识图谱嵌入与图神经网络。

  • 3.5 基于知识的注意力机制。

    • 4.实验
      • 4.1 数据集
      • 4.3 result
      • 4.4 长尾关系的处理
      • 4.5 ablation

[Zhang et al., 2019]在NAACL上发表了一篇关于长尾关系抽取的研究论文。
[该代码库]可从GitHub获取用于长尾关系抽取的研究代码。

abstract

本研究开发了一种基于长尾不均衡数据分布的远程监督关系提取系统。研究的主要挑战在于如何通过有限标记样本准确学习尾部类别的特征。我们受到尾部数据与顶端数据之间丰富语义关联的影响,在这一过程中主要关注于整合顶端类别知识网络以解决尾部类别稀疏性问题。为了实现这一目标, 我们主要采用以下两种技术路径:第一, 通过图卷积网络构建显式关系知识表示;第二, 主要利用图卷积网络来构建显式关系知识表示。
首先, 我们主要采用图嵌入方法对分类器标签之间的隐式关联进行建模;其次, 通过设计粗到细的知识感知注意力机制来实现跨层次关联信息的有效融合;最后, 将所提取的知识模块集成到关联抽取模型中以提升其性能表现。

  • 主要应用于:长尾不平衡数据

  • long-tail:对应于正态分布曲线尾部的那一部分区域,表现出较少的数据样本

  • 方法:远程监督

  • 挑战:

    • 长尾分布的数据稀缺性
      • 现有远程监督方法忽视了这一关键点,在这种情况下很难系统性地提取完整的语义信息
      • 长尾分布不容忽视:在NYT等主流媒体中约有70%的文章涉及到了(Riedel et al., 2010; Lei et al., 2018)
      • 如何在训练数据有限的情况下有效提升模型性能?
  • 启发:长尾数据与分布顶端数据之间具有丰富的语义关联。

  • 解决:通过利用顶层数据能够提升底层数据的表现。

  • 如果语义上存在相似性,则可进行转换。

  • 这种方法有助于增强关系覆盖范围,并缩小潜在的搜索空间。

  • 这一发现降低了对不确定性因素的影响(Ye et al., 2017)。

  • 举例而言,在一对实体中若包含"人"、"死者的身份"以及"死亡地点(多个)",

  • 可能会发现它们也包含"人"、"死者的身份"以及"埋葬地点(较少)"。

  • 面临两个主要问题:
    ** 一是关系知识的学习可能导致负面迁移;
    ** 二是如何有效利用这些已有的关系知识仍具挑战性。
    ** 将这些关系知识整合到现有模型中同样面临挑战。

  • 具体方法

  • 编码器(Instance Encoder):

    • 使用基于CNN的模型(Zeng及其团队在2014和2015年发表的相关研究)进行编码
      输入是一个实例及其实体提及对
      将其语义表示为一个向量
  • 关系知识学习(Relation Knowledge Learning):

    • 预训练表示通过从知识图谱中提取隐含的关系信息来进行构建。
  • (Yang等人, 2015)研究表明,语义相似性与向量表示之间的相似性呈显著关联。

  • 采用TransE模型(Bordes等人, 2013)。

  • 通过整合消息传递推理机制与神经网络模型,我们能够获得更为优化的关系表示。

  • 通过GCN模型提取显式的关联信息

  • KGs中存在多种对一的关系,并由于数据稀疏性导致缺乏足够的关联信号

  • GCN模型被用来提取关联信息

    复制代码
    * 输出:concate(GCN输出,KG embedding)
  • knowledge-aware attention

    • 利用从粗到细的注意力机制将关系知识和编码句子整合进模型中
    • 目标:选择与信息圈圈匹配的最informative instance
  • 优势

  • 关系知识:

    • 丰富了关系预测的信息来源
    • 有助于优化注意力机制以提升长尾类别的性能

1.introduction

在信息抽取领域中,关系抽取是一项具有重要意义的工作。它的主要目标是通过分析两个实体之间相关的上下文来确定它们之间的关联。由于有效提取文本中的关键信息,在包括信息检索、对话生成以及问题回答等领域的多个NLP应用中得到了广泛应用。这一技术的广泛应用也吸引了大量研究者的关注。

  • 传统的监督模型在这一任务中被广泛研究(Zelenko等人, 2003; Zeng及其团队, 2014);然而, 它们的性能在很大程度上受到训练数据量大小及质量的影响程度。

  • 远程监督方法(Distant supervision, DS)

  • 用于构建大规模的数据集

  • (Mintz等人, 2009)提出了利用知识图谱与文本对齐的方法

  • 并通过主动标注训练实例

    • (Wu et al., 2017;Feng等,2018)

为了构建大规模的数据集,(Mintz et al., 2009)提出了一种新的远程监控(distance-based supervision, DS)机制,通过整合现有知识图谱(Knowledge Graphs, KGs)与文本对齐的技术,从而实现对训练实例的自动标注。这些DS机制使得RE模型能够在规模庞大的训练语料库上有效运行,因此成为当前RE研究的主要方法(Wu et al., 2017;冯等, 2018)。尽管这些DS机制在应用效果方面表现出色,但在某些领域或特定的关系类型中,当其训练样本量较小时,性能仍易受到显著影响。基于实践经验分析可知,这类DS机制能够自主标注足够数量的学习样本;然而,所获得的数据通常仅覆盖各领域知识的一个有限片段。许多领域都涉及长尾分布的关系模式,而现有研究仍未能有效应对这类挑战性问题。现有的DS机制尚未充分考虑长尾分布的问题。

  • 当前的远程监督方法未能充分考虑long-tail分布的特点,在实际应用中往往导致难以系统性地获取完整的语义信息。
  • long-tail问题不可忽视:在《纽约时报》等主流媒体中占据了约70%的文章涉及(Riedel et al., 2010; Lei et al., 2018)的内容。

处理长尾实体非常具有挑战性(Wang et al., 2017),因为这些实体通常仅有有限数量的数据支持。鉴于此,在知识迁移方面的一个自然策略是从富含语义且丰富的头部实体类别向相对缺乏实例的数据稀疏尾实体类别转移知识(Wang et al., 2017)。例如, 长尾关系/人/死者/埋葬地与头关系/人/死者/死亡地属于同一分支树干上的不同节点,如图2所示。它们在语义上是相似的,能够利用头部知识将其转换为长尾关系类别是有益的,从而显著提升了整体性能水平(Ye et al., 2017)。换句话说,一个实体元组中的长尾关系可能涉及两类:一类是与之相关的头部实体之间的关联,另一类则是直接与该实体相关的其他属性或事件的关系(Ye et al., 2017)。值得注意的是,如果一对实体包含相同的关系类型,比如死亡地点,那么它们之间很可能还存在埋葬地点这一隐含的关系类型(Ye et al., 2017)。如果能够整合这两种类型的知识,提取出共同的核心信息作为头部知识,那么这将为我们预测未知的关系提供重要的依据。

  • 顶层长尾关系

  • 如果语义上相似,则可转换

  • 这种方法有助于提升RE性能,并缩小潜在的搜索空间的同时减少关系间的不确定性(Ye et al., 2017)

  • 例如:如果一对实体包含"人"、"死者"及"死亡地点"(多个),则很可能也包含"人"、"死者"及"埋葬地点"(较少)

  • 存在两个主要问题

  • 关系知识的学习可能会带来负面迁移的影响

  • 将这些知识整合到现有的基于关系提取的模型中同样面临诸多挑战

    • 如何做
      • 利用KGembedding->提取隐式
    • (Yang et al。,2015):语义相近,嵌入相近
  • 基于GCN实现明确的关系表示

    • 在知识图谱中存在多对一关系,并由于数据资源的稀缺性导致缺乏足够的语义关联信息。
    • 采用基于GCN的技术框架进行学习与推理任务。

然而,在学习与应用知识方面也面临着两个主要挑战:(1)首先,在学习知识方面:语义相似的类别可能含有丰富的共性特征信息以及跨领域迁移的能力,而与之不相关的类别(如location/contains和person/family/country)通常含有较少的相关特征信息,可能导致负迁移。(2)其次,如何将学习到的知识整合到现有的实体识别模型中也是一个较为困难的问题。
为了有效解决学习知识的问题,如研究者Lin等人(2016)、Ye等人(2017)所展示的那样,我们采用了类嵌入的方法来表示类别特征,并基于知识图谱嵌入以及图卷积网络(GCN)提取隐式及显式的知识关联。具体而言,先前的研究表明,语义相似性较高的关系嵌入在潜在空间中具有较高的相似度。例如,涉及地点生活的关系(person/place/located-in)与国籍(person/nation/born-citizenship)这类属性关系更为相关,而职业(person/occupation/profession)这类属性则与前两种属性的相关性较低。因此,利用知识图谱中的这些信息是自然的选择。但是由于现有知识图谱内存在的多对一映射问题,因此同一类别的相关信息可能会分散于多个子类中。换句话说,不同类别之间可能缺乏足够的关联信号以相互促进学习效果。因此我们采用GCN方法来学习明确的知识关联。

为了有效利用关系知识来解决相关问题, 我们采用了卷积神经网络(Zeng et al. , 2014, 2015)对句子进行编码; 随后, 我们提出了一种从粗略到精炼的知识关注机制, 将关联知识与编码后的句子整合进包表示向量中. 关联知识不仅有助于提升关系预测的效果, 同时也为关联模块提供了更可靠的参考信息, 从而显著提升了长尾类任务的表现程度.

2.相关工作

2.1 关系提取

  • 关联分析任务。

  • 基于监督学习的关系抽取(SRL)框架。

    • 其中具体的实现包括Zelenko及其团队在2003年、GuoDong等人的研究于2005年以及Mooney与Bunescu在2006年的相关工作。这些研究都表明:为了有效训练该框架需采用大规模标注数据进行训练,并且这一过程往往耗费大量的人力资源。
  • 远程监督模型

    • (Mintz等,2009)提出了一种称为DS(Data Selection)的方法来自动标记数据集。

    • DS不可避免地会遇到数据标签错误的问题。

    • 为了解决这一问题(Riedel等人,2010; Hoffmann等人,2011),提出了多实例学习(MIL)机制。

    • 最近的研究表明(Zeng等,2015; Lin等,2016; Zhang等,2018a),神经模型已被广泛应用于关系抽取任务。

    • 在提升性能方面(Zeng等人,2017年; Ji等人,2017年; Han等,2018),研究者们将外部信息与先进的训练策略相结合。

    • 这些工作主要采用了基于DS的方法来构建大规模的数据集,并试图降低由于DS带来的噪声影响。

      • 考虑long-tail的:
      • (Gui等,2016; Lei等,2018; Han等,2018b)。
        • Gui et al。,2016)提出了一种基于解释的方法,
        • (Lei et al。,2018)则使用了外部知识(逻辑规则)。
        • 这些研究孤立地处理每个关系,而不管关系之间的丰富语义相关性。
        • (Han et al。,2018b)提出了RE的分层关注方案,特别是对于长尾关系。
        • Zhang, N., et al. (2019):与这些方法不同,我们利用来自KG和GCN的隐式和显式关系知识,而不是数据驱动的学习参数空间,其中类似关系可能具有不同的参数,阻碍了长尾类的泛化。

2.2 KG embedding

  • 知识图谱的嵌入表示技术是当前研究热点。
  • 最近研究表明,在大规模数据环境下提取有效的知识表示形式具有重要意义。
  • 这些方法通过学习获得了实体与关系的低维矢量表示(Bordes等提出于2013年;Wang等发表于2014年;Lin等发表于2015年)。
  • 其中最具影响力的是TransE模型(Bordes等人提出于2013年),该方法将关系视为在同一低维超平面上从头部实体到尾部实体的一种转换方式。
  • 基于知识图谱丰富知识的研究表明,在构建深度学习模型时对这类信息进行有效利用具有重要价值(Han等人发表于2018a;Wang等人发表于2018年;Lei等人发表于2018年)。
  • 然而这些研究仍然存在不足之处:它们忽略了实体间复杂关联性的挖掘。
  • 已有研究表明:关系结构对于提升知识图谱的表现能力具有重要意义(Zhang等人发表于2018b)。
  • 在这方面研究中:张 Nicole等人(发表于《人工智能领域》杂志上的文章指出:这是首次系统性地将知识图谱应用于关系抽取任务的研究工作)

2.3 GCNN

GCNN

  • GCN通过将Convolutional Neural Networks推广至高维空间进行处理(而非仅限于二维平面和一维序列)。
  • (Defferrard等, 2016)首次提出并实现了光谱图卷积方法以实现有效的图神经网络计算。
  • (Kipf和Welling, 2016)基于已知图结构的特性,在输入实例上构建图神经网络模型,并将其成功应用于半监督学习场景。
  • 通过(Schlichtkrull等, 2018)的研究工作,在关系数据领域取得了显著进展(包括链接预测任务中的应用)。
  • 在自然语言处理领域中取得了一系列成功应用:
    • 针对语义角色标注任务的研究工作取得了突破性成果(如Marcheggiani和Titov, 2017);
    • 在依赖性语法分析方面实现了性能提升(如Strubell和McCallum, 2017);
    • 并在机器翻译任务中展示了显著的性能优势(如Bastings等, 2017)。

两项相似的工作

  • (Chen et al. ,2017)基于结构化标签空间应用了GCN模型。然而,在他们的实验中未考虑长尾类别,并未引入注意力机制(attention),相反地,则采用了每个文档的平均词向量来表示其特征。
  • (Rios和Kavuluru ,2018)基于带有GCN的结构化标签空间设计了一种针对few-shot及zero-shot文本分类的方法。然而,在现有研究中通常采用基于标签图的GCN模型;而我们则选择在层次结构图上应用该技术。

few-shot:少样本学习

zero-shot:0样本学习

3. 方法

3.1符号

  • 基于MIL原则,将数据划分为多个实体对集合
  • 每个集合S_{h_i,t_i}=\{s_1,s_2,...\}由对应于h_i,t_i这对提及的所有实例构成,其中s=\{w_1,w_2,...\}

3.2框架

在这里插入图片描述

3.2.1 Instance Encoder

给定示例涉及两个实体,在此过程中我们将原始示例转换为连续低维向量x。该过程由词嵌入层和编码器构成:其中词 embeddings layer 通过将离散单词映射至连续空间实现这一过程。
对于给定示例s,在此过程中我们将示例中的每个单词映射至预训练 Skip-Gram 模型生成的空间表示(如 Mikolov 等人所提出)。
此外,在此过程中我们采用了位置 embedding 方法(如 Zeng 等人所提出),其中每个单词会被其与另一实体之间的相对距离分别表示在二维空间中。
随后我们将这些 word embeddings 和 position embeddings 进行结合处理,
从而生成每个单词对应的最终输入表示,
最后收集整个示例的所有输入表示,
从而生成用于编码器处理的一系列 embedding序列。

  • 实例编码器

  • 输入为实例s={w₁, w₂, …}及其两个提及h_i和t_i。

  • 输出为连续的低维向量x。

  • 嵌入层中:

    • 给定一个实例s。
    • 其中使用word embeddings来表示每个单词。
    • 这些单词被映射到基于skip-gram的方法中(Mikolov等,2013)。
  • 位置编码

  • (Zeng et al. , 2014)

  • 每个词:将每个词与其关联的两个实体之间的相对距离编码为二维向量

    复制代码
    * 两个嵌入连接起来–>每个单词的最终输入
  • 编码层

    • 输入表示:上面得到的嵌入表示

    • 方法(两种):

      • 卷积神经网络(CNN)(Zeng et al。,2014)
      • 增广卷积神经网络(PCNN)(Zeng et al。,2015)
    • 其他也可采用但卷积效果最佳

      • 输出:嵌入的组合–实例嵌入

编码层。该层旨在通过整合给定实例的所有输入嵌入来生成对应的实例特征向量。在本研究中我们采用了两种卷积神经网络架构:CNN(Zeng et al., 2014)与PCNN(Zeng et al., 2015)。这些架构将输入嵌入转换为实例特征向量。例如递归神经网络(RNN)(Zhang & Wang, 2015)等也可作为句子编码器。研究表明卷积神经网络与循环神经网络在实现可比的先进性能方面都表现出色。基于以上分析在本研究中我们选择了卷积神经网络作为主要架构。值得注意的是我们的模型设计完全不受编码器类型的影响

3.4 Relational Knowledge Learning through KG Embeddings and GCNs.

  • 给定:
    • 预先训练的KG嵌入
    • 预定义的类(关系)层次结构,

我们首先进行了
通过KGs获取了隐式关联知识
用于初始化层次结构标签图。
KG的主要关联关系(叶子节点)
其向量表达不仅可通过TransE模型进行嵌入初始化
还可以考虑其他方法

  • 遍历生成更为复杂的关联结构(一般会包含多个层次上的关联关系)

  • 内部节点向量其值由所有子节点向量的平均计算得出

    复制代码
    * 树结构的
    * 生成过程:递归
    * 父节点:虚拟的
    * 方法:k-means,层次聚类
  • GCN:

  • 由于知识图谱(Knowledge Graph, KG)中存在的多对一关系以及不完整性问题,在每个标签所提取到的隐含相关信息尚不充分。

  • 接着我们采用了两层GCN架构来深入挖掘标签间的显式细粒度关联。

  • 输入:通过预训练获得的关系嵌入v^{implicit}

  • 第i个标签:整合其父节点及子节点的相关信息得到

    • v_i^1=f(W^1v_i+\Sigma_{j\in p}\frac{W_p^1v_j}{|p|}+\Sigma_{j\in c}\frac{W_c^1v_j}{|c|}+b_g^1)
  • 第二层采用类似的机制进行计算以获取显式的表示v^{explicit},v^{implicit}

    • 输出:q_r=v^{explicit}||v^{implicit}–concate–>每一层的,每个节点都有一个q

3.5 knowledge-aware attention

通常情况下,在PCNN / CNN架构中,输出层旨在通过交叉熵损失函数优化获得标签相关的参数。然而,在这种架构中设置了一个独特的参数空间用于每个关系,在实际训练过程中由于长尾分布的特点只能暴露于有限的事实数据而难以实现良好的泛化能力。相反我们提出的方法通过将句子向量与其对应的类嵌入进行匹配而非学习标签相关的注意参数的方式实质上相当于一个检索问题。类嵌入中的相关信息涵盖了标签间长尾分布中的有用关联知识。

  • 问题:

    • CNN,loss=交叉熵–ok
    • 但long-tail,所以泛化不良
  • 解决

    • 将句子向量与对应的类嵌入匹配
    • 成为检索问题
      • 根据他们的类型来组合这些class embedding(依据层次图)
      • 得到关系表示公式:e_k=W_s(tanh[s_k;q_{r^i}])+b_s;[s_k;q_{r^i}]是垂直链接\\ \alpha_k^i=\frac{exp(e_k)}{\Sigma_{j=1}^m exp(e_j)}\\ r_{h,t}^i=ATT(q_r^i,{s1,s2,...,sm})

随后,在不同层次上融合关系表示与注意力机制进行交互

复制代码
* 概率:$P(r|h,t,S_{h,t})=\frac{exp(Mr_{h,t})}{\Sigma_{r'\in R}exp(Mr'_{h,t})}$

4.实验

4.1 数据集

该 NYT 数据集总共包含53种关系类型,并包含NA(不可用)类别的关系表示。该训练集共计包含522,611个句子、涉及281,270对实体及其对应的关系事实;而测试集中则包含96,678对实体及其对应的关系事实以及超过1,950个事实。需要注意的是,在处理过程中我们将所有长度超过120个单词的句子被限制到不超过此长度。

  • evaluation

    • P-R曲线
    • precision@N
  • 应用dropout

4.3 result

在这里插入图片描述
  • 对比

  • 采用KATT :OpenNRE

  • 分层注意机制:分层注意力方法(Han et al。,2018b)

  • 常规的加注意力方法:(Lin et al。,2016)

  • 加注意力方法与ADV结合:通过在实例嵌入中加入微小的对抗扰动来降噪

  • 而加注意力方法与SL结合:采用软件基注意力模型进行标签处理,以缓解实体层面错误标签带来的负面影响

  • 实验结果

  • 从图中可以看出,在所有基于注意力的模型中进行实验比较后发现

  • 相对于采用复杂降噪方案以及额外信息的PCNN + HATT、PCNN + ATT + ADV和PCNN + ATT + SL等模型而言

  • 我们的模型依然具有明显优势

  • 这表明我们的方法能够充分利用KG与GCN之间丰富的关联性从而显著提升了性能水平 我们相信通过引入对抗性训练与强化学习等其他技术 我们将能够进一步提升模型性能 这将成为我们未来研究工作的重要方向之一

4.4 长尾关系的处理

在这里插入图片描述

根据表1的数据, 我们注意到针对CNN和PCNN模型, 本研究提出的方法表现出色, 其性能显著优于普通注意模型及HATT模型. 尽管与传统自注意力机制(简称SAS)及HATT机制相比较, 本研究提出的KATT机制在处理长尾关系方面表现更为优异, 但所有现有方法的整体效果仍存在明显局限. 这表明即使采用远程监督策略, 在处理长尾分布的问题上仍面临挑战. 解决这一难题可能需要开发新的解决方案并提供额外的信息辅助.

  • 并不能完全解决这个问题

4.5 ablation

在这里插入图片描述

Without hierarchical attention, this method solely relies on the bottom-level node embeddings from hierarchical label graphs, implying a lack of knowledge transfer from higher-level categories.
Non-GCN approaches lack explicit knowledge of relationships between entities.
Word2vec initializes nodes using pre-trained SkipGram embeddings (Mikolov et al., 2013).
Additionally, non-KG approaches employ random embeddings for node initialization.

根据表2的评估结果表明,在未实施粗略注意机制的情况下系统性能出现微降现象;这一现象的存在说明自上而下的知识迁移机制具有显著价值;此外我们还发现如果不采用知识图谱也不采用词向量方法等基础技术手段同样会导致系统性能出现微降情况;而当移除GCN结构时系统性能会出现明显 drop;这种现象是可以理解的因为GCN架构在关系标签间的表示学习能力更强从而能有效提升长尾类别的识别效果。

全部评论 (0)

还没有任何评论哟~