Advertisement

【PaperReading】Text Generation from Knowledge Graphs with Graph Transformers

阅读量:

Text Generation from Knowledge Graphs with Graph Transformers

基于图转换器从知识图谱中生成文本

Rik Koncel-Kedziorski、Dhanush Bekal、Yi Luan、Mirella Lapata以及Hannaneh Hajishirzi1,3
University of Washington {kedzior,dhanush,luanyi,hannaneh}@uw.edu
University of Edinburgh mlap@inf.ed.ac.uk
Allen Institute for Artificial Intelligence

摘要

1.引言

计算能力和模型能力的增强使得生成自然语言文本的能力得以实现大部分语法长度的字符串生成变得可行。然而,在主题相关性方面取得突破并展现整体连贯性和话语相关性仍是一个开放性的挑战。在涉及科学写作等感兴趣领域时,这一困难更加复杂化了问题。具体而言,在诸如科学学科的一个子领域中引用各种主题(例如:开车、作诗以及股票交易等)的现象就显得尤为明显。此外,在科学交流中需要对过程和现象进行有条理地解释这一特点也导致文档结构受到严格限制。

众多研究者致力于采用结构化输入的方式以期解决相关问题。这些数据文本生成模型(Konstas和Lapata, 2013; Lebret等人, 2016; Wiseman等人, 2017; Puduppully等人, 2019)均基于表结构输入的形式来进行文本生成。其中表格形式的输入提供了生成更长文本的信息指导作用。然而仅限于特定领域应用由于它们是通过人工标注过程构建而成

研究者们致力于探讨信息提取(IE)系统在自动提供生成长文本上下文方面的作用(图1)。该系统展现出强大的功能特点,并已在涵盖多个领域的情况下实现常规应用。然而由于其自动属性导致了生成难题:例如出现误标现象、格式转换问题以及外部表征上的大规模抽象表现。

基于条件随机场的事件预测

图1:该系统基于条件随机场的方法实现了事件检测功能。该系统通过科学文本中的显示信息提取功能生成注释,并结合相应的图形表示进行展示。以颜色标注的共指注释(Coreference annotations)被采用。我们的模型采用了图形编码器与解码器的组合架构,在自动提取的知识库中生成并学习文本内容。

在影响我们的研究的过程中,我们收集了多篇学术论文的摘要,并进行了深入分析。通过运用先进的信息提取系统(如Luan等人提出的方法),我们对每个摘要进行了实体识别与关系标注,并将这些标注结果转化为折叠形式的知识图谱表示。图1展示了其中一个实例及其对应图表。我们利用这些图表与文本配对的数据集来训练一种新型注意力机制编码器-解码器架构的新颖生成模型。该模型命名为GraphWriter,并在此基础之上实现了对图结构数据的有效编码与解码能力扩展工作。其结果形成了一个强大的通用图形编码模型,在局部领域内通过顶点融合上下文信息时能够整合全局结构特征

本文的主要贡献如下:

  1. 我们开发出了一个新型图转换编码器,并成功将其应用于图结构化数据处理中以实现序列变换器功能。
  2. 在IE输出生成机制的研究中, 我们探讨了如何生成连通且无标签的图形结构, 并在此基础上构建了一个支持注意力机制的知识编码架构.
  3. 通过系统化的自动评估和人工验证方法, 我们验证了所提取的知识能够有效支持多句文本生成任务, 同时也展示了该知识体系在科学研究中的应用潜力.
    实验结果表明, 所提出的基于转换器样式的编码器架构能够在多轮对话系统中实现更好的性能表现. 这种基于知识图谱形式化的文本生成方法相较于传统的注意力机制架构具有显著的优势, 能够显著提升生成内容的质量和相关性. 最终我们得出结论: GraphWriter模型中的转换器样式编码器架构相较于现有的Graph Attention Networks架构具有更好的知识表示能力.

相关工作

我们的研究涉及概念到文本生成的广泛领域。 Barzilay与Lapata在20世纪初提出了集体内容选择模型,并成功应用于足球统计数据分析系统中。 Liang等人在20世纪末通过共同学习方法实现了文本与记录分割及对齐的目标。 Kim与Mooney在本世纪初利用语义解析技术提升了该方法的效果。 Konstas与Lapata于本世纪初专注于生成目标,并通过修辞学语法归纳方法实现了联合规划与生成过程。

这些早期研究主要集中在规模较小的数据集上。
如WeatherGov和RoboCup等平台便是典型实例。
相比之下,在2016年Mei等人提出了基于神经网络的新方法,
显著地实现了这一目标,
从而推动了研究人员转向更具挑战性的领域,
即本领域的深入探索。

Lebret等(2016)完成了从信息块生成Wikipedia条目首句的关键任务,并构建了包含大量条目及其元数据的丰富数据集,并基于表格格式的语言模型进行了训练。我们专注于扩展跨句子关系的技术研究,在该领域取得了一系列突破性进展。

Wiseman等人(2017)深入探讨了将神经网络应用于从数据生成文本这一挑战性问题。他们开发了一个大规模的数据集,在其中包含了篮球比赛相关的文本摘要与两个相关统计表格之间的匹配关系,并发现基于模板的方法在该领域表现更为出色。 Wiseman等人主张优先利用图表信息而非表格信息来创建模型架构,并提出了一种方法能够高效地编码图表结构以捕捉输入中的局部特征以及整体模式的信息

我们明确指出:将知识建模为图能够显著提升生成质量,并将其工作与相关图到文本任务(例如从抽象含义表示(AMR)图生成)建立关联。Konstas等人首次提出了一个专门针对此任务的神经模型,并展示了通过预训练大规模噪声数据集能够显著提升性能。然而这些模型并未直接建模图形结构而是依赖线性化与序列编码方法当前研究通过更为复杂的图形编码技术对此进行了改进。Marcheggiani与Perez-Beltrachini(2018)采用图卷积编码器直接对输入图形进行编码(Kipf与Welling, 2017)。我们的模型在此基础上进行了扩展基于Velickovic等人(2018)提出的图注意力网络构建了更为先进的卷积方法其提供了更强的建模能力并被证明能够显著提升性能。此外宋等人(2018)采用了图LSTM模型来增强信息传播机制:在每个时间步长内节点通过与其相连节点及标记边的门控机制形成表示这一改进使得模型对信息传播过程具有更强的控制能力。贝克等人(2018)则采用了类似的门控图神经网络架构:尽管这些模型同样利用了标签信息但其特点在于对输入图形施加了更为严格的限制条件而相比之下我们的模型对标签信息依赖程度远低于AMR图形由于AMR图形通常具有密集根状且高度连通的特点而我们的模型所采用的知识体系则缺乏这些特性因此我们重点发展基于注意力机制的模型架构例如Velickovic等人的工作由于其较弱的输入约束条件更适合适用于缺乏丰富标签信息的应用场景

在2018年的研究基础上(如Wang等人的工作),我们开发了一种基于标题生成科学摘要的方法。该方法采用融合重写器网络进行逐步优化和迭代改进的过程。尽管我们在这一通用领域的研究中致力于提升摘要质量,并通过提取关键信息作为输入来实现这一目标;这可能导致我们的任务设定与原有研究存在差异。我们认为我们的方法在某种程度上优化了原有的目标设定(如Wang等人在2018年的研究),同时我们的模型具有更强的普适性和适应性

AGENDA数据集

我们致力于从自动提取的信息(知识)生成高质量的文本内容。IE系统作为专业的工具,在各个领域都能提供丰富的高质量知识资源,并能够从句子到文档边界等不同层次综合信息以满足多样化需求。在基于知识生成连贯文本的过程中,需要构建一个模型来综合考量全局特征与实体的局部特征之间的关系。这项任务的核心要求促使我们采用图论方法来表示知识结构,在此过程中邻居节点通过图结构定位重要信息点,并通过路径连接实现中间节点与远距离节点之间的关联性构建。如图1所示的知识图谱即为该方案的具体实现形式

我们将问题描述如下:基于自动信息提取系统构建的知识图谱与科学文章标题相结合,并旨在实现自然语言处理领域中的知识表示与检索目标。其中涉及的知识图谱中包含了大量领域相关的学术文献语料,并通过语义学方法进行深度理解与关联性分析。为了评估模型完成这一目标的能力,我们引入了Abstract Generation Dataset(AGENDA),该数据集专门用于匹配科学摘要与知识图谱。该数据集由来自12个顶级AI会议(如Ammar等人,2018年)会议过程中的语义学者语料库(Semantic Scholar Corpus)提供的4万篇论文标题和摘要组成。

在每个摘要中,我们按照两步流程构建了一个知识图谱。随后,在第一步中,我们采用了Luan等人(2018年)开发的SciIE系统。该系统实现了对科学术语的命名实体识别,并将其分类为Task、Method、Metric、Material以及Other-Scientific Term等类型。此外,在第一步过程中还生成了共参考注释标记,并涉及七种关系类型:Compare、Used-for、Feature-of、Hyponym-of、Evaluate以及Conjunction等关联关系。例如,在图1所示的知识图谱中,“SemEval 2011 Task 11”节点被归类为Task类型,“HMM Models”节点则被归类为Model类型,并且存在"Evaluate-For"关联关系这一特征表明该模型在任务评估方面表现突出。

我们将这些注释形成知识图谱。 我们将共同引用实体折叠到与最长提及相关联的单个节点中(假设这些实体将提供最多信息)。 然后,我们使用关系注释将节点彼此连接,将它们视为图形中的标记边缘。 结果是给定摘要的SciIE注释可能是未连接的图形表示形式。
表1中提供了AGENDA数据集的统计信息。我们将AGENDA数据集分为38,720个训练,1000个验证和1000个测试数据点。 我们提供标准化的数据拆分,以方便比较。

表1

表1:我们的AGENDA数据集的数据统计。 平均值是按实例计算的。

方法

方法:解码器、编码器

实验

实验过程与结果评估

结论

我们探究了自动信息提取系统输出多句文本的可能性,并论证了以知识图形化的方式进行整合能够显著提升性能。为此我们开发了一个名为GraphWriter的工具它引入了一种新的注意力机制用于图形编码并通过对比先进基准的人工与自动化评估验证了其有效性。此外我们还向生成社区提供了AGENDA数据集这一新资源以支持相关研究工作。未来研究可能致力于解决生成文本中的重复问题及实体覆盖问题。

感谢

该研究获得了美国海军研究办公室(ONR)下拨的MURI项目N00014-**************项目的资助;NSF资助下的IIS ******和III ***项目;艾伦大学语言技术研究所(Allen IITI)DIA奖;三星创新研发资助;以及来自谷歌、亚马逊和彭博的慷慨赠款。我们衷心感谢欧洲研究理事会(ERC) Lapata 教授提供的资金支持(资助编号:)。我们特别感谢匿名审稿人和华盛顿大学自然语言处理组成员对本研究工作的建设性反馈。

文章连接

https://arxiv.org/pdf/1904.02342v1.pdf

全部评论 (0)

还没有任何评论哟~