Advertisement

基于图神经网络的NLP研究综述

阅读量:

万字综述《图神经网络自然语言处理》论文:值得收藏慢慢阅读(qq.com

Graph Neural Networks in Natural Language Processing: A Comprehensive Survey - Zhanwen Paper, (zhuanzhi.ai)

摘要

关键词 图神经网络,自然语言处理,图的深度学习

1. 引言

在传统的NLP任务中,默认情况下认为文本序列是由tokens构成的一个无序集合(set)。随着词嵌入技术的发展(Mikolov等人于2013年;Pennington等人于2014年),句子被表示为一个有序的token序列(sequence)。许多复杂的自然语言处理问题都可以通过构建适当的图结构来进行有效建模(graph-based modeling),这种数据表示方式能够有效地编码实体之间的复杂配对关系(pairwise interactions),从而提取更丰富的信息表示(richer representations)。图深度学习与自然语言处理领域的交叉研究推动了多种创新性的研究方向(graph neural networks for NLP)。不同变体的图神经网络模型在多个关键的NLP任务中展现出显著的效果:在分类任务方面(sentence classification)取得了突破性进展(Henaff等人于2015年;Huang和Carley于2019年);在关系抽取领域同样表现突出(Qu等人于2020年;Sahu等人于2019年);此外,在生成任务方面也取得了显著成果:机器翻译方面有Bastings等人于2017年的贡献;问题生成方面则有Pan等人于2020年的研究)。尽管当前的研究已经取得了一定成效,在探索如何进一步提升基于图的深度学习方法在自然语言处理领域的应用效果方面仍然面临诸多挑战:

通过原始文本序列数据自动地转化为图结构的数据。传统的NLP任务普遍采用基于文本序列的输入形式,并且通过提取文本序列中的深层结构信息来生成相应的图数据是应用图神经网络解决这些任务的关键步骤。

适合的图表示学习方法能够有效提取各领域数据的独特特征。在实际应用中,基于深度学习框架构建自定义GCN架构是实现这一目标的有效途径。

有效建模复杂数据是许多NLP任务关注的重点之一。这些任务旨在探索如何在图结构化输入与高度有序输出之间建立映射关系。

本文旨在从多个方面进行梳理,在GNNs(图神经网络)用于NLP任务的应用中发挥关键作用。具体而言,本研究将重点分析基于领域知识与语义空间的不同图构建方法;针对多样化的图结构数据表示学习方法;以及编码器-解码器模型所呈现的特点。通过系统性地探讨了当前GNNs在NLP任务中面临的诸多挑战,并对未来研究方向进行了深入探讨。

2. 基于图的自然语言处理算法

本章将从图形化视角回顾NLP问题,并作为后续内容的一部分简要介绍一些传统的用于解决该领域问题的图算法

2.1 自然语言处理:图视角

自然语言的表现形式直接体现了我们对自然语言的理解,并深刻影响着如何处理与理解它的方式方法。通常而言,在描述自然语言的不同表达形式时会遇到以下几种主要类型:最基础的形式即把整个自然语言简单地看作一个由tokens构成的集合;这种方法虽然简洁直观但忽略了每个token在文本中的具体位置信息;而仅仅关注每个token在整个文本中的出现频率则是当前主流的做法之一;基于这种思路的主要技术手段即是所谓的主题模型(Blei et al., 2003)。

另一种更加直观的方法是将自然语言表示为token序列的形式。这一观点能够揭示出多样化的语义特征。基于这一观点的主要NLP技术包括线性链CRF(Lafferty et al., 2002),该模型在预测中考虑了前后文关系;此外还有word2vec(Mikolov et al., 2013),该模型通过预测目标词及其周围词汇来生成相应的词向量。

第三种方法是以图示示自然语言文本的理解与处理过程。尽管将文本序列化处理是一个直观且常见的做法,在NLP领域中图形化的知识表达方式已有较长时间的发展历史。目前广泛采用的图形化表示手段包括依赖关系图、成分结构图以及知识库架构等基础形式。此外,在这些基础图形化手段之上还可以构建多层次的知识表示模型。相较于前两种基于序列化的处理方式,在这种基于图形的知识表达方式中能够更全面地捕捉文本元素之间的复杂关联。

2.2 基于图的自然语言处理方法

本小节打算介绍传统的图模型及其在自然语言处理中的应用,并深入探讨这些方法与GNN之间的关联。
或者:
本小节将阐述基于图的传统算法及其在NLP领域的应用,并进一步分析它们与GNN的关系。
或者:
本小节旨在介绍传统的图模型及其在自然语言处理中的应用,并深入研究这些技术与其结合的可能性。
或者:
本小节将详细讲解传统基于图的方法及其在NLP中的具体运用,并探讨其与GNN的关系。
或者:
本小节将介绍传统的图模型及其在自然语言处理中的应用,并深入分析其与GNN之间的联系。

2.2.1 随机游走算法

作为基于图算法的一种方法,在该领域内生成一系列机率导向的道路。从任意起始点出发,并遵循预设的概率分布依次访问相连节点;这样所经过的所有点即构成一条路径。当系统收敛后可获得一个静态分布模型;通过该模型可对各关键点的重要性进行排序并提取核心要素;此外还可通过比较不同路径下的概率分布来评估网络间的关联程度;这种方法已被广泛应用于多个自然语言处理领域,并在文本相似度计算(Ramage et al., 2009)、语义网络分析(Hughes and Ramage, 2007)以及词义消歧任务(Mihalcea, 2005)等方面取得了显著成效

2.2.2 图聚类算法

常用的图聚类方法包括谱聚类、随机游走聚类和min-cut聚类。谱聚类方法基于图拉普拉斯矩阵的频谱进行维度缩减,并采用K-means等方法进行分类。随机游走聚类通过对图上执行t步随机游走操作实现节点表示为概率向量的目标实现。min-cut方法也可用于将图划分为多个簇集。这些图聚类方法已在实际应用中取得显著成效。例如,Erkan(2006)提出了一种利用有向生成图上t步随机游走得到的概率分布向量来表示文档的方法,并将该技术应用于文档聚类任务中。

2.2.3 图匹配算法

图匹配算法的主要目标是评估两个图之间的相似性程度。Graph Edit Distance被广泛认为是衡量两图之间差异最常见方法之一;它通过计算将一个图转换为另一个图所需的各种操作(如增加、删除、替换)的数量来确定两者的距离。该算法在自然语言处理领域被应用于任务判断给定句子是否能在特定文本中被推断出

2.2.4 局限性以及与GNN的联系

传统的基于图的算法虽已在NLP任务中取得一定成效(虽然在),但仍存在一定的限制(局限性)。它们在表达能力上较为受限(有限),主要侧重于图结构信息(其主要关注),而忽视了节点与边特征(且不考虑节点和边特征)。(此外,在统一的学习框架方面存在不足)。)

这一局限性促使我们发展出一个统一的基于图的学习框架。该框架在表示图结构以及节点/边属性方面展现出强大的能力,并且能够处理任意形式化的图数据。GNN作为一种独特的神经网络架构,在信息处理方面展现出显著的优势:它能够有效地建模复杂的非欧几里得空间数据,并通过多层网络构建高度非线性的特征映射关系。相比于传统的基于消息传递的方法,在这里GNN采用了更为灵活的信息处理机制:它不仅能够自动学习节点之间的关系权重,并且能够通过多层感知机的形式提取高层次抽象特征。其核心优势在于能够同时处理离散对象及其关联信息:通过逐层递进的方式实现信息的有效扩散与融合,在捕捉复杂模式方面展现出显著的能力优势。为此开发出了一个通用且灵活的数据分析工具:它可以被广泛应用于社交网络分析、分子建模等多个领域中的复杂关系建模问题中去

3. 图神经网络

上一章中探讨了基于图的传统方法在自然语言处理任务中的应用。本章将介绍图神经网络的基础理论和应用方法。

3.1 基础

图神经网络主要作为图表示学习模型存在,在分析节点级别的任务与整体图级别任务时具有广泛的应用潜力。该模型通过提取每个节点的特征信息并融合这些特征来生成整体图的表征信息。通常而言,在这一过程中主要涉及以下步骤:首先基于先前计算出的节点嵌入信息以及当前层的状态信息A(即邻接矩阵)与H(l-1),通过应用一种滤波器函数f(即filter)来更新当前层各节点的新状态向量h_il = f(A, H^(l-1))。

图神经网络主要作为图表示学习模型存在,在分析节点级别的任务与整体图级别任务时具有广泛的应用潜力。该模型通过提取每个节点的特征信息并融合这些特征来生成整体图的表征信息。通常而言,在这一过程中主要涉及以下步骤:首先基于先前计算出的节点嵌入信息以及当前层的状态信息A(即邻接矩阵)与H(l-1),通过应用一种滤波器函数f(即filter)来更新当前层各节点的新状态向量h_il = f(A, H^(l-1))。

受限于其不可变性特征,在实现聚合节点嵌入时不得不采取特殊的处理方式以降低计算复杂度。在GNN架构中,通过图池化操作可获得更简洁的表征。其输出则对应于一个较简化的子图,并伴随新的节点嵌入表示。

3.2 方法

3.2.1 图滤波器

该领域中存在多种实现方案,在现有研究中通常将之划分为以下几类:第一类为基频域的设计方法;第二类为基空间域的设计方法;第三类则采用基注意力机制;第四类引入了递归结构与门控机制等特性。其中基频域的方法其理论基础源于谱图理论;而基空间域的设计则主要关注节点间的局部关系与交互机制。值得注意的是,在基注意力机制的研究中(Vaswani et al., 2017),该方法通过赋予不同邻居节点特定的关注权重来进行信息聚合操作;此外,在递归架构设计中还引入了门控机制以提升模型性能,并实现了层间参数的有效共享。

3.2.2 图池化

该层网络负责生成以图为关注对象的任务所需的整体表征。为了应对涉及整个图的任务需求,则需汇总节点嵌入信息与拓扑关系特征。其中主要包含两种类型:平滑型池化与分层次型池化机制。平滑型池化能在单一操作中直接整合节点嵌入并提取整体表征特征;而分层次型则通过多级变换逐步提炼更高阶的抽象特征表达

4. 自然语言处理的图构造方法

上一章探讨了当输入为特定图形结构时,GNN的基本理论与实现机制。然而,在大多数NLP问题中,默认的输入形式并非图形结构而是文本序列。为了有效利用GNN的能力,在将文本转换为图形结构的过程中所面临的挑战同样不容忽视。本章旨在介绍两种主要的图形构建策略:静态网络架构与动态网络模型。

4.1 静态图构建

该方法致力于通过现有关系解析工具或手动设定规则,在预处理阶段构建图结构。从概念上来看, 静态图整合了原始文本序列中所隐含的不同领域/外部知识, 并通过结构化信息增强了内容.本节将简要介绍用于NLP文献中的部分静态图构建方法.

4.1.1依赖图构建

依赖图常被用来捕获句子中不同实体之间的相互依存关系。从形式上看, 给定一段文本, 我们可以通过NLP解析工具获取其依存结构图. 接下来, 从依存分析树中提取所有依赖关系, 并将其转换为一种更结构化的表示形式——依赖性图(Xu et al., 2018b; Song et al., 2018c). 由于段落具有内在的语序信息而节点不具备这种属性, 因此可以在节点之间引入顺序链接, 从而保留这种重要信息(Sahu et al., 2019; Qian et al., 2019; Xu et al., 2018c). 构建输入段及其对应的分析树的标准流程包括: 建立基础依存关系网络、确立各层级间的顺序关联以及完成最终的图表转换.

4.1.2知识图谱构建

在众多自然语言处理的应用领域中

值得注意的是,在不同应用场景中,知识图谱(Knowledge Graph, KG)所扮演的角色也各不相同。在一些应用中 KG 被视为一种输入手段,在这种情况下(Ye et al., 2019;Zhang et al., 2020g;Li et al., 2019),研究人员普遍采用将整个知识图谱作为学习对象的方式进行研究与分析。然而,在其他特定领域内 KG 被用作数据增强手段,在这种情况下(Teru et al., 2019;Kapanipathi et al., 2019),由于 KG 的规模较大且包含大量噪声信息而不太适合将其作为整体进行处理。相反,在这类场景下我们通常会提取相关的子图结构来进行分析与处理。

在文献中,构建方法可能各有特色。这里仅提出一种具有代表性的方法。构建知识图谱(KG)首先要获取给定查询中的术语实例。通过匹配算法将术语实例与知识图谱中的概念建立联系。然后获取初始节点在知识图谱中的直接邻居。此外,可以通过应用某些图节点相关性模型(如个性化的PageRank算法(Page et al., 1999))计算邻居与初始节点的相关性。然后根据计算出的相关性分数进一步筛选出相关性高于置信度阈值的边,并去除孤立的邻居。剩余的最终子图随后被用来为任何图表示学习模块提供必要的信息。

4.1.3应用驱动图构建

即由特定NLP任务需求定制的应用驱动模型(Luo and Zhao, 2020)。在多数NLP任务中,默认采用领域内专家所提出的基于特定应用场景的知识表示方法去处理非结构化的输入信息。例如,在数据库领域中常见的属性表与实体之间的关联关系往往以数据库属性表的形式进行组织与存储(Xu et al., 2018a)。进而可将其转化为对应的数据库驱动模型(Xu et al., 2018b)。然而由于这类模型往往基于专业知识深度定制而具有高度专业性特征,在缺乏统一指导原则的情况下难以形成普适性的建模方法。

4.2 动态图构建

尽管静态图构建能有效编码数据中的先验知识(prior knowledge), 但它存在以下缺陷:第一, 构建性能合理的网络拓扑需要投入大量人力以及领域的专业知识; 第二, 人工生成的方式往往容易出现错误; 第三, 构建过程与表示学习两个阶段彼此脱节, 在前者引入的问题无法得到后者修正; 第四, 整个网络架构的设计完全依赖于从业者的直观感知, 对于下游应用而言可能并非最佳选择

面对上述挑战时, 近年来, 在GNN领域的NLP应用中, 研究者们已经探索了无需依赖人工干预或领域专业知识即可构建动态图的方法. 许多动态图构建方法的目标是实时更新和适应变化的图结构, 这些模块通常会在端到端框架下协同工作以优化整体性能. 动态图构建方法主要包含两个关键组件: 一个用于度量图相似性的学习组件以及一个用于稀疏化处理的组件. 通过融合显式的原始结构信息与隐式学习到的关系模式信息来提升模型性能.
此外, 为了实现高效的联合学习过程, 各种新型的学习范式被不断提出. 下文将介绍几种有效的动态图构造技术.

4.2.1 图相似度度量技术

假设基于节点属性的学习能够隐式地提取图结构中具有实用价值的信息,在这一前提下有研究表明将图结构学习问题归结为定义在节点嵌入空间中的相似度量学习问题是一种有效的方法。通过该方法可以推断出新的节点嵌入集下的潜在图拓扑关系,并实现了归纳式的图结构推理过程。值得注意的是其局限性在于无法充分捕捉所有复杂的关系模式——尤其是对于那些无法用欧几里得距离有效描述的数据特征而言。这些方法已经被广泛应用于神经网络模型中的图相关任务研究中,并且根据应用场景的不同具体来说可以分为两类:一类是基于节点表示的学习方法;另一类则是侧重于直接感知网络拓扑特征的技术。

基于node embeddings的学习:研究者们关注的是一种称为"similarity metric learning"的技术,在该框架下设计了一种衡量节点间相似性的指标,在嵌入空间中计算各节点对之间的相似性以推导加权邻接矩阵的形式表示网络结构特征。现有的常见方法主要包含基于注意力机制的方法与基于余弦距离的方法两种类型:前者如Vaswani等人的工作(Vaswani et al., 2017)试图通过关注机制捕捉网络中各节点间的相互作用;后者则主要关注于从全局视角衡量网络中任意两个节点之间的关联程度。对于利用点积机制实现注意力的方法(dot-product based),Chen等(2019d)提出了一种改进型的设计思路——引入可学习参数以提升其表现能力;针对这种方法进一步优化的研究则是引入 learnable weight matrices 来增强模型的表现力;而对于vanilla余弦相似性的扩展方法(vanilla cosine similarity),Chen等(2020e)提出了multi-head weighted cosine similarity这一概念,在此基础之上能够从多个维度上捕捉任意两个节点间的关联特征

基于结构感知transformers的思想(Zhu et al., 2019c),近期研究主要采用了基于图中边信息的相似性度量函数,并非仅局限于节点信息分析。例如而言,在Liu et al. (2019c)的研究中,他们提出了一种基于节点对的结构感知注意力机制;此外,在Liu et al. (2021b)的工作中,则进一步发展了全局注意力机制的相关理论框架。

4.2.2 图稀疏化技术

在现实中大多数情况下,默认假设图是稀疏的。通过构建相似性度量函数,在所有节点对之间建立联系时,默认会生成一个完全连接的图。这一做法不仅具有较高的计算开销,并且可能导致数据噪声混入。从整体效果来看,在保证准确性的同时减少计算负担是有利之举。此外,在构建相似度学习模型时,默认假设图是密集连接的可能会限制模型性能;基于此,在实际应用中通常会结合多种稀疏化策略(如Chen等人的kNN式操作)来提升模型效率。

4.2.3 学习范式

大多数现有的基于GCN的动态图构建方法主要包含两大核心模块:一是图结构学习机制的设计与实现;二是如何生成有效的节点表征向量。其核心目标在于提升与特定下游预测任务相关的优化效果。然而,在这一目标下如何有效设计并协调这两者之间的关系成为一个亟待解决的关键问题。为此本文对几种具有代表性的研究范式进行了综述。(1)一种最直接的设计思路是以端到端的方式对整个系统进行协同优化;(2)另一种典型的做法则是基于自适应机制动态调整各层次GNN模块的输入拓扑结构;(3)还有一种创新性研究路径Chen等提出的迭代化模型框架它通过不断迭代改进两者的相互关系从而持续提升整体性能。

5. 面向NLP的图表示学习

本章将探讨图表示学习技术及其在NLP任务中的应用。这些技术旨在通过机器学习模型将复杂的图结构与属性信息转化为低维嵌入空间(Hamilton et al., 2017b)。为了建立一个数学框架来描述这一问题,请考虑任意图G(V,E,T,R),其中V代表节点集合,E代表边集合,T={T₁,T₂,…,T_P}为节点类型集合,R={R₁,R₂,…,R_q}为边类型集合. |·|表示元素数量,τ(·)∈T为节点类型指示函数,ϕ(·)∈R为边类型指示函数.

5.1 同质图的图神经网络

按照定义,在数学上描述了一个同质图_G(V,E,T,R),其特征_T_值设为1且关系集|R|仅包含一个元素时被定义为同质图。一般而言,在大多数情况下(特别是对于许多NLP任务),基于传统结构的设计难以取得理想的效果。因此本节将探讨如何将任意类型的图转换为这种结构化形式的方法

5.1.1 静态图

在处理静态图的GNN中主要包含两个主要环节

基于异质性问题的解决方法中提到的一种技术方案:将边视为节点间的连接关系进行转化处理后生成邻接表形式的数据结构(Yang et al., 2019)。这种转化过程实际上就是把不同类型的异质性数据统一转换为同质性数据的形式(Yasunaga et al., 2017)。在这个转化过程中需要注意的是,在后续的深度学习模型构建阶段需要考虑如何有效地利用这些转化后的数据特征(Zhang et al., 2021)。在这一过程中我们假设所有节点间的关系都可以用一种统一的方式来进行表示,并且这种表示方式必须能够满足后续模型训练的需求(Wang et al., 2023)。在这一过程中我们还假设所有的节点间关系都可以通过某种形式的标准化处理来实现特征的一致化表达(Liu et al., 2024)。

基于预设的节点嵌入表示和邻接矩阵,在处理无向图时,现有研究(如Wang等人的工作)主要依赖于图表示学习方法,并通过多层堆叠来揭示图中的深层语义关联。而在处理有向图时,则仅有少部分能够有效应用于该场景(Qiu等人的研究表明)。这些方法中仅有少部分能够有效应用于有向图(Wang等人提出了一种忽略边方向的方法)。然而这种策略简单地忽略了边的方向这一重要特征,并导致信息能够自由地在两个方向上流动(这在实际应用中往往会带来不合理的结果)。为此研究者们进行了大量探索以使GNN模型能够适应于有向图的情境需求。例如针对GCN框架开发了一种适用于有向图的空间版本模型(如DCNN算法)。此外GraphSage方法也进行了相应的改进以实现对有向图的支持

5.1.2 动态图

动态图在表示学习领域得到了广泛应用,并旨在将图结构与其下游任务进行协同学习。早期研究主要依赖于递归神经网络架构,并通过将节点嵌入作为RNN的状态编码(Hashimoto and Tsuruoka, 2017)来提取特征。随后经典GNN模型被用于有效提取和表示复杂关系信息。现代研究者倾向于采用注意力机制或度量学习方法来从非结构化的文本数据中提取潜在的图结构信息,并在端到端框架下与其 downstream tasks协同进化

5.2 多关系图的图神经网络

在现实场景中,图的不同边类型提供了丰富的信息表达方式。对于图_G_而言,在_T_=1且_R_≥2的情况下,默认将其归类为多元关系图(multi-relational graph)。本节将阐述如何表示与学习这类复杂图结构的技术

5.2.1 多关系图的形成

考虑到异质图在自然语言处理(NLP)领域中的广泛存在性

5.2.2 多关系GNNs

多关系图神经网络(GNN)是将传统图神经网络扩展至多关系图的一种方法。其中节点类型保持一致但边的类型有所区分它们最初目的是为了表示和处理具有特定关系的图结构在实际应用中,默认情况下这类模型会分别设置不同的参数来处理每种独立的关系这种设定使得其具备更强的表达能力基于局部邻域的消息传递框架(Gilmer et al., 2017)被成功拓展形成了R-GCN这一架构其核心机制在于根据节点标签的不同将输入数据划分为多个子空间并对每个子空间分别执行消息传递操作这样一来能够更灵活地捕捉不同标签间的变化特征相对于传统的单模态模型而言R-GCN通过引入专门的学习权重矩阵显著提升了对复杂异构数据的支持能力与之类似的R-GGNN则进一步突破了这一限制通过设计一种全局可学习的关系权重矩阵能够更高效地捕捉长距离关联这种改进使得模型在处理涉及复杂关联的任务时展现出更好的性能而R-GAT则通过将注意力机制自然地嵌入到多模态框架中实现了对不同邻居节点赋予不同的影响力这种特性使其特别适合于处理包含多种异构信息的数据集

5.2.3 GRAPH TRANSFORMER

Transformer架构在NLP领域展现了卓越的效果,其自注意力机制可视为全连接隐式图学习的核心组件之一,因而为GNN与Transformer概念的融合奠定了基础。然而,传统Transformer架构未能充分挖掘节点间结构信息.受Graph Attention Networks(GAT)启发,众多研究者致力于开发能够感知节点间结构关系的自注意力机制,将结构信息成功纳入到Transformer框架中.对于结合了节点领域知识的关系图Graph Transformer,基于自注意力功能可分为两类:一类借鉴于关系型GAT的方法,采用与R-GAT相似的特征聚合策略;另一类则保留了传统的全连接图特征,并在自注意机制中整合了结构感知的关系信息.基于GAT的Graph Transformer(Yao et al.,2020)沿袭了类似于GAT的特征聚合方法,巧妙地利用了图连接性归纳偏置的优势.具体而言,该架构首先通过特定类型的聚合操作整合邻居信息,随后借助前馈层进行特征融合;而基于结构感知型自注意机制的Graph Transformer则保留了经典的自注意架构设计,实现了非邻接节点间的有效通信

5.3 异质图的图神经网络

在现实世界中存在具有不同节点类型和边类型的网络结构被称为异质网络(heterogeneous network)。正式定义中,在一个网络G中当T值或R值大于1时,则称该图为异质网络( Fan et al., 2019; Linmei et al., 2019)。除了将这种非同构网络转换为关系型数据之外,在实际应用中也需要充分挖掘节点与边的不同类别特征( Fan et al., 2019; Linmei et al., 2019)。因此以下部分将详细探讨这种非同构网络的预处理技术及其表示学习方法。

5.3.1 LEVI 图转换技术

由于现有的大多数GNN方法主要针对同质条件进行设计(Beck et al., 2018),并且在处理大规模不同类型的边时会产生显著的计算负担(Beck et al., 2018)。因此,在构建异质图时有效的方法是将每条边视为一个独立的节点(Beck et al., 2018; Xu et al., 2018c; Sun et al., 2019a; Guo et al., 2019c)。其中最具代表性的图转换技术是Levi Graph Transformation(Beck et al., 2018),该技术通过将每个具有特定标签的边转化为一个新节点,在构建异质Levi图的过程中都会生成一个新的独立节点,并简化了整个结构以便于后续的学习与分析

5.3.2 基于元路径的异质 GNN

元路径代表了两个对象之间的关联关系,并被广泛用于提取语义信息。在异质图中不同节点间的各种关系可以通过元路径很好地体现出来。

我们首先阐述了异质图在meta-level上的描述以更深入地理解其复杂性特征并揭示其潜在关联性规律为此我们基于Sun et al.(2011)提出的异质信息网络模型定义了网络模式的概念该模型通过建立节点类型与边类型之间的映射关系来构建层次化的知识框架具体而言我们考虑了一个由多个模板子图构成的整体结构其中每个子图代表特定的知识领域并以某种形式关联起来

这些模型主要采用了基于注意力机制的聚合策略(Wang et al., 2020a; Fan et al., 2019)。它们通常可分为两个核心步骤:首先,在每条特定的元路径上对节点的邻居进行信息融合;其次,在不同层次上构建关联关系并以一种动态的方式整合这些关联信息;随后,在第二个步骤中则引入了一种层次化注意力机制来分析并提取各层次特征所包含的重要信息。

5.3.3 基于R-GNN的异质GNN

然而,在组织异质图中,元路径作为一种重要的分析工具尽管具有显著效果(虽然),但它可能需要依赖领域专家的支持(但)。因此,在现有研究中(为此),大多数学者倾向于借鉴其核心思路(但),并采用特定类型的聚合机制(如)来处理这种复杂网络结构(如)。本文将简要探讨基于R-GNN的各种异质图神经网络模型及其应用前景(如)。

HGAT(Linmei et al., 2019)被提出用于编码包含多种节点类型但单一侧类型的异质图数据。针对特定类别的节点,在分析其不同类型的邻居时需考虑其相关性的差异程度。为了最大化地挖掘多样化的结构信息特征,HGAT首先聚焦于全局不同类型节点之间的相关性学习,随后逐步深化对具体节点表示的学习过程。MHGRN(Feng et al., 2020b)是对R-GCN的一种扩展,该方法能够直接在异质图中捕捉多跳关系并提取复杂特征表示,其核心思想在于通过关系路径的思想构建两个非k-hop连接节点之间的关系模型,从而将现有的R-GNN拓展到基于路径的异构图表示学习范式中,HGT(Hu et al., 2020c)则是一种基于图transformer的方法,它以网络模式为基础构建了节点间的元关系模型,并提出了相对的时间编码策略以捕获时间依赖性

6. 基于GNN 的编码器-解码器模型

编码器-解码器架构被视为NLP领域中被广泛应用的重要机器学习框架之一。鉴于其在建模图结构数据方面的卓越能力,许多研究者们致力于开发基于其卓越能力的编码器-解码架构,并提出了诸如Graph-to-Graph(Guo et al., 2019a; Shi et al., 2020)等创新性模型。本节将深入探讨经典的Seq2Seq架构及其应用

6.1 Sequence-to-Sequence Models

该模型起源于Sutskever et al. (2014)与Cho et al. (2014)的研究工作,并旨在解决广泛类型的序列到序列任务。其采用了一种端到端的编码器-解码器架构,在接收输入序列信息的同时生成一个统一维度的向量表示空间。该系统通过先利用RNN对齐输入数据进行建模,并在此基础上逐步生成相应的解码结果。其中最为常见的一种变体是采用双向LSTM网络作为编码层,并配合单向LSTM网络作为解码层的技术方案(Sutskever et al., 2014)。然而,在最初的架构设计中,中间向量空间成为系统性能的关键制约因素。为此研究者们提出了多种优化方法以提升原始模型的表现能力

Seq2Seq模型最初是为了解决序列到序列的问题而开发的,在这一过程中它逐渐扩展并适应了更复杂的应用场景。尽管图结构数据能够捕获对象间的复杂语义关系,并且能够有效编码丰富的句法信息,在现有研究中已有学者尝试将这种特性引入到深度学习模型中以提升性能。基于这一思路,在自然语言处理领域提出了多种基于图神经网络的方法来处理更广泛的输入类型。其中一种方法是将传统的深度学习模型扩展为能够直接处理非欧几里得数据结构的形式

6.2 Graph-to-Sequence Models

为了克服现有 Seq2Seq 模型在处理复杂数据结构方面的局限性,在这一领域内近期研究者们提出了若干适用于自然语言处理任务的 graph-to-sequence 编码器-解码器架构(Bastings et al., 2017; Beck et al., 2018; Song et al., 2018c; Xu et al., 2018b)。在构建 Graph2Seq 架构时,默认情况下会采用基于图神经网络(GNN)作为编码器,并结合循环神经网络(RNN)或 Transformer 架构作为解码器。相较于传统的 Seq2Seq 编解码范式而言,在捕捉输入文本内部丰富的结构信息方面 Graph2Seq 范式表现出明显优势,并且能够灵活应用于任意类型的图结构数据。目前大多数 Graph2Seq 模型都是专为特定类型的自然语言生成(NLG)任务设计而存在的,在后续章节中将简要介绍几种典型的技术变体及其应用案例

基于图的编码器部分:早期Graph2Seq方法及其后续研究工作(Bastings et al., 2017; Marcheggiani et al., 2018; Damonte and Cohen, 2019; Guo et al., 2019c; Xu et al., 2020a,c; Zhang et al., 2020c,d)主要采用了几种典型变体作为图编码器模型。这些变体包括GCN、GGNN、GraphSAGE以及GAT等模型。在邻居信息融合过程中,在处理节点表示时通常会考虑连接关系的不同方向性特征,并通过为不同边方向单独设置了参数权重来捕捉这种差异性信息(Marcheggiani et al., 2018; Song et al., 2018c, 2019; Xu et al., 2020c; Yao et al., 2020; Wang et al. 2020g; Guo et al. 2019c)。已有研究通过针对性地优化现有GNN架构以适应有向图结构取得了积极进展。

除了边方向信息外,在众多NLP任务中(Simonovsky and Komodakis, 2017; Chen et al., 2018b; Ghosal et al., 2020; Wang et al., 2020b; Schlichtkrull et al., 2018; Teru et al., 2020)实际存在大量复杂的多关系图结构。为了更好地编码这些复杂的关系网络(Beck et al., 2018; Koncel-Kedziorski et al., 2019; Yao et al., 2020; Ribeiro et al., 2019b; Guo et al., 2019c; Chen et al., 2020g),一些研究者提出了通过将复杂的关系网络转换为Levi图的方式来绕过这一挑战,并利用现有针对同质图设计的有效GNN架构作为编码器(Marcheggiani et al., 2018; Song et al., 2018c, 2019; Zhu et al., 2019b; Wang et al., 2020f; Cai and Lam, 2020a)。在另一个关键的技术框架中(Wang et al.等人的研究),他们提出了一种方法,在将复杂的关系网络转换为Levi图后有效地处理这些问题(Marcheggiani等, ...)。

序列解码技术主要关注于编码器部分的差异。尽管传统的RNN架构已经能够处理简单的序列预测任务,并且LSTM/GRU结构进一步提升了处理长距离依赖的能力;但这些方法往往无法直接处理图数据这种非序列结构的数据类型。对于这类问题域中的复杂性需求,则需要通过设计更适合图数据特性的架构来加以解决。例如,在自然语言处理领域中图神经网络逐渐成为主流研究方向之一;而这一系列方法的核心目标则是通过扩展现有的深度学习架构使其能够有效处理非欧几里得空间中的数据特征

6.3 Graph-to-Graph Models

常见的用于解决图转换问题的方法通常是基于图编码器-解码器架构的设计方案。该架构通过将每个节点映射为其潜在表征(node embedding),或者通过GNNs(Graph Neural Networks)生成整个图级的整体表征(global graph embedding)。随后,在解码阶段,则依据编码器获得的潜在表征(node embedding或global embedding)来重建目标图形结构(decode the target graph structure)。值得注意的是,在自然语言处理领域以及知识表示相关的应用中,很多数据都可以自然地以节点及其关系的形式存在(nodes and relations),因此这类图形建模技术在NLP领域具有广泛的应用潜力。具体而言,在下面讨论的两个关键NLP任务——信息抽取与语义解析——同样可以通过构建相应的graph-to-graph模型来进行建模。

从文本中抽取结构化数据即为信息提取。其主要过程包括但不限于实体识别、关系抽取以及交叉引用等环节。这一问题可被形式化表述为一种基于图论的技术方案,在此方案中输入端接受待处理文本中的词性和语法结构网络作为基础数据源,在输出端则生成相应的概念网络模型。具体而言,在输入层阶段的每一层神经元单元对应一个词单元,在连接层阶段每一条神经元连接则记录着两个词单元之间的语法依存关系;而在输出层阶段的每一层神经元单元则对应一个命名实体,在连接层阶段每一条神经元连接则标示着不同命名实体间的语义关联关系;基于此逻辑框架下所构建的信息提取系统便能够在给定任意一段待处理文本后自动完成所需的知识抽取任务

语义解析的任务旨在将自然语言映射为机器可解释的意义表示形式。具体而言,则包括基于λ微积分的抽象意义表示等技术。每个这样的意义表示形式均可对应于一个有向无环图结构。因此,在语义解析领域中,则可将其视为一种基于图转换的问题。例如,在AMR(动词标记关系)框架下,则可以通过编码有根、有向、无环图的方式实现这一过程(Flanigan et al., 2014)。

7. 应用

本章旨在简明扼要地探讨基于图神经网络的自然语言处理应用,并涵盖生成式语言技术、机器智能信息解析以及互动问答系统等相关领域。

7.1 自然语言生成

自然语言生成的核心目标是通过多种输入形式如文本与语音等途径,在不脱离语言形式的前提下创造高质量且连贯可读的自然语言输出。我们专注于语言本身的特性与表现。现代NLP(Natural Language Processing)方法多采用编码器-解码器架构(Encoder-Decoder architecture),其主要功能是将输入序列映射至潜在空间,并基于潜在表示预测一系列连续出现的词(sequence of consecutive tokens)。大多数现代NLP系统均遵循编码与解码双阶段流程(encoding and decoding processes),其主要由编码器与解码器两大组件构成(mainly composed of encoder and decoder modules)。本节重点介绍基于自回归机制以及图结构模型的相关内容(content related to models utilizing auto-regressive mechanism and graph structures)。这些模型在应用中巧妙地整合了编码器内部所具有的图结构特征(intricate graph structural features inherent to the encoder)。

7.1.1 神经机器翻译

经典的神经机器翻译系统的主要目标是在不改变句子语义的前提下实现源语言到目标语言的有效映射。目前主流的研究工作主要集中在基于注意力机制的序列到序列模型上(包括Bahdanau等人的2015年研究及Luong等人的2015年研究)。然而这些传统模型存在长距离依赖性的局限性。随着注意力机制的发展自注意力模型能够有效捕捉隐含语义关联从而推动了相关技术的进步。尽管如此大部分基于 seq2seq 模型的方法在应用自注意力机制时往往忽视了潜在的结构信息这一关键特征。近年来借助图神经网络(GNN)的帮助研究者们开始关注并挖掘非结构化文本中的结构性知识从而显著提升了神经机器翻译系统的性能水平。其中大多数 GNN 基本原理下的神经机器翻译方法都采用了传统 seq2seq 模型架构进行改造将输入数据转化为图结构表示并利用 GNN 编码器提取并利用节点间的全局关系构建新的编码表示这一过程使得模型能够更好地捕捉复杂语义关系并提高翻译质量

为了应对这些挑战,在NMT任务中提出了多种静态图方案。Bastings等(2017)、Beck等(2018)、Cai和Lam(2020c)、Guo等(2019c)最初将输入文本转换为句法依赖图的形式;然而这种方法未能充分考虑词语间的语义关联关系。为此,Marcheggiani等(2018)构建了基于语义角色标注的依赖图模型;此外,Beck等(2018)与Song等(2019)进一步发展了包含更多语义关联关系的AMR图模型,并提出了一系列专门针对这些挑战设计的新颖图形结构;Yin等(2020)则创新性地构建了多模态图模型,在同一图表中整合了视觉知识与输入文本;尽管如此,Xu等(2020c)仍提出了基于文档级机器翻译任务的混合型静态图模型以解决长期依赖问题

在图表示学习领域中,大多数构建的图都是异构图。这些节点或边类型丰富多样,在传统GCN架构下难以直接处理这种复杂性。为此,研究者们开发了多种异构图表示技术以应对这一挑战。Bastings等(2017)及Marcheggiani等(2018)通过将依赖关系建模为多关系网络,并采用有向GCN架构成功提升了异构图处理能力。Xu等人(2020c)则提出了一种基于连通性的新方法,在此框架下不仅考虑节点属性还引入了边方向作为关键特征来进行编码。Song等人(2019)则提出了一个特殊的类型感知GGNN模型,在该模型中不仅学习节点嵌入还特别关注于优化边表征的学习过程——具体而言就是通过整合源节点嵌入与边类型信息来生成精确的边表征。随后针对每个节点分别聚合其输入与输出邻居的信息,并结合基于RNN的更新机制来逐步优化其表示形式

7.1.2 摘要生成

自动摘要生成旨在保留关键信息内容和整体含义的同时生成简明流畅的摘要任务(Allahyari et al., 2017)。该任务包含两大核心模式:抽取式与生成式。其中,在抽象层次上完成的任务重点是从输入文本中筛选出关键信息以去除冗余内容,并将其转化为分类问题。而抽象式的摘要则被视为一种神经语言生成任务。传统的研究多是基于序列模型的方法(Gehrmann et al., 2018; Zhou et al., 2018b; Liu, 2019),他们假设输入为线性序列并运用LSTM或Transformer架构来提取语义特征。然而,这些方法未能充分考虑自然语言处理中隐含的复杂语义关系和结构性特征。尽管如此,在这一领域仍有许多研究者致力于探索如何利用图结构信息提升性能(Wang et al., 2020a; Fernandes et al., 2019)。这些 advancements have spurred the development of Graph Neural Network (GNN)-based approaches (Wang et al., 2020a; Fernandes et al., 2019),以更好地捕捉文本中的深层结构信息。

7.1.3 结构化数据到文本

然而,在自然语言处理领域中存在许多应用(如 pourdamghani 等人于 2016 年及 2014 年发表的研究),它们均以清晰的形式(即图形表示)来呈现复杂的数据关系。这些研究的目标是从经过结构化处理的数据中生成自然语言文本。传统的处理方法采用线性化机制(linearization mechanism),将复杂的结构数据转化为序列形式,并利用 seq-to-seq 架构(sequence-to-sequence architecture)来完成文本生成的任务。为了更好地提取复杂特征关系(complex feature relations),近年来的研究逐渐转向基于图神经网络(graph neural network, GNN)的技术。这种方法通过构建特定领域的图模型(graph models for specific domains)来进行抽象推理与计算推理之间的转换(abstraction and computation reasoning transformation)。随后,在这种框架下利用 GNN 编码器与解码器组成的 Graph2Seq 模型(Graph2Seq framework, which integrates GNN encoders and sequence decoders)来进行神经语言输出的生成。本节将深入探讨开发信息图所使用的技术。

Ribeiro等人(2019b)将其所得的levi图视为一种具有方向特性的均匀性图表,并利用双向型神经网络架构来提取表示信息。其提出了一个双向嵌入学习框架,在正向和逆向两个方向上对有向图表进行处理与分析。一些研究则直接采用了多关系型神经网络架构来处理获得的相关多标签图表数据。例如,Damonte与Cohen(2019)主要采用了有向GCN架构来处理AMR图表中的异质性特征并优化参数消耗。Zhao等人(2020b)开发了一种异构GAT架构以处理AMR图表中的复杂关系特征,并通过跨层注意力机制探索不同子图表间的关联性。此外,Transformers架构也被成功应用于编码AMR或SQL类别的图表结构。

7.2 机器阅读理解和问题回答

7.2.1 机器阅读理解

机器阅读理解的任务是根据一段文本回答自然语言问题。随着多种注意力机制的发展(Hermann et al., 2015; Cui et al., 2017; Seo et al., 2017; Xiong et al., 2017a),这些机制推动了机器阅读理解(MRC)任务的重大进展。传统的设置通常专注于较为基础的单步推理能力(Chen et al., 2020d),而近年来的研究则更加注重复杂推理能力的发展(Ran et al., 2019)。数值型MRC则要求具备对段落进行数字推理的能力(Fang et al., 2020a)。基于图神经网络的方法已在多个领域展现了其有效性(Tu et al., 2019a;Ding et al., 2019a)。具体而言,在构建实体图或层次图后(Qiu et al., 2019;Cao et al., 2019b),模型通过图神经网络提取节点及其邻接关系的信息作为特征输入,并最终预测答案以完成任务。

7.2.2 知识库问题回答

近年来,在人工智能领域内,“知识库问题回答”(KBQA)作为一个新兴的研究方向受到了广泛关注,并成为许多研究者探讨的重点课题之一

该KBQA方法(Yih et al., 2015)旨在将自然语言问题转换为语义图,并在此基础上对知识库进行操作以获取答案。为了更精确地建模语义图的结构特征,Sorokin and Gurevych (2018a)建议采用GNN对候选语义图进行编码,他们遵循与Yih et al.(2015)类似的方法,在给定具体问题的情况下生成多个候选语义图,并从嵌入空间中选择与问题最为匹配的一个候选图。为了更好地建模复杂的关系图或异构图结构,需要对基础的GNN进行扩展以处理边类型和节点类型的变化为此,Sorokin and Gurevych (2018a)将GGNN(Zhang et al. , 2020e)进行了改进,将边嵌入纳入信息传递过程。在学习了问题描述及其各候选语义图的向量表示后,他们引入简单的奖励函数来选择最佳候选图,提取问题变量节点在各候选图中的最终嵌入表示并进行非线性变换得到全局表示Yasunaga et al.(2021)则通过感知节点类型和边类型的消息传递机制来处理多关系图,并扩展了GAT模型此外,他们在构建候选知识库阶段采用了预训练语言模型来进行知识库相关性评估

8. 总结

本文综述了各种图神经网络在自然语言处理领域的应用情况。具体来说,在介绍典型GNN模型的基本概念后,并结合构建过程、表示学习以及编码解码结构这三个维度系统分析了适用于自然语言处理的GNN架构:基于这些技术在不同阶段的应用经验,并重点探讨了基于构建过程的一些自然语言处理应用场景。

在自然语言处理领域中许多问题都可以通过建立相应的知识库来实现智能化处理这一观点得到了广泛认可

由于自然语言或信息知识均可被形式化为一组节点及其关系构成的图形结构,并且这种建模方式在很多领域都具有广泛的应用价值

在众多NLP任务中, 基于统一节点与特殊边设计的多关系图模型已被深入研究。传统的同质GNN通过扩展的方法应用到多关系GNN设计中, 其中的某些方法在邻居聚合阶段引入了特定的关系参数;另一些则将异构图分解为同构子图(如Schlichtkrull等人的工作)。然而由于不同类型的复杂性仍需处理的问题并未完全解决。尽管通过共享参数与矩阵分解等技术可一定程度上提升模型泛化能力以应对上述挑战;但现有方法仍面临过度参数化与强大表达能力之间的权衡。

全部评论 (0)

还没有任何评论哟~