论文阅读Inter-sentence Relation Extraction with Document-levelGraph Convolutional Neural Network
简略
本文介绍了一种基于GCNN的RE方法,作者把单词作为节点,依存关系,共指关系等关系信息作为边连接,接着使用带有标签的GCNN对建立的图提取特征,采用基于多实例学习(MIL)的分类方案,最终使用bi-affine pairwise scoring来对关系进行打分并且提取汇总出实体间的关系
借鉴博文:长文本或文档级别的关系抽取 — 概念、论文、总结 - 知乎
关键概念解释
Relation Extraction (RE) - 关系抽取 :
- 定义 : RE 是自然语言处理(NLP)领域的一个子任务,其目标是从文本中抽取实体之间的关系。这通常涉及识别实体(如人名、地点、组织)并确定它们之间的语义关联。
- 应用 : RE 在信息提取、问答系统、知识图谱构建等方面都有广泛应用,帮助计算机理解文本中实体之间的关系。
远程监督(Distant Supervision) :
- 定义 : 远程监督是一种通过利用现有的知识库或数据库中的标签来生成训练数据的方法。在关系抽取中,可以使用已知的实体关系在文档中进行标记,然后将这些标记的文档用作训练数据。
- 应用 : 远程监督是为了解决标注数据不足的问题,但可能带来标签噪声的挑战。
多实例学习(Multi-Instance Learning) :
- 定义 : 多实例学习是一种监督学习范式,其中训练集中的样本被称为“袋”(bag),而不是传统的单一实例。一个“袋”中可以包含多个实例,其中只有一个实例或子集是正例。
- 应用 : 在关系抽取中,一个文档可以被视为一个“袋”,而其中的句子可以被视为实例。这种方法可以更好地处理文档级别的关系抽取任务。
依存语法树(Dependency Tree):
- 是一种用于表示自然语言句子结构的树形结构。它描述了词语之间的依存关系,即词与词之间的句法关系,以及句子中词语的中心词(头部)与从属词(依赖词)之间的关系。每个句子都有一个根节点,通常表示整个句子的核心或者主题。
动机目的
关系提取RE是nlp中十分重要的一个环节,本文主要针对的是句子间的关系提取。
句子间的关系提取涉及到局部、非局部、语法、语义的依存关系,使用依存语法树可以很好地处理句子内的关系,尤其是语法类型的,但是针对语义类型的,跨句子类型的那种,就很难去解决了

这里就是一个例子,有共指关系,跨越两个句子,依存语法树很难识别出来。
所以作者提出了一种使用图卷积神经网络的办法
模型
模型目标:实现跨句子的关系提取,也就是针对文档级别的。
假设一篇文档 t 有n个词,对于其中两个词e1,e2,我们需要判断是否存在某种关系,
于是这个任务输入为(e1,e2,t),那么模型输出就是这个对的关系类型(也包括‘无关系’这一类别)

这就是模型整体,下面会一一介绍其中的细节
输入层
我们将每个词i和它们的相对位置(对于第一个和第二个目标实体)映射成一系列向量

图的构建
每个词都是一个节点
而边有以下几种类型
- Syntactic dependency edge: 使用句子内的依存语法树,每种依存关系作为一种类型的边
- Coreference edge: 共指边,代表两个指称描述同一个实体
- Adjacent sentence edge:将相邻句子的依存语法树根节点连接构成一种类型的边
- Adjacent word edge: 相邻的单词
- Self-node edge: 自反边,为了解决GCNN不从节点自身学习参数的问题
GCNN层
对每个输入的词都使用GCNN提取特征,其中等式左边的x代表从第k个GCNN块产生的第i个单词表示,最终得到每个词的表示

这里堆叠了K个GCNN块去堆叠从远相邻的节点得到的信息,并且使用edge-wise gating
来控制来自邻近节点。
除此以外,在仅为前 N 种类型保留单独参数并对所有其余边类型(被归类为rare)使用相同参数,来调整模型参数的数量。这些被称为“rare”类型的边。这个做法的目的是避免由于为不同边类型进行过度参数化而可能导致的过拟合。
多实例学习进行关系提取分类
每个词i都将使用Bi-affine 双映射

每个词投影到两个不同的潜在空间,这两个空间分别对应于目标对(target pair)的第一个参数(head)和第二个参数(tail)。这里的 "head" 和 "tail" 可能是指关系模型学习的两个方面或者特征,用于表示词在不同语境中的不同角色。
在映射后,Pairwise Scoring 也就是基于成对的元素进行打分。(需要注意的是,这里的打分针对的是一个词在文章中出现的一次,由于一个词可以出现很多次,所以也可能对一个词打分多次)打分完后,就将这些entity mentions的分数聚合在一起

个人感想
感觉这个方法就是使用了GCNN,除此以外,整体给我的感觉像是借鉴采用了许多其他人提出的想法,在论文中可以明显看到。这篇文章对于每个idea的出处都有一定的介绍,特别方便阅读和进行下一步的研究
