Advertisement

Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks

阅读量:

长尾关系抽取采用知识图谱嵌入与图卷积网络的方法进行研究

摘要

3. 方法
* 3.1 理论基础
* 3.2 体系结构
* 3.3 实例表示器
* 3.4 利用Knowledge Graph(KG)嵌入与Graph Convolutional Networks(GCNs)之间的关系进行的知识学习
* 3.5 基于知识的注意力机制

实验部分

实验设计

实验流程

消融实验分析

类嵌入表示可视化分析

复制代码
* 5\. 结论和未来的工作
* 致谢
* 参考文献

通过知识图嵌入和图卷积网络进行长尾关系提取

作者:宁宇 张、 Deng 、孙展林、 王冠英 陈希 张伟 陈华俊
原文链接:https://www.aclweb.org/anthology/N19-1306/

摘要

针对现实世界中普遍存在的一种长尾不平衡数据问题类型,我们开发了一种基于距离监督的关系提取方法. 在此背景下, 该挑战体现在需要通过仅利用类分布末尾少量样本的数据来训练能够高效执行的任务模型上. 基于长尾类别与头部类别之间蕴含的丰富语义关联这一观察, 我们提出了一种创新性的解决方案: 通过从头部数据中提取丰富的类别特征信息以提升尾部样本较少类别识别能力. 具体而言, 我们首先构建了一个包含层次化知识表示的学习框架. 在这个框架下, 一方面我们从知识图谱嵌入中捕获类别标签之间的隐式关联; 另一方面我们采用图卷积网络架构来学习显式的关联知识表示. 此外, 我们还设计了一套从粗粒度到细粒度的知识感知注意力机制, 将这些关系性知识整合到关系抽取模型中进行联合优化. 通过对大规模基准数据集进行实验验证, 我们发现所提出的方法在性能指标上显著优于现有基准体系, 尤其在处理长尾关系任务时展现出明显优势.

引言

在信息提取领域中,关系提取任务扮演着关键角色。其主要目标是通过分析两个实体的相关上下文来确定它们之间的关联。这些技术不仅能够有效获取文本信息,并且在对话系统、问答系统等众多NLP应用场景中展现出显著优势。因此这一领域吸引了众多研究者的关注。目前针对这一关键问题的研究主要集中在基于监督学习的方法上...;然而这些模型的表现往往受到训练数据量与数据质量的影响。

为了构建大规模的数据集(Mintz等人, 2009)该研究团队于2009年提出了一种创新性的远程监督学习机制(DS),通过整合现有知识图谱与文本对齐技术来自动生成训练实例。**这些DS方法显著提升了基于端到端学习的命名实体识别(RE)模型的能力,并已在多篇高水平论文中得到验证(Wu等人, 2017; Feng等人, 2018)。**然而,在处理通用关系时这些DS方法仍显不足。尽管这些DS模型在某些特定场景下取得了不错的效果(Wu等人, 2017; Feng等人, 2018),但当仅针对部分特定的关系进行训练时其泛化能力会严重下降。根据实验结果观察到的现象经验表明 DS 方法能够高效标注足够大小的数据集但这种数据通常仅涵盖了有限的关系覆盖范围因而难以满足长尾关系的需求。目前的研究尚未充分关注这一关键挑战因此单纯基于文本的传统信息抽取技术仍面临诸多局限性

长尾关系具有重要意义,在分析时不可忽视其影响。参考图1所示,在《纽约时报》等广泛使用的数据集中(Riedel et al., 2010; Lei et al., 2018),该研究平台提供了大量资源供研究者使用(http://iesl.cs.umass.edu/riedel/ecml/)。其中约70%的关系属于长尾类型。这对于模型的学习与应用而言至关重要。

图1:在NYT数据集上没有NA的类型标签频率分布

图1:在NYT数据集上没有NA的类型的标签频率分布

处理长尾数据

图2:头和长尾的关系

图2:头和长尾的关系

但是,在掌握关系知识体系方面也面临着两个主要问题:其一是在语义相似的类别中蕴含着丰富的关联信息,在这种情况下转移到其他相关类别时能够获得更好的迁移效果;而针对那些没有明显语义关联的类别(例如/location及其下/contains属性与/people/family/country类别的关联情况),它们往往携带较少的关联信息,并且在应用过程中容易引发负面迁移效果。其二是如何将现有的关系知识有效地整合到现有的RE模型体系中面临着诸多技术难点。

为了有效学习与知识相关的问题(如Lin et al. 2016; Ye et al. 2017所述),我们通过类嵌入模型将关系类进行表示,并运用KG嵌入技术和图卷积网络来提取显性和隐式的关联知识。具体而言,在以往研究发现:Yang等人(2015)发现语义相似性较高的实体在潜在空间中具有较高的相似度。例如,在涉及"居住地"与"国籍"的关系中体现出更高的相关性;而在涉及"职业"这一关系时,则与其他两类属性相比相关性较低。基于此观察基础之上可知,在现有知识图谱中存在足够的关联信号可用以支撑这一过程;然而由于现有知识图谱中的许多实体间存在一对多的关系配置情况;因此同一类别内的相关信息可能难以得到充分整合与利用;基于此考虑我们采用图卷积网络技术以学习显式的关系信息

为了有效整合关系知识而提出的方法中,我们首先通过卷积神经网络模型(Zeng团队的研究成果)对句子进行编码。接着设计了一种自上而下的知识感知注意力机制,在这一过程中将关系知识与编码后的句子结合到包表示向量中。通过这一创新性设计后发现,在提升下游任务性能方面取得了显著的效果。

基于NYT数据集的实验结果显示,在(1)相较于基线而言,我们提出的模型展现出显著优势,并且在处理长尾关系时表现尤为出色;(2)通过整合与实体相关的属性信息以及关联关系信息后,在改进RE性能的同时,我们的模型能够有效地通过图卷积网络架构来学习和捕捉这些关键的知识。

2. 相关工作

2.1 关系提取

监督的RE模型(Zelenko等,2003; GuoDong等,2005; Mooney和Bunescu,2006)需要足够数量的注释数据进行训练,这非常耗时。因此,(Mintz等人,2009)建议DS自动标记数据。DS不可避免地会伴随错误的标签问题。为了减轻噪声问题,(Riedel等,2010; Hoffmann等,2011)提出了多实例学习(MIL)机制。最近,神经模型已广泛用于关系提取。这些模型可以准确地捕获文本关系,而无需进行明确的语言学分析(Zeng等,2015; Lin等,2016; Zhang等,2018a)。为了进一步提高性能,一些研究纳入了外部信息(Zeng等,2017; Ji等,2017; Han等,2018a)和高级训练策略(Ye et al., 2017; Liu et al., 2017; Huang and Wang, 2017; Feng et al.,
2018; Zeng et al., 2018; Wu et al., 2017;Qin et al., 2018)。这些工作主要采用DS来制作大规模数据集,并减少由DS引起的噪声,而不管长尾关系的影响如何。

关于RE长尾的研究相对较少(Gui团队, 2016; Lei团队, 2018; Han团队, 2018b)。其中Gui团队开发了一种基于解释性的方法, 而Lei团队则采用了基于逻辑规则的外部知识。然而这些研究通常将每个单独的关系视为独立处理, 忽略了它们之间的语义关联。Han团队则提出了一个分层注意力机制专门用于处理RE问题。与其他方法不同的是我们采用了KG和GCN中的隐式与显式关系知识, 在学习过程中会发现类似的关系可能对应于不同的参数值。

2.2 知识图嵌入

最近years里多样化的KG嵌入模型不断涌现。这些模型旨在学习实体与关系的低维向量表示...(Bordes等人2013Wang等人2014Lin等人2015)。其中最知名的TransE(Bordes等研究者)通过将关系视为连接头实体到尾实体的几何转换在各种应用中展现出卓越性能。基于丰富的知识资源研究者们近期又提出了在KG指导下扩展DS模型的新方法...Han等人2018aWang等人2018Lei等人2018)。然而现有工作仍未能充分挖掘实体间的关系网络这一关键特征。针对这一缺陷已有学者致力于构建专门的知识结构来辅助推理任务Zhang等人2018b)。目前这项技术尚处于探索阶段。

2.3 图卷积网络

该网络将卷积神经网络扩展至二维及一维空间之外。(Defferrard及其合著者在2016年开发了一种频谱方法来实现高效的图卷积操作。(Kipf和Welling在2016年)假设输入实例中的图结构是已知的,并将该方法应用于半监督学习场景中。(Schlich...等人, 2018)将其成功应用于关系数据领域(如链接预测任务)。此外,在其他自然语言处理任务中也取得了显著成果包括语义角色标签、依赖项解析以及机器翻译等领域的应用。

我们工作的两项GCN研究在某些方面具有相似性。(Chen等人在2017年)在其结构化标签空间中应用了GCN技术。然而,在他们的实验中没有考虑长尾标签这一问题,并且未采取特别措施以引起关注;相反地,他们采用平均词向量来代表每个文档。(Rios和Kavuluru在2018年)通过将GCN技术应用于结构化标签空间,并提出了一种基于镜头的文本分类方法以及零镜头分类方法。然而,在我们所提出的标签层次图中采用了该技术。

3. 方法

在本节中,我们从符号开始介绍我们的RE方法的总体框架。

3.1 概念

我们以符号形式定义知识图谱(Knowledge Graph),记作G = (\varepsilon, R, F)。其中\varepsilonRF分别代表图中所涉及的知识体、知识关系以及具体的知识事实(Fact)。具体而言,在(\varepsilon,\mathcal{R})空间中的一对三元组(h,r,t)\in F表示在实体h\in \varepsilont\in \varepsilon之间存在关系r\in R这一事实性信息的存在。基于Multi-Instance Learning(MIL)理论框架,在实际应用中我们将所有实例划分为多个实体-关系对集合\{S_{(h₁,t₁)}, S_{(h₂,t₂)}, \dots\}。每一个这样的集合S_{(h_i,t_i)}包含了若干实例\{s_1,s_2,\dots\};这些实例都与对应的实体h_it_i相关联。对于每一个这样的集合s_i = \{w_1,w_2,\dots\}则由一个词序列构成。

3.2 框架

如图3所示,我们的模型包含3个部分:

图3:我们所提出的模型的框架

图3: 我们提出的模型的结构图

实例编码器 。我们通过深度学习模型将实例及其实体对的语义信息转化为向量表示,在该研究框架中,在兼顾性能与效率的前提下实现了基于卷积神经网络(CNN)的知识图谱编码器模块的设计与实现。
关系知识学习 。基于预训练的知识图谱嵌入(如TransE模型)作为隐式关系知识来源,在此基础上我们构建了显式的关系知识学习模块——图卷积网络(GCN)。通过整合通用的消息传递推理机制与神经网络架构设计理论,在类嵌入空间中生成更加优化的知识表示结果。
知识意识的注意力 。在得到最终类嵌入表示后,在该表示向量指导下动态调整注意力权重分布机制以选择与目标关系匹配度最高且信息丰富度最优的具体事实实体信息集作为输入数据源

3.3 实例编码器

给定一个实例s = \{w_1, ..., w_n\}提到了两个实体。我们将原始实例编码为连续的低维向量x ,该向量由嵌入层和编码层组成。\n\n嵌入层。\n\n嵌入层用于将实例中的离散单词映射为连续的输入嵌入。\n给定一个实例s ,我们映射实例中的每一个单词w_i到一个实值预训练的Skip-Gram(Mikolov等, 2013)嵌入中w_i \in \mathbb{R}^{d_w}。\n我们采用按照(Zeng等, 2014)方法进行位置嵌入。\n对于每个单词w_i ,我们将它到两个实体的相对距离嵌入到两个d_p维向量中。\n然后我们将单词嵌入与位置嵌入连接起来以实现每个单词的最终输入嵌入,并在实例中收集所有输入嵌入。\n因此我们获得了可用于编码层的嵌入序列。\n\n编码层。\n\n编码层旨在将给定实例的输入嵌入组成其相应的实例嵌插值在这项研究中我们选择两种卷积神经体系结构CNN(Zeng等, 2014)和PCNN(Zeng等, 2015)将输入插值编码为实例插值其他神经网络架构例如递归神经网络(Zhang和Wang, 2015)也可以用作句子编码器由于先前的工作表明卷积与递归体系结构都可以达到可比的新性能因此我们在本研究中选择了卷积体系结构。\n请注意我们的模型与编码器的选择无关因此可以轻松地适应其他编码器架构

3.4 通过KG嵌入和GCNs的关系知识学习

基于预训练的知识图谱嵌入模型以及预先定义的关系层次结构(若数据集缺乏预定义关系,则可采用聚类方法如Johnson, 1967或K-means算法Zhang et al., 2018b),补充材料中提供详细说明。

3.5 知识意识的注意力

传统上,在PCNN和CNN架构中,输出层是通过交叉熵损失函数进行优化以实现对具体类别标记的学习过程。然而,在每个分类任务中存在独特的参数空间针对每个关系而言,并非所有的分类任务都能提供充分的相关事实数据以保证模型具有良好的泛化能力。相反地,我们的方法通过匹配句子向量与其对应的类嵌入来解决这个问题而非直接学习标签相关的注意参数。本质上这转化为一个检索问题来自类嵌入的信息包含了关于长尾分布之间的有用关系

基于给定的关系对(h,t)及其对应的实例包S_{h,t}={\{s_1,s_2,...,s_m\}},我们通过句子编码器生成实例嵌入表示\{s_1,s_2,...,s_m\}。依据它们的类型(即根据层次结构标签图中的层级划分),我们将类嵌入分为不同的组别。具体来说,在层次结构标签图中第i层(其中i≠L时为虚拟父节点)对应的查询向量为q_r^i。在每一层上,我们利用这些查询向量来进行分层注意力机制的计算。对于每一个关系r而言,在构建其父关系层级链式结构时(即r^0, r^1, ..., r^{L-1}),其中r^{i-1}r^i的子关系。为了计算每个实例特征向量s_k与查询向量q_r^i之间的注意力权重(即相似性或相关性),我们提出了以下公式:e_k=W_s(\tanh[s_k;q_r^i])+b_s其中s_k;q_r^i表示将两个向量垂直拼接起来的操作;矩阵W_s代表权重参数;常数b_s是偏置项;指数函数\exp(e_k)被归一化处理以保证总和为1:\alpha_k^i=\frac {exp(e_k)} {\sum_{j=1}^{m} exp(e_j)}............................(3)在此基础上,在每一层级上我们执行注意力操作以获得相应的文本关系表示:r_{h,t}^i=ATT(q_r^i,\{s_1,s_2,...,s_m\}).............................(4)

随后,在各层次上整合关系表示成为必要的步骤之一。 简单的方式是将所有表示进行直接连接以形成统一的整体结构; 但这可能会导致信息丢失或影响模型性能。 实际应用中需根据具体需求权衡各层次之间的相互作用与贡献比例。 例如,在特定层级下只存在单一的关系支路(如仅有一个子关系/location/br_state/capital),这表明这种关系在整体结构中更为关键;而且当某类特定的关系(如与地理位置相关的层级)受到特别关注时,则其对应的分支(如与首都相关的地理位置)也应当被赋予更高的权重系数。 进一步地,在计算最终的关系表示时我们采用加权聚合的方式将各层次上的结果进行综合;这种处理方式既能够有效保留关键信息又不会过度简化复杂的语义关联网络

此处补充了对函数作用的具体描述

此处补充了加权平均的作用解释

此处补充了融合特征的作用

4. 实验

4.1 数据集和评估

该研究基于(Riedel等人, 2010)提出的NYT数据集进行模型性能评估。该数据集已被近期多项研究广泛关注(Lin等人, 2016; Liu等人, 2017; Wu等人, 2017; Feng 等人, 2018)。该集合包含丰富的语义信息,在现有研究中表现出良好的适用性。具体而言,在训练阶段我们采用了包含了大量的训练样本(53种关系类型),其中包括了无对应关系(NA关系)。实验数据显示,在训练集中共有544,669个句子、398,948个实体对以及约4.9万条有效事实;而在测试阶段则有约4.7万条有效事实支撑。值得注意的是,在实际应用中我们发现:只有少部分样本需要人工干预处理(超过120个单词的句子),因此我们采取了对长度过长的样本进行了人工截断处理。

在持续评估过程中对所有模型进行评估。 该系统通过比较测试文章中的事实与Freebase的事实来验证其性能,并在此过程中提供了一个近似的准确度指标,在无需人工干预的情况下完成这一过程。 为了全面分析每个模型的表现特征,在绘制精确召回曲线的同时也计算了相关的准确度指标作为辅助评价依据。 进一步考察本研究对长尾分布特性的适应性时,在参考Han等人的研究基础上(Han等人, 2018b),我们报告了Precision @ N的结果这一关键指标以展示本方法的优势所在。 获取实验所需数据集和基准线代码可以从GitHub平台上的资源库(https://github.com/thunlp/OpenNRE)中下载获得。

4.2 参数设定

为了使我们的模型评估结果具有可比性并便于与其他基准进行对比分析,在设计实验参数时我们采用了Lin等人(2016)所提出的方法。在模型架构设计阶段引入了dropout机制以抑制模型过拟合这一潜在风险。此外在开始训练前我们对句子进行了过词干处理并将其输入到预训练好的PCNN编码器中以获取可靠的初始表示空间。

4.3 整体评估结果

为了验证该模型的表现,我们对实验结果进行了系统性分析,并与现有相关工作进行了对比实验。具体而言,在图4中展示了各候选方案在开发集上的表现情况,在图5则展示了在测试集上的实验结果对比情况。通过对比实验可以看出,在相同的计算资源条件下(包括CNN和PCNN等神经网络架构),KATT表示本研究提出的方法,并采用分层注意力机制(Han团队提出),而ATT则代表Lin团队提出的基于实例的选择性注意力机制(Lin等人2016)。此外,在ATT的基础上进一步优化的方法包括:在实例嵌入中加入对抗干扰以提升鲁棒性(Wu等人2017),以及采用软标签策略减轻实体级别的标签错误问题(Liu等人2017)。同时将本研究的方法与现有的特征基线方法进行了对比分析

图4:提出的模型与不同的基线模型之间的精确召回曲线

图4:我们提出的模型与其他不同的基线模型之间的精确率-召回率曲线

图5:提出的模型与其他基于注意力的神经网络模型的精确召回曲线

图5:本研究提出的方法与现有方案在性能评估曲线上的对比分析

如图所示, 本方法在基于注意力机制的所有模型架构中均展现出卓越的效果. 即使对比于采用了复杂降噪方案以及额外辅助信息的PCNN-HATT、PCNN-ATT-ADV及PCNN-ATT-SL等模型, 我们的模型依然具有显著的优势. 这一结果充分证明了我们方法在挖掘知识图谱与图卷积网络之间深层关联方面的突出能力, 并有效提升了性能水平. 针对性能优化方向, 我们认为可进一步探索对抗训练与强化学习等技术的应用, 相关研究工作将作为我们未来探索的重要方向之一进行推进.

4.4 长尾关系的评估结果

为了进一步验证长尾关系性能的改进,在Han等人(2018b)的研究基础上,我们从测试数据集中提取了子集,并确保其中所有关系样本数量均低于100/200个训练实例。通过使用Hits@K指标对模型性能进行评估,在每个实体对中均基于模型推荐的前K个候选关系中的对应黄金标准关系展开计算。由于现有模型难以有效提取长尾模式特征,在具体实现时我们选择了合适的K值(取自10、15、20这三个值)。为避免过小规模样本带来的偏差影响,在计算并报告了这些子集上的宏精度值的基础上(表1所示),我们观察到对于CNN和PCNN模型而言,我们的模型在性能上均显著优于普通注意机制以及HATT模型。尽管与普通ATT方法及HATT方法相比,在长尾模式识别方面我们的KATT方法依然存在明显优势(表1所示),但目前所有这些方案的表现仍远未达到理想水平。这表明基于远程监督的传统实体重现(RE)模型仍存在明显的局限性,在未来研究中可能需要引入新的方案和技术以彻底解决这一问题

表1,在分别少于100或200的训练实例的关联上的Hits@K的准确性(%)

表1:在分别少于100或200的训练实例的关联上的Hits@K的准确性(%)

4.5 消融研究

我们通过消融实验来评估不同技术的贡献与效果。对比实验表明:+KATT 作为我们的核心方法具有显著的优势;不带层次结构注意力的方法仅依赖于层次结构标签图的底层节点嵌入(即未进行跨层级的知识迁移);不带GCN层的方法无法捕获节点间的关系信息(即缺少明确的关系知识)。此外,在 Word2vec 初始化下采用预训练Skip-Gram模型生成节点向量(Mikolov 等, 2013),而无知识图谱约束则完全随机初始化节点向量(即未引入任何先验关系知识)。从表 2 的实验结果来看,在去除全局关注机制的情况下性能表现稍有下降,在删除GCN层时则明显影响了模型性能(即关系推理能力较弱)。这表明全局关注机制能够促进高层别到低层级的知识迁移是有益的。此外,在完全不使用知识图谱约束及无向量初始化的情况下模型性能会有所下降(即基础能力较弱),而删除GCN层则会导致显著性能退化(即缺少关键的关系推理能力)。这些现象都是合理的因为GCN层能够更好地捕捉明确的关系标签间的关联性从而提升了长尾关系的表现

表2:PCNN消融研究的结果

表2:PCNN消融研究的结果。

4.6 案例研究

举例来说,在表3中我们可以看到HATT与KATT方法均能在较高层次上正确选择出相关句子(这些信息在补充材料中详尽阐述)。值得注意的是,在这种情况下人们倾向于将注意力集中在与实体相关的特定位置上:即与实体直接相关的位置以及其所在实体类别中的典型位置(例如与实体直接相关的位置以及其所在实体类别中的典型位置)。具体而言 关系people/deceased_person/place_of_burial拥有24个实例而location/st_tate/capital拥有4个实例均为长尾关系;而另一方面 关系people/deceased_person/place_of_burial具有语义相似的数据丰富的关联例如people/deceased_person/place_of_death 研究表明HATT会错误地将高关注度分配给不正确的关系而KATT则成功地将关注权重分配至正确的关系这表明基于语义相似性的知识转移是高度有效的;另一方面 关系location/st_tate/capital并未具有任何语义相似的关系 但有趣的是尽管如此KATT仍成功地将注意权重分配至正确的关系这表明即使缺乏语义相似性的基础也能通过粗糙至精细的知识意识机制实现有效的知识转移。

表3:案例研究中的示例句子

表3:案例研究中的示例句子

4.7 类嵌入的可视化

我们利用t-SNE技术对类嵌入进行可视化展示(Maaten和Hinton, 2008),以便进一步探讨GCN与知识图谱嵌入在关系抽取中的应用。观察到

  • (1)图6(a)与6(d)结果显示,在语义相似的类别嵌入与GCN以及预训练的知识图谱嵌入之间存在较高的相似性度量值。这种现象有助于我们更有信心地选择长尾实例进行分析。
    • (2)图6(b)与6(c)对比则显示出,在不同关系对下所学习到的类间关系知识具有不同的贡献程度。具体而言,在location \rightarrow location \rightarrow contain这类层级特征较为稀疏的情况下会导致GCN的学习效率较低;而相对距离的变化范围较小,则进一步凸显了来自知识图谱隐式关系知识的重要性。
    • (3)图6(d)中的结果表明,在某些情况下即使存在语义相似的类别嵌入也可能处于较远的空间位置上;这种现象可能源于层次结构标签网络中存在的稀疏性问题或是对具有相同父节点节点的一一平等对待假设;这一假设有待进一步验证并修正。基于此基础我们计划在未来研究工作中引入更多元化的辅助信息如关系描述或组合逻辑推理等来解决该问题
图6

图6展示了基于类嵌入的T-SNE可视化结果。右上角的集群代表与地理位置相关的联系性较强的关系类型(location),而左下角的集群则对应与人群相关的联系性较强的情况(people groups)。正方形、三角形和星形分别标识高阶地理位置关系(high location)、中阶地理位置关系(mid location/location)以及基础层面的空间包含关系(basic location/location contains)。

5. 结论和未来的工作

在本文中, 我们通过以数据为基础的分布, 以增强各类知识为目标, 提高了数据贫乏类的表现. 相较于以往的方法, 我们的创新之处在于基于KG和GCN之间建立了细粒度的关系知识网络, 这一方法不仅具有显著的效果, 而且完全不受编码器的影响.

未来, 我们拟开展研究聚焦于以下几个前沿领域: (1) 我们计划将现有方法与当前最先进降噪算法进行深度融合, 从而显著提升模型性能.(2) 同时, 我们致力于集成应用规则挖掘与推理技术, 以期构建更加高效的类嵌入学习体系.(3) 此外, 我们的方案还包含将其拓展至zero-shot RE任务, 并同时实现其在其他相关任务中的应用

致谢

我们衷心感谢匿名审稿人付出的心血与宝贵意见。这些反馈将在未来有助于提升我们工作的质量。该研究受到国家自然科学基金项目编号NSFC91846204/61473260、国家重点研发计划项目YS2018YFB140004、阿里巴巴集团"藏经阁"知识引擎研究专项以及浙江省自然科学基金项目LQ19F030001的支持。

参考文献

  1. Joost Bastings, Ivan Titov, Wilker Aziz, Diego Marcheggiani, and Khalil Sima’an. 2017. Graph convolutional encoders for syntax-aware neural machine translation. arXiv preprint arXiv:1704.04675.

  2. Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran,Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Proceedings of NIPS, pages 2787–2795.

  3. Meihao Chen, Zhuoru Lin, and Kyunghyun Cho. 2017. Graph convolutional networks for classification with a structured label space. arXiv preprint arXiv:1710.04908.

  4. Michae¨l Defferrard, Xavier Bresson, and Pierre Van-dergheynst.2016. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in Neural Information Processing Systems, pages 3844–3852.

  5. Jun Feng, Minlie Huang, Li Zhao, Yang Yang, and Xiaoyan Zhu. 2018. Reinforcement learning for rela- tion classification from noisy data. In Proceedings of AAAI.

  6. Yaocheng Gui, Qian Liu, Man Zhu, and Zhiqiang Gao. 2016.Exploring long tail data in distantly supervised relation extraction. In Natural Language Understanding and Intelligent Applications, pages 514–522. Springer.

  7. Zhou GuoDong, Su Jian, Zhang Jie, and Zhang Min. 2005. Exploring various knowledge in relation extraction. In Proceedings of the 43rd annual meeting on association for computational linguistics, pages 427–434. Association for Computational Linguistics.

  8. Xu Han, Zhiyuan Liu, and Maosong Sun. 2018a. Neural knowledge acquisition via mutual attention between knowledge graph and text.

  9. Xu Han, Pengfei Yu, Zhiyuan Liu, Maosong Sun, and Peng Li. 2018b. Hierarchical relation extraction with coarse-to-fine grained attention. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2236–2245.

  10. Raphael Hoffmann, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel S Weld. 2011. Knowledge-based weak supervision for
    information extraction of overlapping relations. In Proceedings of ACL, pages 541–550. Association for Computational Linguistics.

  11. Yi Yao Huang and William Yang Wang. 2017. Deep residual learning for weakly-supervised relation extraction. arXiv preprint arXiv:1707.08866.

  12. Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao, et al. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In Proceedings of AAAI, pages 3060–3066.

  13. Stephen C Johnson. 1967. Hierarchical clustering schemes. Psychometrika, 32(3):241–254.

  14. Thomas N Kipf and Max Welling. 2016. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.

  15. Kai Lei, Daoyuan Chen, Yaliang Li, Nan Du, Min Yang, Wei Fan, and Ying Shen. 2018. Cooperative denoising for distantly supervised relation extraction. In Proceedings of Coling, pages 426–436.

  16. Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In AAAI, volume 15, pages 2181–2187.

  17. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of ACL, volume 1, pages 2124–2133.

  18. Tianyu Liu, Kexiang Wang, Baobao Chang, and Zhifang Sui. 2017. A soft-label method for noise tolerant distantly supervised relation extraction. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1790–1795.

  19. Laurens vander Maaten and Geoffrey Hinton. 2008. Visualizing data using t-sne. Journal of machine learning research, 9(Nov):2579–2605.

  20. Diego Marcheggiani and Ivan Titov. 2017. Encoding sentences with graph convolutional networks for semantic role labeling. arXiv preprint arXiv:1703.04826.

  21. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

  22. Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2, pages 1003–1011. Association for Computational Linguistics.

  23. Raymond J Mooney and Razvan C Bunescu. 2006. Subsequence kernels for relation extraction. In Advances in neural information processing systems, pages 171–178.

  24. Vinod Nair and Geoffrey E Hinton. 2010. Rectified linear units improve restricted boltzmann machines. In Proceedings of ICML,
    pages 807–814.

  25. Pengda Qin, Weiran Xu, and William Yang Wang. 2018. DAGAN: 基于生成对抗训练的远程监督关系提取方法。In Proceed-ings of ACL.

  26. Sebastian Riedel, Limin Yao, and Andrew McCallum. 2010. Sebastian Riedel等人的研究则提出了一种无需标注文本的建模关系及其提及的方法。In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 148–163. Springer.

anthonyriosandramakanthkavuluru.2018.fewshotandzero-shotmulti-lavelarningforstructuredlabelspaces.intheconferenceonproceedingsofemnlp(pages3132–3142).

Strubell and McCallum co-authored a study in 2017 on dilated iterated graph convolutional neural networks (CNNs) for dependency parsing, which was published as an arXiv preprint (ID: 1705.00403).

Surdeanu et al. conducted research in 2012 on multiple instance multi-label learning techniques applied to relation extraction, presenting their findings at the EMNLP conference (pages 455–465).

Wang et al. explored label-free distant supervision methods for relation extraction using knowledge graph embeddings in a paper presented at the EMNLP conference (pages 2246–2255) in 2018.

Wang et al. introduced a deep learning approach for modeling the tail of hierarchical relations during the NIPS conference proceedings in 2017 (pages 7029–7039).

Wang et al. proposed a knowledge graph embedding method based on hyperplane translation at the AAAI conference in 2014 (pages 1112–1119).

Wu et al. applied adversarial training techniques to improve relation extraction models during the EMNLP conference proceedings in 2017 (pages 1778–1783).

Yang et al. developed entity and relation embedding methods for knowledge base learning within the ICLR conference proceedings in 2015.

Ye et al. presented a joint relation extraction framework incorporating class ties via effective deep ranking at the ACL conference proceedings (volume 1) in 2017 (pages 1810–1820).

Zelenko et al. investigated kernel methods for relation extraction within the Journal of Machine Learning Research in February 2003 (volume 3, pages 1083–1106).

Zeng et al. utilized piecewise convolutional neural networks for distant supervision-based relation extraction during the EMNLP conference proceedings in 2015 (pages 1753–1762).

全部评论 (0)

还没有任何评论哟~