Advertisement

论文笔记:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Network

阅读量:

提出使用多实例结合分段CNN进行关系抽取

针对远程监督中运用启发式方法来处理这些错误标签以及在特征提取过程中产生的噪音等两个问题,在本研究中我们开发了一种基于分段卷积神经网络的多实例学习方法。该模型包含以下两个组成部分:第一部分主要负责错误标签识别的第一阶段卷积模块;第二部分则专注于实现特征提取与去噪功能的第二阶段卷积模块。

复制代码
      将远程监督关系抽取问题看作一个多实例问题,将不确定的实例标签纳入考虑
      采用分段最大池化的CNN来自动学习特征,避免使用复杂的特征工程

该论文主要分为以下几部分

一、引言

首先阐述了远程监督这一概念及其背景分析,并揭示了该方法存在的两大局限性:其一,在远程监督应用中要求数据具有高度准确性才能避免出现明显的错误标签;其二,在将远程监督获得的数据应用于特征工程时由于NLP分析精度不足可能导致误差逐步累积扩大。在此背景下,本文提出了一种基于多实例学习的分段卷积神经网络模型以解决上述问题。具体而言,在多实例学习中,训练集由多个包组成每个包内部包含大量样本实例。每个包整体有明确标签属性但内部单个样本的具体标签未知,在模型设计时充分考虑了这一点。在特征提取过程中,则采用了一种创新的方法将卷积结果根据实体的位置特异性划分为三个独立的部分分别对每个区域提取最大值特征后进行融合汇总以提高模型的整体识别效果

主要贡献:
  1. 采用PCNN而非人工设计的特征进行远程监督关系提取
  2. 通过将多实例学习整合到PCNN中以解决错误标签问题
  3. 设计一种分段最大池化机制用于捕获数据中的结构信息

二、相关工作

概述了前人在处理关系抽取任务时应对数据不足问题所采取的一些改进措施,并由这些局限性促使我们提出这一方法

三、方法

复制代码
    该模型抽取的过程分为四步:向量表示-->卷积-->分段最大池化-->softmax输出!
在这里插入图片描述

Figure1:PCNN总体框架

基于已训练的词向量嵌入表对输入单词进行映射,在每个文本中对每个词项其对应的向量表示均基于该词项的词向量以及位置编码共同构建,并将这些结果作为矩阵S ∈ R^s×d的输入。

卷积:能够充分地利用各处的局部特征,并对其进行融合处理。卷积操作实际上相当于将一个滤波器w与输入序列qi进行点乘运算,并完成一次融合过程以得到输出结果qi’=w·qi+bi.

在这里插入图片描述

当使用n个滤波器时,即W={w1,w2,…wn},此时的卷积结果为

在这里插入图片描述

段落级最大值聚合:单一最大池化操作会导致隐藏层尺寸显著缩小的同时也存在过粗放的问题难以有效提取细微的特征信息。本文提出了一种改进方法即将一个实例划分为三个区间并在每个区间内分别进行最大值提取然后将各个区间的最大值进行汇总处理最后通过双曲正切函数进行融合计算以增强特征表达能力

在这里插入图片描述

用于计算每个关系的置信度,并将特征向量g输入到Softmax分类器中进行处理

在这里插入图片描述

o 为最终输出结果,经过softmax处理后,输出o会标注出关系r相应的得分。

多实例学习:将每个包视为训练数据输入网络,并设有T个这样的包,在每个包中均包含q个具体样本。这种学习方法的主要目标是推断未知样本集合中各包装的状态。该方法仅在输出中存在至少一个积极实例标签时才标记该包装为积极标签。

四、实验

首先阐述所采用的数据集及其对应的评测指标。随后利用交叉验证的技术对变量进行筛选,并确定实验的最佳参数设置。接着将该方法与若干传统的方法进行了对比分析。

  • 为实现Freebase关系与NYT语料的对齐生成实验数据集。
  • 采用Hold-out方法和手工评测方法作为评测指标。

2.预训练词向量与参数设置:

  • 采用word2vec的skip-gram模型用于生成词向量,并将其维度设定为d=50
    • 实验参数设置如下:
插入图片描述

表1 实验所用的参数

3.与传统方法进行的比较:

在这里插入图片描述

如上图所示:

  • 采用held-out数据集作为评测工具:研究表明,本文提出的方法相较于传统方法,在抽取性能上取得了显著提升。这一结果进一步验证了本研究者所提出的基于PCNN的多实例远程监督抽取方法的有效性。
  • 采用人工评估的方式:在应用HelD-out技术进行评估时发现了假阴问题(即误将正确实例判定为错误实例)。为了量化该方法的表现效果,在实际应用中我们通过人工计算前N个关系的精确度(即准确率),结果显示PCNN结合MIL模型能够获得较好的性能表现(具体数据见下表)。
在这里插入图片描述

4分段最大池化和多实例的影响:设置几组对比实验

  • 仅依赖CNNs完成关系提取
  • 仅采用PCNNs进行关系识别
  • 基于CNNs结合MIL的方法用于关系提取
  • 基于PCNNs结合MIL的技术用于关系识别
    如图所示:
在这里插入图片描述

进一步说明引入多实例学习能有效解决错误标签的问题

五、总结

在本文的研究中

在本文的研究中

全部评论 (0)

还没有任何评论哟~