Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
主要贡献
- 采用PCNN这一机制以自动提取特征。
- 通过引入multi-instance learning技术,并用于缓解远程监督导致的误标问题。
- 采用逐段施用max pooling机制的方式,并着重考虑两个Entity间的结构特性。
作者最早提出了一种分类方法体系,在这一领域内主要包含两种典型的研究方向:
1. 基于特征的方法通常需要为数据集寻找一种合适的特征表示方式以提高分类效果;
2. 基于kernel的技术则能有效提取输入空间中的复杂模式信息,并且提出了多种不同的核函数类型(例如:convolution tree kernel,subsequence kernel,以及dependency tree kernel)。
网络架构

该网络架构由四个核心模块构成:向量表示、卷积操作、分段最大池化以及Softmax分类器。
Vector representation
- Word embeddings采用了Word2Vec模型。
- Position embeddings则基于当前词与两个目标词之间的距离,并且设置为二维(即两维)。
上图展示了Vector representation这一部分,在该示意图中,
Word embeddings的维数分别为4,
Position embeddings的维数分别为2,
整个向量空间的维数d等于6(即d=6)。
Convolution
作者给出了以下定义:
- 一个特征图的参数是\mathbf{w} \in \mathbb{R}^{w*d}。
- 包含s个单词的句子经过卷积后得到的结果是\mathbf{c} \in \mathbb{R}^{s-w+1}。
- 定义了一系列特征图集合\{\mathbf{w}_1 , \mathbf{w}_2, ..., \mathbf{w}_n\}\}(如图所示当n=3时),产生了绿色、蓝色和橙色三个特征图。
Piecewise Max Pooling(分段max pooling)
参考Figure3可以看出, 其输出结果为\mathbf{C}属于实数空间\mathbb{R}^{n*(s+w-1)}. 作者将每行卷积结果划分为三个部分, 按照两个预设的实体作为分隔标志, 在图中使用灰色分隔线表示这些划分点. 接着会对每个卷积结果进行最大池化操作:
经过处理后\mathbf{C}中的每一行都会被转换为长度为3的一个向量\mathbf{p_i} = \{p_{i1}, p_{i2}, p_{i3}\};然后将这些向量连接起来形成一个长度为3n的新向量q;接着对这个新向量应用tanh函数进行非线性变换得到结果向量g = tanh(q)
Softmax Output
将g喂入soft max 分类器:
在模型中,在输入层设置了一个大小为n_1*3n的权重矩阵W₁∈ℝ^{n₁×3n}(其中ℝ表示实数集)。输出o被定义为该层的计算结果,并且为了防止过拟合,在这一层还引入了一个dropout机制。
Multi-instance Learning
作者按照一定的标准将所有的句子划分为T个不同的集合\{M_1,M_2,\cdots,M_T\}。
每个集合中包含有q_i数量的句子M_i = \{m_i^1,m_i^2,\cdots,m_i^{q_i}\}。
算法具体来说包括以下几个步骤:
首先初始化各个参数为零。
然后对于每一个输入的样本x。
计算其在各个类别的概率值p(y|x)。
接着找出其中最大的那个概率值p_{max}。
并记录对应的类别标签y_{max}。
最后输出结果y_{max}。

损失函数使用交叉熵
实验结果


