Relation Classification via Recurrent Neural Network论文阅读笔记
背景:
从Zeng等提出CNN深度学习模型解决关系分类问题开始(Relation Classification via Convolutional Deep Neural Network),陆续提出了很多模型,如MW-CNN(2015),CR-CNN(2015),DepLCNN(2015)等。虽然也有一些基于其他架构的模型,如MV-RNN(2012,它是一个递归网络,并不是时序模型),FCM(2014),SDP-LSTM(2015),总体来说,CNN模型占据主导地位。
本文的主要贡献:
1.提出了基于RNN的框架,来对长距离关系模式建模。
2.证实了在SemEval-2010task8以及KBP37(新数据集)上,该模型由于基于CNN的模型。
3.使用了Position Indicator(PI),比Zeng(2014)提出的Position Feature(PF)更具通用性。
4.实证分析了基于RNN的方法在远程模式建模方面的能力。
由于自然语言的时序性,关系学习本质上是一个时序学习任务,应当使用时序模型。
CNN模型只能学习局部模式,不适合长距离建模。简单地增大CNN卷积窗口的大小是行不通的。MW-CNN(Multiple Window-CNN)中提出的方法虽然有效,但涉及更多的计算,且调整窗口大小并不容易。

Model:
1.Word Embedding
使用word2vec预训练的embedding。
2.Bi-directional network
基本的双向RNN模型
3.Max-pooling(新颖)
在实践中,由于循环连接的积累,会导致很快遗忘长期信息,且由于梯度消失问题,导致模型很难进行反向传播。
由此提出了使用CNN中的Max Pooling,从隐状态的每个维度中选出最大值,拼接成句子级特征向量,其维度与隐状态维度一致。
4.Model training
softmax回归,交叉熵损失,随机梯度下降。
5.Position Indicators
Zeng(2014)中提出的PF,为词向量额外增加了位置向量。
而由于在RNN中,由于模型学习整个单词序列,每个单词的相对位置信息可以在前向或后向递归传播中自动获取。因此,在单词序列中注释目标名词就足够了,而不需要更改输入向量。
如: “
对SemEval-2010task8数据集,由于没有官方划分的开发集,故采用8折交叉验证来调整超参数。
对KBP37数据集,划分10%作为开发集,调整超参数。
实验结果:
****
RNN模型优于CNN(2014)和MV-RNN(2012)。
RNN模型比使用语法解析作为额外资源的MV-RNN模型表现得更好。这表明RNN可以有效地从原始文本中学习关系模式,而无需任何明确的语言知识。
讨论:
1.长文本的影响
根据context的长度将测试集划分为5个部分,以验证RNN处理长序列的能力。

结果表明,context长度较大时,RNN模型性能明显优于CNN。
同时,PF可能更适合CNN,而PI可能更适合RNN。
2.长文本的比例

SemEval-2010task8数据集具有一定的局限性,它含有长句子的比例太少,不能充分展现不同模型的优势。
3.语义积累(新颖)
作者做了一个有趣的实验,以分析一个句子的语义是如何在模型中形成的。
结果表明:RNN一个词一个词地积累句子的语义,而CNN必须学习两个局部模式并将它们合并。显然,RNN模型更加合理。同时,RNN形成的语义分布比CNN更加平滑。
