Advertisement

Relation Classification via Recurrent Neural Network论文阅读笔记

阅读量:

背景:

从Zeng等提出CNN深度学习模型解决关系分类问题开始(Relation Classification via Convolutional Deep Neural Network),陆续提出了很多模型,如MW-CNN(2015),CR-CNN(2015),DepLCNN(2015)等。虽然也有一些基于其他架构的模型,如MV-RNN(2012,它是一个递归网络,并不是时序模型),FCM(2014),SDP-LSTM(2015),总体来说,CNN模型占据主导地位。

本文的主要贡献:
1.提出了基于RNN的框架,来对长距离关系模式建模。

2.证实了在SemEval-2010task8以及KBP37(新数据集)上,该模型由于基于CNN的模型。

3.使用了Position Indicator(PI),比Zeng(2014)提出的Position Feature(PF)更具通用性。

4.实证分析了基于RNN的方法在远程模式建模方面的能力。

由于自然语言的时序性,关系学习本质上是一个时序学习任务,应当使用时序模型。

CNN模型只能学习局部模式,不适合长距离建模。简单地增大CNN卷积窗口的大小是行不通的。MW-CNN(Multiple Window-CNN)中提出的方法虽然有效,但涉及更多的计算,且调整窗口大小并不容易。

Model:

1.Word Embedding

使用word2vec预训练的embedding。

2.Bi-directional network

基本的双向RNN模型

3.Max-pooling(新颖)

在实践中,由于循环连接的积累,会导致很快遗忘长期信息,且由于梯度消失问题,导致模型很难进行反向传播。

由此提出了使用CNN中的Max Pooling,从隐状态的每个维度中选出最大值,拼接成句子级特征向量,其维度与隐状态维度一致。

4.Model training

softmax回归,交叉熵损失,随机梯度下降。

5.Position Indicators

Zeng(2014)中提出的PF,为词向量额外增加了位置向量。

而由于在RNN中,由于模型学习整个单词序列,每个单词的相对位置信息可以在前向或后向递归传播中自动获取。因此,在单词序列中注释目标名词就足够了,而不需要更改输入向量。

如: “ people have been moving back into downtown ”.

对SemEval-2010task8数据集,由于没有官方划分的开发集,故采用8折交叉验证来调整超参数。

对KBP37数据集,划分10%作为开发集,调整超参数。

实验结果:
****

RNN模型优于CNN(2014)和MV-RNN(2012)。

RNN模型比使用语法解析作为额外资源的MV-RNN模型表现得更好。这表明RNN可以有效地从原始文本中学习关系模式,而无需任何明确的语言知识。

讨论:

1.长文本的影响

根据context的长度将测试集划分为5个部分,以验证RNN处理长序列的能力。

结果表明,context长度较大时,RNN模型性能明显优于CNN。

同时,PF可能更适合CNN,而PI可能更适合RNN。

2.长文本的比例

SemEval-2010task8数据集具有一定的局限性,它含有长句子的比例太少,不能充分展现不同模型的优势。

3.语义积累(新颖)

作者做了一个有趣的实验,以分析一个句子的语义是如何在模型中形成的。

结果表明:RNN一个词一个词地积累句子的语义,而CNN必须学习两个局部模式并将它们合并。显然,RNN模型更加合理。同时,RNN形成的语义分布比CNN更加平滑。

全部评论 (0)

还没有任何评论哟~