A Fast and Accurate Dependency Parser using Neural Networks笔记
一、文章工作
开发了一种新型的学习神经网络分类器的方法,并将其应用于贪心(greedy)以及基于转移状态(transition-based)的依存语法解析系统中
二、文章贡献
证实了在解析任务中获得的密集表示具有显著优势;
设计了一种综合性能表现优异的神经网络体系结构;
提出了基于立方的新神经网络激活函数形式,并能更有效地捕捉高阶交互特征。
三、基于过渡的依存解析

主要目标是推演从初始状态到最终状态的转换过程,并通过一系列步骤构建目标依赖解析树;这一过程基于句法分析的方法。
栈(stack):存储已经分析过的词;
缓冲(buffer):待分析的词。
The selection of transition depends on the current state (configuration) and employs a greedy algorithm. Although it causes about 1% accuracy loss, the speed has been significantly improved.
2. 状态configuration: c=(s,b,A),s代表栈,b代表缓冲,A代表当前已经画好的依赖弧集合;
假设一个句子为

,

,…

.(

都是句子中的单词)
初始状态:s=[ROOT],b=[

,

,…

],A=

最终状态:s=[ROOT],buffer为空
三种transition行为:


代表栈的第几个top元素(栈先进后出,按出的顺序算第几个);

对应缓冲的第几个元素;

,

代表依赖关系l总共的种类数,那么在一个状态中就有2

+1种transition
3.可以在一个configuration中获得三类信息。
每一个单词及其所对应的词性标记;比如has/VBZ;每个单词的主语和宾语关系;比如nsubj,dobj;它们在处理过程中所处的位置;或者它们是否已经从栈中被移除了。
4.传统方法提取的特征具有稀疏性、不完整以及成本高的缺点

四、基于神经网络的解析器
1.模型
每个单词表示为一个d维向量

,完整的嵌入矩阵就是

,

是字典大小
同理,也将POS标签和弧标签映射到二维向量空间,

,嵌入矩阵分别是


整个模型分为三层
- 输入层:从

在中选取元素归入输入层(单词、词性标注以及弧的元素特征集合),每种类型的数量表示。

表示
- 隐藏层:通过立方激活函数将

个节点的输入层数据映射到隐藏层。

- softmax layer: 在隐藏层顶端部分增加了 softmax layer 以用于 modeling multi-class probability.

POS and label embeddings
第一次尝试将他们进行嵌入而非使用离散表示
P={NN,NNP,NNS,DT,JJ,……}
L={amod,tmod,nsubj,csubj,dobj,……}
尽管POS标签集合和弧标签集合都属于规模较小且离散的集合体,在某些方面却展现出与单词相类似的语义特性。例如,在与DT(名词单数)的关系中,NN(名词单数)与其后的NNS(名词复数)之间表现出较高的相似度;而在相对于nsubj(主语后置)的关系中,则显示出amod(表modification)与其后的num(数字)之间具有较强的关联性。
Cube activation function

使用

可以直接对输入层任意三个不同元素的

的乘积项建模。


,

,

可以来自嵌入的三个不同的维度,这更好的捕获了三个元素的交互。
The choice of

,

,


栈中的前三项及缓冲区;在栈中的前两个元素的第一位和第二位分别存在左依存与右依存;对于这些元素而言,在其左侧还有左侧依存,在右侧则有右侧依存。
2.训练

训练目标:最小化交叉熵和一个

正则化项
3.解析
在预设阶段内会先处理高频词,并将它们的嵌入向量与其对应的权重矩阵相乘。通过预先计算这些结果来加速后续解析过程的速度提升幅度显著提升了解析效率
五、实验
1.数据集
The English Penn Treebank (PTB), also referred to as the Penn Treebank, is a widely recognized corpus of annotated English sentences. It is divided into two primary categories of syntactic dependencies: CoNLL Syntactic Dependencies (CD), which are based on the CoNLL-2000 annotation scheme, and Stanford Basic Dependencies (SD), developed by the Stanford Natural Language Processing group.
中文:Chinese Penn Treebank(CTB)

2.实验结果
embedding size : d=50
hidden layer: h=200
regularization parameter :

=

initial learning rate of Adagard :

=0.01
本研究采用神经网络技术作为核心方法。在早期研究中主要探讨了两类特征模板类型:即arc-eager系统与arc-standard系统。此外,在选择解析工具时我们采用了两个广为人知的解析器工具:Malt-Parser 和 MSTParser.
两种指标:U型无标记连接分数(UAS)仅用于预测三种转换关系类型中的哪一个,以及L型有标记连接分数(LAS)同时用于预测哪一种依赖关系。



3.各种对比试验

立方激活函数效果最好

使用与训练的词向量初始化效果更好

这个词性和现有的依赖关系在作为输入时有其价值,在自然语言处理中体现为有意义的信息来源。然而现有的词性对于捕捉这些依存信息而言已经足够充分,并不需要额外添加现有依存关系这一特征来进一步提升性能。这是因为词语本身的形态已经包含了丰富的语法信息与语义关联内容。

每个隐藏层神经元被视为一个特征,在考察该神经元与输入(word、pos、label)之间的关联时发现,在权重矩阵中数值大于0.2的部分具有显著性。
