论文阅读:Domain Information Enhanced Dependency Parser
文章目录
-
摘要:
-
一、简介:
-
-
1.1、作者要讨论的问题:
-
- 1.1.1、跨域分析性能下降
- 1.1.2、半监督自训练方法不足:
-
1.2、作者提出的解决方法:
-
- 1.2.1、集成模型
- 1.2.2、对抗训练
- 1.2.3、总体方案
-
-
二、相关工作
-
- 2.1 依存分析
- 2.2 领域自适应
-
三、作者的模型:
-
- 3.1、双仿射模型:
- 3.2、生成对抗训练
- 3.3、集成自训练
- 3.4、训练过程
-
4、实验结果
-
5、结论
摘要:
依赖解析已经成为自然语言处理(NLP)领域的一项重要任务。监督方法近年来取得了很大的成功。然而,当测试域与训练域不同时,这些模型可能会遭受显著的性能损失。在本文中,作者采用双仿射解析器作为基准。为了探究跨域依赖句法分析中特定于域的信息和独立于域的信息,作者分别应用了集成自训练方法和对抗学习。最后,作者结合了两种策略来增强基准模型(双仿射模型),最终作者的系统在NLPCC2019的跨域依赖解析共享任务中排名第一。
NLPCC 2019 跨域依赖解
一、简介:
最近这些年的依存句法分析都是有监督的训练。介绍了一下依存句法分析的分类,最后引出双仿射分类。
1.1、作者要讨论的问题:
1.1.1、跨域分析性能下降
监督方法在跨域依赖解析方面存在不足。当这些监督模型用新闻领域训练数据(CTB数据集)训练后,再用它们来预测新的领域测试数据(如网络小说、生产评论等),其性能急剧下降。
1.1.2、半监督自训练方法不足:
自训练方法严重依赖高质量的额外训练数据[。一些用于获取额外训练数据的不适当方法甚至会对跨域依赖项解析产生负面影响。
1.2、作者提出的解决方法:
1.2.1、集成模型
集成模型是获得高质量自动树的一种简单而有效的方法。前人结合了自训练和集成模型,提出了一种集成式的跨域引文分类自训练方法。受到此启发,作者使用集成模型来预测未标记数据,得到1-best的自动树。然后对自动树进行随机抽样,以获得高质量的附加训练数据。最后,原始解析器可以通过使用额外的训练数据进行多次再训练迭代来学习目标领域特定的信息。
1.2.2、对抗训练
与域无关的信息是跨域任务的另一种有效资源。领域对抗训练可以通过对抗性领域分类器提取领域无关信息。作者应用对抗性学习来增强基准。
1.2.3、总体方案
作者研究了两种用于跨域依赖分析的域信息。首先,作者重新实现Bi-Affine解析器作为基线。然后,作者对双仿射解析器进行了增强,增加了目标领域特定信息和领域无关信息,两者互补。一方面,作者采用集成式自训练方法从未标记的目标域数据中提取领域特定信息;另一方面,作者使用对抗性学习扩展我们的基线,以提取与领域无关的信息。
二、相关工作
2.1 依存分析
依赖关系分析主要有两种算法:基于图的算法和基于转换的算法。
基于图的解析器计算所有弧和标签的分数,并搜索得分最高的依赖树作为输出。基于转换的解析器将依赖树预测转换为一系列动作预测。这两种解析器都是通过早期使用手工设计的特性来关注统计模型。
近年来,神经特征在依存句法分析中得到了广泛的研究。在这些神经依赖分析器中,Bi-Affine分析器的性能达到了最先进的水平。因此,我们将Bi-Affine解析器重新实现为基线,这在依赖项解析中很流行。
2.2 领域自适应
许多研究已经证明,自训练方法对于依赖性分析是有用的。大多数方法集中于复杂的附加训练数据样本方法来实现这一目标。集成是一种简单而有效的依赖解析方法,可以提高性能。Ensemble-style self-training on citation classification提出了一种集成式自训练方法,可为自训练提供高质量的附加训练数据。受Ensemble-style self-training on citation classification.的启发,我们使用集成风格的自训练扩展了Bi-Affine解析器。
对抗训练已经被提出用于跨域适应,为依存句法分析带来了显著的性能。我们的对抗性域分类器主要借鉴于2014年提出的GRL。
三、作者的模型:
3.1、双仿射模型:
双仿射模型主要由5个部分构成,分别是:
-
embedding layers:
给出一个句子,我们按照\{\bold{w_1,w_2,...,w_n} \}格式输入词和每个词对应的词性标注(POS)标签\{\bold{t_1,t_2,...,t_n} \},分别得到它们的向量表示以后,我们再将它们向量表示进行拼接。 -
双向LSTM层x3
-
多层感知机层 (MLP)
-
双仿射层:
输入MLP层隐藏层,输出arc和label得分。 -
arg Max解码器
3.2、生成对抗训练
作者混合了两个不同的领域训练数据,并将其输入到Bi-Affine解析器中。
基准解析器可以从两个领域的训练数据中提取丰富的信息,包括语法、领域信息等。直观地说,目标域无关信息对于跨域适应是有用的。
作者构建一个带有梯度反转层(GRL)的对抗性领域分类器,减少源领域特定信息,学习目标领域无关信息。

图1展示了通过对抗性学习扩展的双仿射解析器的结构,包括一个双仿射解析器和一个对抗性域分类器。在对抗域分类器中,嵌入层和Bi-LSTM层的模型参数与Bi-Affine解析器共享 。
作者使用双向LSTM隐藏向量\{\bold{h_1,h_2,...,h_n} \},通过平均池化计算句子向量\bold{h}_s(公式1)

GRL是对抗域分类器的核心部分,作者直接将其应用如下:

最后,作者使用线性层来计算域分数:

3.3、集成自训练
在本研究中,我们使用集成自训练来扩展基线模型。然后采用随机样本的方法获取额外的训练数据,在原始训练数据的基础上对基本模型进行再训练。
Ensemble-style self-training与tric -training非常相似,tric -training同样训练了三个基本模型,并利用未标记的数据来改进基本模型。在之前的工作中,三元训练在依赖解析方面没有显示出任何改进。
首先,我们用具有相同原始训练数据G = \{g_1;g_2;…;g_x\}和不同的随机种子训练三个双仿射解析器模型\{θ_1;θ_2;θ_3\}作为我们的基本模型。这些模型的性能几乎相同。
接着,我们对这些模型应用集成方法,预测未标注数据U =\{u_1;u_2;…;u_x\},目的是获得自动依赖树U^{\prime}= \{U^{\prime}_1;U^{\prime}_2;…;U^{\prime}_x\}。我们得到了弧和标签的分数,并应用softmax方法得到了弧的概率。我们平均弧和标签的概率,由方程4给出,我们选择1-最佳依赖树作为候选。

根据开发实验结果,我们随机抽取100k个自动依赖树SU^{\prime},并将这些数据加入到原始训练数据中。
然后我们使用新的训练数据G = \{g_1;g_2;…;g_x;u^{\prime}_1;u^{\prime}_2;…;u^{\prime}_x\},将其重新应用于这三个基本模型训练。我们的自我训练迭代会重复多次,额外的训练数据SU^{\prime}只使用一次。最后,我们利用集成模型对测试数据T的依赖树进行预测,得到依存分析树T^{\prime}。算法1给出了集合式自训练算法的伪代码。

3.4、训练过程
这里作者使用交叉熵损失和L2正则作为模型的损失函数。
4、实验结果


5、结论
作者描述了他们在NLPCC2019跨域依赖解析共享任务中提交的模型。首先,作者借用Bi-Affine解析器[8]作为基线,并使用简单的随机数据样本方法利用集成风格的自我训练方法。其次,作者通过对抗性训练增强了他们的能力。最终的结果显示作者的模型非常有竞争力,在所有团队中都取得了最好的成绩。
