Improved Word Representation Learning with Sememes论文解读
**
Improved Word Representation Learning with Sememes
**
作者简介
该论文选自 ACL 2017
作者:Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun。
摘要
义原是词义的最小语义单位,每个词义的含义通常由几个义原组成。在文章中,作者提出单词义原信息可以提高词表示学习(WRL),它将词映射到低维语义空间中,并作为许多NLP任务的基本步骤。核心思想是利用单词义原来准确地捕获特定上下文中单词的确切含义。更具体地说,作者遵循Skip-gram的框架,并提出了三个义原编码模型来学习义原,词义和单词的表示形式,在其中应用注意力方案检测各种上下文中的词感。作者在两个任务上进行了实验,包括单词相似度和单词类比。结果表明,该模型明显优于基线。
1.引言
在文章中,作者旨在将单词义原融入词表征学习(WRL),并在低维语义空间中学习改进的词嵌入。WRL是许多自然语言处理任务的基础和关键步骤,例如语言建模,神经机器翻译。
从之前的研究中,作者得出词义消歧对于WRL来说是至关重要的,他们认为HowNet中词义的义原注释可以为这两项工作提供必要的语义规则。为探索其可行性,作者提出了一个新的SE-WRL模型,该模型可以同时检测和学习词表示。即该框架将每个词义视为其义原的组合,并根据它们的上下文迭代地进行词义消歧,并通过在word2vec中扩展Skip-gram来学习义原、词义和单词的表示。在此框架下,基于注意力的方法会根据上下文自动选择合适的词义。为了充分利用义原,本文作者针对SE-WRL提出了三种不同的学习策略和注意策略。
实验中,作者通过单词相似性和单词类比对该模型进行评估,结果证明该模型明显优于其他基线。尤其是在单词类比方面,表明该模型可以在义原信息的帮助下建立更好的知识表示,也暗示了该模型在词义消歧方面的潜力。
2.相关工作
2.1词表示
(1)one-hot
问题:数据稀疏,没有考虑数据之间的语义关系。
(2)分布式表示
思想:将所有单词投影到一个连续的低维语义空间中,将每个单词视为一个向量。功能强大,单词分布式表示能够在向量空间中编码语义,是许多自然语言处理任务的基本和必要输入。
(3)CBOW和Skip-gram
思想:通过最大化单词和它们的上下文之间的预测概率来学习单词表示。
问题:仅仅为每个单词安排了一个向量,不考虑许多单词有多个意思的事实。
(4)Skip-gram模型的扩展(multi-prototype vector model)
思想:并为每个词义构建不同的向量,用于学习每个单词的非参数多重嵌入,还利用自动编码器在相同的语义空间中联合学习单词、词义和synset表示。
本文首次联合学习了义原、词义和词的表示。知网中的义原标注为WRL提供了有用的语义正则化。此外,与义原结合的统一表示也为我们提供了更明确的词和语义嵌入的解释。
2.2语义消歧与表示学习
词义消歧(WSD)主要通过计算分析手段确定特定上下文中词语的意义或意义。主要分为两大类方法:监督方法和基于知识的方法。文章主要采用了基于知识的方法,并利用知网中的义原信息结合上下文进行自动检测。首次尝试将基于注意力的模型应用于为词表示学习编码获取义原信息。
3. 方法论
该部分中, 作者构建了基于WRL的新编码框架, 并旨在将这种编码机制应用于词义消歧与表示学习. 具体而言, 该研究基于知网中的义原标注数据进行语义规范, 在大规模文本语料库里训练模型, 从而获取用于评估任务所需的义域信息、词汇意义以及词向量表示.
3.1知网中的义原、词义和词
Hownet是阐述概念间及其属性间相互关联关系等核心要素的常识性知识库。
在《Hownet》中,
义元(sememe)、词义(sense)以及词语(word)。
这三者之间的关系可以通过下图中的例子可以看出。

3.2传统跳字(Skip-gram)模型
该模型的整体需要优化的函数如下所示:

由以下softmax函数形式化:

其中可以采用负采样策略来加速softmax的计算。
3.3 SE-WRL模型
3.3.1简单义原聚合模型
基于经典的skip-gram模型框架,在针对目标单词(target word)的部分进行优化后引入SSA方法。该方法通过累加所有相关意义(sense)下的词素(sememe)嵌入并取平均的方式生成目标单词w的词素(sememe)表示。

该模型基于以下假设建立。
每个单词的语义由其对应的语义单元构成。
其基础定义为意义单位。
与传统的Skip-gram方法相比,在SSA模型中同一个单词在不同语境下仍然仅有一个固定的表征。
这种情况下,
SSA模型无法处理同一词在不同情境下的不同含义,
因此无法有效处理那些具有多义性的词语。
为了更好地适应这种情况,
在特定语境下应构建相应的词嵌入以解决多义性问题。
不足 :SSA模型中的每个单词在不同背景下仍仅有一个单一的表示,
这使得它无法处理大多数词语所具有的多义性特征。
3.3.2基于上下文模型的义原注意力
基于注意机制的SAC能够自动地为上下文词选择合适的词义。该方法通过目标词的作用实现上下文词的语义消歧,并由此获得更好的目标词表示效果。如图所示,SAC模型架构设计如图所示。

采用原始向量表达目标词汇w的同时,在上文中我们采用另一种称为义原编码的方式来表示其周围的词语(即上下文)。考虑到词语在不同语境中的多义性,在这种情况下我们假设一个词语在其所处的语境中通常会呈现出某些典型意义。如上图所示,在信息提取过程中采用了注意力机制以选择最合适的语义组合而生成相关的上下文编码。通过这种方式构建的上下文编码能够更好地捕捉到词语的深层含义。

其中s(w_c)_ j 表示w_c的第j个词义嵌入;att(s(w_c)_ j)即第j个词义相对于目标单词w的注意力得分;定义如下:

注意 :在计算注意力时,我们使用义原嵌入的平均值来表示每个词义s(w_c)_ j。
注意力策略假设上下文词义嵌入与目标词w的相关性越大,在构建上下文词嵌入时就越应该考虑这个词义。借助注意力机制,可以将每个上下文词表示为其词义上的特定分布。
3.3.3基于目标模型的义原注意力
基于上下文模型的定义域注意机制能够根据目标词汇灵活运用来选取适合其语义和定义域的关系项。同样可以用来为这些目标词汇选取适合其语义,并将其作为关注的重点进行处理。因此,在图3中展示的是一个基于目标模型的定义域注意机制。

SAT掌握的是背景词汇在原始向量空间中的表示方法,并不包含目标词汇的所有意义信息。通过将背景词汇所关注的不同意义作为注意力权重,在计算目标词汇w的具体向量表示时实现了意义信息的有效编码。

其中s(w)_ j代表w的第j个词义嵌入,基于上下文的注意定义如下:

其中,如同(6),依据义原嵌入的平均值来表示每个词义s(w)_ j。其中,在C(w_i)中单词嵌入的约束窗口所构成的上下文空间内定义w_c’为上下文嵌入

注意
4.实验
4.1数据集
基于
4.2实验设置
本文经过两个代表性评价词向量质量的任务:词的相似性实验和词的类比实验对模型进行了评估,并与当前流行的 CBOW 、skip-gram 和 GloVe 模型进行对比分析。
4.3单词相似度
该任务主要旨在通过分析WRL模型计算出的单词对评分以及数据集提供的评分来评估单词表示的质量。WRL模型主要基于单词在语义空间中的距离来计算单词相似度。
4.3.1评估协议
采用两个词嵌入间的余弦相似度作为衡量标准来排序单词对。用于评估计算模型等级与人类判断等级间的Spearman相关性。

4.3.2实验结果
(1) 本研究开发的模型在性能上显著优于现有所有基准模型。该研究证实了通过精确实施语义素标注机制后,在捕捉单词间语义关联方面所取得的优势性进展。
(2) SSA模型通过计算语义素嵌入的平均值来有效捕捉词汇的意义空间。总体而言,在分类任务中该方法的表现略高于现有的对比基准。
(3) 研究表明,在词义分布方面 SAT 方法表现出了显著的优势。
(4) 即使采用单一最可能意义进行处理,在软消歧的情况下也能有效减少潜在误判的可能性。
4.4词语类比
4.4.1评估协议
对于单词类比推理,文章考虑了两个评价指标:(1)准确性。。(2)平均秩。
4.4.2实验结果

(1) SAT模型在所有模型中表现最好,其优越性比词相似度计算更为显著。这表明SAT将增强语义空间中词嵌入之间隐含关系的建模。原因是标注词义的义原对这些词的关系进行了编码。
(2) SAT模型在Capital和City这两个类上都做得很好,因为这两个类中有些词出现的频率很低,而它们的义原出现的次数又多到可以充分学习义原嵌入。有了这些义原嵌入,SAT可以更高效地学习这些低频词。
(3) 在关系类上,CBOW似乎比SAT效果更好。而对于平均秩,CBOW得到的结果最差,这表明CBOW的性能不稳定。相反,虽然SAT的准确率比CBOW低一点,但是SAT很少给出离谱的预测。从CBOW的错误案例中可以发现许多错误都是关于低频的单词,考虑义原可能会缓解这个问题。
4.5案例研究
4.5.1词义消歧
为了验证义原注意力的有效性,在训练集中选取了三个注意力结果(如表)。在表格中列出的前三行内容展示了每个单词及其对应的义原结构。

4.5.上下文词对注意力的影响
文中对上下文词与注意力关系的探讨表明,“哈瓦那”一词由四个义域组成,在其中两个义域中体现其作为首都及其古巴语意义的不同特性。

可以得出结论:作者所提出的"意义注意"能够精准地识别复杂的语境中的词语意义。
5.总结与展望
总结:
(1) 作者提出了一种新的方法来建模义原信息,以学习更好的词表示。即利用义原信息来表示每个单词的各种词义;
(2) 提出义原注意力去自动选择上下文中合适的词义。
(3) 在单词相似性和单词类比方面对模型进行了评估,结果显示了语义编码-WRL模型的优势。
(4) 分析了WSD和WRL的几个案例,证实了作者提出的的模型能够在义原注意力的帮助下选择合适的词义。
展望:
(1) 知网中的义原信息是用层次结构和关系来标注的,本文框架中没有考虑到。可探索如何利用这些注释来改善WRL。
(2 )作者认为义原的概念是普遍的,可以在语言之外很好地发挥作用。可探索其他语言中义原信息对WRL的有效性。
