读论文《Distributed Representations of Words and Phrases and their Compositionality》
发布时间
阅读量:
阅读量
阅读这篇论文《分布式表示法:单词和短语及其合成性研究》
introduce
这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的一篇补充性介绍。作为采用Skip-gram模型以及Hierarchical Softmax方法来进行训练的技术手段。此外还采用了Negative Sampling替代传统的Negative Sampling策略,从而实现了更快捷的训练效果。
本文还开发出了对常见词汇进行二阶抽样的方法,并采用了一种新的方式来评估短语的有效性,并构建了短语的表示模型。
method
Skip-gram的目标是最大化下面的概率分布

其中 c 代表训练段落中前后文之间的距离(例如上下文窗口大小),当 c=2 时,则意味着模型将预测与当前词 w_t 相关联的前后各两个词语;概率分布 p(w_{t+j} | w_t) 代表在给定当前词 w_t 的情况下特定未来位置词 w_{t+j} 出现的可能性;如果按照常规的 Softmax 机制计算的话:

其中W代表词汇表的规模,在大规模语言数据中通常情况下会呈现出非常庞大的数值范围;因此,在采用softmax作为输出层的概率分布估计方法时会面临极大的计算复杂度问题;为了提高计算效率和缓解维度灾难问题

本文详细阐述了Negative Sampling这一策略,并指出该方法将一个正样本与多个随机选取的负样本作为优化目标进行评估。

其中文章对高频词进行二次抽样的函数如下

作者基于所设计的特征函数来判断连续出现的一系列词语是否构成一个短语的可能性;当其值超过某个阈值时就被认为是短语。随后将这些词语对应的词向量相加以生成该短语的整体表征向量(文中未明确说明具体方法, 但表5中采用加法处理)。

my view
- 该方法能否适用于其它模型?
- 如何构建短语中各分词的向量表达?对于整个句子而言,则是通过累加这些分词的向量表达来构建其整体表示。
本文地址:<>
全部评论 (0)
还没有任何评论哟~
