Advertisement

论文笔记--GloVe: Global Vectors for Word Representation

阅读量:

论文笔记--GloVe: Global Vectors for Word Representation

  • 综述: 文章综述
  • 概述: 文章概述
  • 核心技术: 文章核心技术
    • 第一部分: 第一部分: 两种主流的单词向量训练方法

      • 方法一: 方法一: GloVe 方法
      • 方法二: 方法二: 模型计算复杂度分析
    • 4. 文章亮点

    • 5. 原文传送门

    • 6. References

1. 文章简介

  • 标题:该方法构建了全球向量以表示词的意义
  • 作者:Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • 日期:2014
  • 期刊:EMNLP

2. 文章概括

该研究引入了一种新型的单词表示训练方案:Glove. 该方案通过融合统计学基础与局部窗口分析的优势,在一系列 downstream tasks 中展现了显著优势,并在多个基准测试中超越当前 SOTA 方法的表现.

3 文章重点技术

3.1 两种常用的单词向量训练方法

现有的两类常用的单词向量训练方法为

  • 基于矩阵分解的技术,例如LSA会先构建一个term-document矩阵,在每一列中记录每个文档内各个词汇的出现频率,并随后进行奇异值分解处理;而HAL则会先构建了一个term-term共现矩阵来分析数据。
  • 然而这类方法往往会被频繁出现的the, and等 stop words(停用词)所影响,在这些情况下(即当这些低频 stop words被用于相似度计算时),它们会对语义产生较小的影响。
  • 基于滑动窗口的技术如Word2Vec[1]通常不依赖于语料中的统计信息分析,并且可能无法有效捕捉到数据中的重复现象。

3.2 GloVe

为了缓解上述两种方法所存在的问题,在研究领域中引入了一种基于Global Vectors(GloVe)的单词嵌入方法

cooccur

为此,文章选择通过单词i,j之间的概率比值来进行建模:F(w_i, w_j, \tilde{w}_k) = \frac {P_{ik}}{P_{jk}},其中w_i, w_j, \tilde{w}_k分别表示i, j, k的词向量,\tilde{w}也是待学习的参数,和w本质上没有区别,只是通过不同的初始化得到的,用于区分探针单词(k)和共现单词,类似transformer中的Q,K含义。考虑到单词空间一般是线性的,我们用w_i - w_j表示向量之间的差异:F(w_i- w_j, \tilde{w}_k) = \frac {P_{ik}}{P_{jk}},又因为上式左边的输入为两个向量,右边为标量,故我们考虑用向量的点积:F((w_i -w_j)^T\tilde{w}_k) = \frac {P_{ik}}{P_{jk}}。由于单词的共现矩阵中,单词和上下文单词是任意指定的,我们可以自由交换当前单词和上下文单词,从而我们要保证交换w \leftrightarrow \tilde{w}X \leftrightarrow X^T后上式仍然成立,故我们首先需要F为一个同态映射:F((w_i -w_j)^T\tilde{w}_k) = \frac {F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)},从而有F(w_i^T\tilde{w}_k) = P_{ik} = \frac {X_{ik}}{X_i}。由于上式的解为F=\exp,从而\exp (w_i^T \tilde{w}_k) = P_{ik} = \frac {X_{ik}}{X_i}\\ \implies w_i^T \tilde{w}_k = \log P_{ik} = \log \left(\frac {X_{ik}}{X_i}\right) = \log(X_{ik}) - \log (X_i);其次考虑到上式的\log (X_i)k无关,故可以写作偏差b_i,再增加\tilde{w}_k的偏差\tilde{b}_k,我们得到w_i^T \tilde{w}_k + b_i + \tilde{b}_k = \log(x_{ik})满足上述对称要求。在此基础上增加权重函数f(X_{ij})可以保证共现太频繁的元素不会被过分的重视,且稀有的共现元素也不会被过分重视。这就要求f满足非递减且有明确上界,如下函数满足条件:f(x) = \begin{cases}(x/x_{max})^{\alpha} \quad &if \ x。函数曲线如下图所示

fx

3.3 模型的复杂度

研究表明,在取α值为1.25时实验效果较为理想的情况下(此处"交过较好"已替换为"实验效果较为理想"),模型的计算复杂度被显著降低至\mathcal{O}(|\mathcal{C}|)(此处"语料库"已替换为"\mathcal{C}表示语料库...")。与之前方法相比(此处"其他基于上下文窗口的方法"已替换为"其他基于上下文窗口的方法..."),该算法的计算复杂度仅为\mathcal{O}(V2)$的数量级(此处"较低程度"已替换为"$\mathcal{O}(V2)的数量级...")。

4. 文章亮点

该文章构建了一个基于上下文窗口与共生矩阵融合的词向量嵌入模型称为GloVe。通过一系列数值实验对比分析显示,在词汇相似度评估、词语类比推理以及 Named Entity Recognition(NER)等关键指标上相较于现有最优算法(SOTA)而言,在多个指标上均表现出显著优势。

5. 原文传送门

该文提出了一种称为"Global Vectors for Word Representation"的方法

6. References

该论文探讨了一种高效的单词表示方法在向量空间中的实现问题。
本文提出了一种创新性的方法来实现词在向量空间中的高效表示。
具体而言, 所提出的方案结合了基于词袋模型的创新学习算法来显著提升性能。
通过在多个数据集上的广泛实验验证了该方法的有效性。
此外, 该研究还提供了详细的实验结果分析, 以进一步验证其优势。

全部评论 (0)

还没有任何评论哟~