Glove词向量核心内容介绍--NLP

阅读量：

Glove

尽管现在基于transformer的巨型模型也可以得到词向量。但是在一些基础的计算文本相似的任务中传统的静态词向量依然是非常好用的。Glove就是其中的一个代表。

2014年， Empirical Methods in Natural Language Processing (EMNLP)的论文：GloVe: Global Vectors for Word Representation 介绍了这种词向量。

正如论文的名字一样，GloVe是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它和word2vec一样，把一个单词表达成一个低维稠密向量，可以通过余弦相似度等计算单词之间的相似性。

怎样训练Glove?

Glove 的训练过程比较简单，可以分为3步：

step1:
根据语料库（corpus）构建一个共现矩阵（Co-ocurrence Matrix）X，矩阵中的每一个元素代表单词和上下文单词在特定大小的上下文窗口内共同出现的次数。

通常来说，次数最小是1，但是GloVe根据两个单词在上下文窗口的距离，提出了一个衰减函数， $decay=\frac{1}{d}$ 用于计算权重，也就是说距离越远的两个单词所占总计数的权重越小。
在这里插入图片描述

Step2:

构建词向量（Word Vector）和共现矩阵（Co-ocurrence Matrix）之间的近似关系，作者用了下面的公式：

$W_{i}^{T}W_{j}+b_{i}+b_{j} = log(X_{ij})$

Wi, Wj 分别代表两个随机初始化的矩阵，训练结束后就是我们要的词向量，为什么要用两个矩阵呢？一个是单词作为中心词时的矩阵，一个是作为上下文词的矩阵。

step3:
目标函数：
glove的目标函数就是一个带权重的平方损失函数。

$J = \sum_{i,j=1}^{V}f(X_{ij})(W_{i^{T}}W_{J}+b_{i}+b_{j}-log(X_{ij})))^{2}$

$log(X_{ij})$ 代表真实值（相当于标签）
$W_{i^{T}}W_{J}+b_{i}+b_{j}$ 相当于预测值

$f(X_{ij})$ 的功能是使得经常共现的单词权重大于很少共现的，但是也不可以特别大，达到一定程度就停止，如果没有共现，则f(0)=0，所以定义了这样一个函数:

$f(x)=(\frac{x}{x_{max}})^{\alpha }$ ; if x<xmax
$f(x)=1$ ; otherwise
在这里插入图片描述

训练

采用AdaGrad的梯度下降算法，对矩阵中的所有非零元素进行随机采样，学习曲率（learning rate）设为0.05，在vector size小于300的情况下迭代了50次，其他大小的vectors上迭代了100次，直至收敛。

最终选择两个矩阵加和作为最终词向量。

全部评论 (0)

还没有任何评论哟~

Glove词向量核心内容介绍--NLP

Glove 尽管现在基于transformer的巨型模型也可以得到词向量。但是在一些基础的计算文本相似的任务中传统的静态词向量依然是非常好用的。Glove就是其中的一个代表。

[nlp] 词向量方法比较 GloVe & Word2vec

参考：https://towardsdatascience.com/lightonmathmlintuitiveguidetounderstandinggloveembeddingsb13b4f19c...

NLP - 共现矩阵、Glove、评估词向量、词义

Word2vec算法优化 Jθ:损失函数问题：进行每个梯度更新时，都必须遍历整个语料库，需要等待很长的时间，优化将非常缓慢。解决：不用梯度下降法，用随机梯度下降法（SGD）。减少噪音，做得更好，...

【NLP】词向量：从word2vec、glove、ELMo到BERT详解！

目前，词向量（又叫词嵌入wordembedding）已经成为NLP领域各种任务的必备一步，而且随着bertelmo,gpt等预训练模型的发展，词向量演变为知识表示方法，但其本质思想不变。学习各种词向量...

glove中文词向量_词嵌入表示-GloVe

写这篇文章的原因是今天突然发现昨天文章中提到的没有语料的那个提示，才想起来说的是GloVe，不知道下载了这个那个代码能不能跑起来，不过还是先把这个写下来吧，反正之前文本向量表示那块也没写过词嵌入的文章...

NLP—word2vec词向量简介

NLP处理的数据都是文字，而文字是无法直接被计算机计算的，于是人们想出了使用独热编码的方式来表示单词。 <spanstyle=fontsize:16px;浙江[0,0,0,0,0,0,0,1,0,.....

自然语言处理（NLP）介绍和词向量

Task1:NLPintroductionandwordvectors 1什么是NLP? 自然语言处理（naturallanguageprocessing）简称NLP。人类比猩猩更加聪明，是因为人们...

NLP核心技术学习之（二）词向量表示

一、介绍词向量表示主要了解Word2Vec、GloVe等词向量表示方法，掌握如何将文本转换为计算机可理解的数值向量。词向量表示是自然语言处理中重要的核心技术之一，它将词语表示为实数向量，使得机器可...

cs224u GloVe词向量方法

GloVe是JeffreyPennington等作者于2014年提出的一种词向量方法，该方法基于全局词汇，通过统计单词共现的信息训练词向量，将统计信息与局部上下文窗口方法结合起来。

glove中文词向量_GloVe

做自然语言处理的时候很多时候会用的WordEmbedding，训练词向量的方法主要有两条路：一个是利用了全局特征的矩阵分解方法。例如基于SVD的LSA算法，该方法对termdocument矩阵（矩阵...

是否确定退出登录?

Glove词向量核心内容介绍--NLP

Glove

怎样训练Glove?

训练

全部评论 (0)

相关文章推荐

Glove词向量核心内容介绍--NLP

[nlp] 词向量方法比较 GloVe & Word2vec

NLP - 共现矩阵、Glove、评估词向量、词义

【NLP】词向量：从word2vec、glove、ELMo到BERT详解！

glove中文词向量_词嵌入表示-GloVe

NLP—word2vec词向量简介

自然语言处理（NLP）介绍和词向量

NLP核心技术学习之（二）词向量表示

cs224u GloVe词向量方法

glove中文词向量_GloVe