Advertisement

[nlp] 词向量方法比较 GloVe & Word2vec

阅读量:

GloVe模型通过结合局部上下文和全局共现统计信息来生成单词嵌入向量,并利用分布假说(也称为向量语义学)来捕捉语义相似性。该方法不仅依赖于单词的本地上下文信息,还考虑了单词在整体语料库中的共现情况。这种基于数学的潜在语义分析方法能够更准确地反映词语之间的语义关联性,并通过示例展示了其在实际应用中的优势。

参考:https://towardsdatascience.com/light-on-math-ml-intuitive-guide-to-understanding-glove-embeddings-b13b4f19c010

在这里插入图片描述

一、GloVe 与 Word2vec 区别

不仅基于局部语境信息(单词的局部语境信息),同时也融合了整体统计信息(单词共现性)来生成单词向量。
这一概念可追溯至潜在的语义分析(LSA——latent semantic analysis)

LSA基于具有相近意义的词汇会在类似的语境或段落中出现(分布假设)。
分布假说(Vector Semantics): 当两个词在语义上相近程度越高时,在类似的语言环境中...。

LSA基于具有相近意义的词汇会在类似的语境或段落中出现(分布假设)。
分布假说(Vector Semantics): 当两个词在语义上相近程度越高时,在类似的语言环境中...。

the cat sat on mat.
词语前后是共现。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~