向量距离计算 java_Word Embedding 和词向量

阅读量：

一、Word Embedding

在NLP任务中，我们将自然语言交给算法来处理，但计算机无法直接理解人类的语言，因此首先要做的是事情就是将语言数学化，即将文本数据转换为数值型数据，由此引出 Word Embedding 的概念。

如果将 Word 看成文本的最小单元，可以将词嵌入 (Word Embedding) 理解为一种映射，其过程是：将文本空间中的某个 Word，通过一定的方法，映射到（或者说嵌入 embedding）到一个数值空间， Word 在数值空间的表示即 word representation。

如果该数值空间是一个向量空间，每个 Word 对应一个一维向量，那么这个一维向量被称为词向量。

Word embedding 将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。这一步解决的是”将现实问题转化为数学问题“，是人工智能非常关键的一步。

注意：词向量只是针对“词”来提的，事实上，我们也可以针对更细粒度或更粗粒度来进行推广，如字向量,句子向量和文档向量，它们能为字、句子、文档等单元提供更好的表示。

二、词向量

如何将词映射为向量？

（1）One-hot 表示

最简单的一种词向量是 one-hot representation，即用一个长度为
的向量来表示一个词，
为词典
的大小。该一维向量的分量只有一个1，其余全为0。1对应的位置是该词在词典
中的索引。

实例

假设有句子：apple on a apple tree。我们基于这个句子构建一个字典 [“apple”, “on”, “a”, “tree”]。用 one-hot 编码每个单词，则有 apple 对应的 vector 就是 [1, 0, 0, 0]，a 对应的 vector 就是 [0, 0, 1, 0]。

缺点

词的 one-hot 表示有一些缺点：

维数灾难：one-hot 表示的空间复杂度是
，当
很大，即当词典
很大时，需要很多空间来存储。
表征能力差：one-hot 表示只能唯一区别每个词，但不包含语义信息，更不能刻画词跟词之间的相似性。

（2）Distributed 表示

另一种词向量是 Distributed representation，它最早是 Hinton 于1986年在 nature 上提出的:《Learning representations by backpropagating errors》，可以克服 one-hot representation 的上述缺点。它的基本想法是：通过训练将每个单词映射为一个固定长度的短向量（短是相对 one-hot 表示而言的）。这些向量构成一个词向量空间，每个向量可视为该空间中的一个点，在这个空间上引入"距离"，根据词之间的距离来判断他们的相似性（词法、语义上的）。

Distributed representation 的形式化表示：为词典
的任意词
指定一个长度为
的实值向量
,
就是
的词向量。

引用：为什么叫做 Distributed Representation?
我是这样理解的：one hot 表示中，词向量只有一个非零分量，信息全都集中在这个非零分量上了，非常集中。而 Distributed representation 则有大量非零分量，相当于把词的信息分布到各个分量中去，相对分散，类似分布式并行。

如何获取词向量？

将词映射到一个低维向量后，无疑能节省存储空间和运算时间。但向量之间的距离却未必能衡量词的相似性，如何保证产生的词向量能衡量词相似性呢？

Harris 在 1954 年提出的分布假说（distributional hypothesis）：上下文相似的词，其语义也相似。这启示我们可以用单词的上下文去刻画单词：当单词上下文相似时，单词相似，词向量距离近；当上下文不相似时，单词不相似，词向量距离远。也就是构造词向量时，要用到单词及其上下文信息。

用单词及其上下文来估计词向量的模型有 LSA (LatentSemantic Analysis/潜在语义分析模型) 和 LDA (Latent Dirichlet Allocation/潜在狄利克雷分配模型)。此外，神经概率语言模型也用到了单词及其上下文，词向量是它的副产品（该模型的目标是生成语言模型），但它产生的词向量也包含了语义信息。Word2vec 则是对神经概率语言模型的改进，其目标就是为了产生含语义信息的词向量。

（3）词向量的应用

词向量有什么用处？

一份好的词向量携带了语义信息且维度经过压缩便于运算，有很多用武之地，例如：

计算相似度，比如man和woman的相似度比man和apple的相似度高；
在一组单词中找出与众不同的一个，例如在如下词汇列表中：[dog, cat, chicken, boy]，利用词向量可以识别出boy和其他三个词不是一类；
直接进行词的运算，例如经典的：woman+king-man =queen；
由于携带了语义信息，还可以计算一段文字出现的可能性，也就是说，这段文字是否通顺。

参考

word2vec 中的数学原理详解 https://www.cnblogs.com/peghoty/p/3857839.html

Word Embedding 知识总结 _

全部评论 (0)

还没有任何评论哟~

向量距离计算 java_Word Embedding 和词向量

一、WordEmbedding 在NLP任务中，我们将自然语言交给算法来处理，但计算机无法直接理解人类的语言，因此首先要做的是事情就是将语言数学化，即将文本数据转换为数值型数据，由此引出WordEmb...

词向量Word Embedding

词向量词向量做的事情就是将词表中的单词映射为实数向量。 onehot编码 onehot对每个词进行编号，假设词表的长度为n，则对于每一个词的表征向量均为一个n维向量，且只在其对应位置上的值为1，其他...

词向量（Word Embedding）

一、词的表示在自然语言处理任务中，首先需要考虑词如何在计算机中表示。通常，有两种表示方式：onehotrepresentation和distributionrepresentation。简而言之，词...

距离向量算法

路由: 1、数据包从源地址到目的地址所经过的路径，由一系列路由结点组成。 2、某个路由结点为数据报选择投递方向的选路过程。路由结点：一个具有路由能力的主机或路由器，它维护一张路由表，通过查询路由表...

spark-mllib-kmeans向量表示和距离计算

mllib在实现kmeans的过程中，对于距离的计算，使用了一些技巧。首先要注意的是，mllib的jar中包org.apache.spark.mllib.linalg下定义了DenseVector，...

UE4矢量距离计算与空间向量

一、获取两点距离的两种方式 1.直接获取距离getinstanceto（里面节点分别连接两个对象） 2.先获取对象位置再进行向量减法然后vectorlength 二、归一化向量normalizedve...

词向量、预训练词向量、Word2Vec、Word Embedding概述

最近在做序列标注项目的时候涉及到了WordEmbedding和预训练词向量，发现对这三者的概念不清晰，以前实习用到的Word2Vec也忘的差不多了，故在这里简述三者之间的区别和联系，若有不正确之处还望...

距离向量算法_大规模向量检索

（一）什么是向量检索？我们知道，计算机只是一个电子设备的集合体，它没法像人一样感知这个世界。怎样使得计算机也能认识这个世界呢？计算机只认识数字，它只能通过数字来量化这个世界，用一组数字来表示一个事物...

计算两个向量间的欧氏距离_求两向量距离的CUDA实现

本程序中，我以a[N]和b[N]代表两个向量，其欧氏距离计算的串行Ｃ代码如下： CODE:dis=0; forinti=0;i<N;i++ dis+=a[i]b[i]a[ib[i]; dis=sqrt...

向量距离(Distance)

向量是一个有向线段，计算两个向量之间的距离，其实就是计算两个点之间的距离。在Unity引擎内，我们可以直接通过Vector3.Distancev1,v2来得到两个向量之间的距离。

是否确定退出登录?

向量距离计算 java_Word Embedding 和词向量

一、Word Embedding

二、词向量

（1）One-hot 表示

（2）Distributed 表示

（3）词向量的应用

参考

全部评论 (0)

相关文章推荐

向量距离计算 java_Word Embedding 和词向量

词向量Word Embedding

词向量（Word Embedding）

距离向量算法

spark-mllib-kmeans向量表示和距离计算

UE4矢量距离计算与空间向量

词向量、预训练词向量、Word2Vec、Word Embedding概述

距离向量算法_大规模向量检索

计算两个向量间的欧氏距离_求两向量距离的CUDA实现

向量距离(Distance)