Word2Vec——使用GloVe训练中文词向量

阅读量：

准备语料

准备好相关的中文语料库。
此外, 采用Leavingseason提供的预处理好的中文语料库进行训练。

准备源码

可从GitHub存储位置https://github.com/stanfordnlp/GloVe获取斯坦福GloVe开源代码包；解压完成后，请将包含语料的(txt文件)放置于GloVe-master文件夹中。

修改训练语料地址

执行 demo.sh 文件，并对其中的部分内容进行设置。
由于该脚本默认会从网络上获取语料用于训练，
若希望使用自己准备的素材进行训练，
应注释掉相应的代码行以避免影响本地数据加载。

修改参数设置，将CORPUS设置成语料的名字

复制代码

    CORPUS=text8                                     要生成词向量的文本
    VOCAB_FILE=vocab.txt                             得到的词和词频
    COOCCURRENCE_FILE=cooccurrence.bin
    COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
    BUILDDIR=build
    SAVE_FILE=vectors
    VERBOSE=2
    MEMORY=4.0                                        内存
    VOCAB_MIN_COUNT=5                                 最小词频数
    VECTOR_SIZE=50                                    词向量维度
    MAX_ITER=15                                       训练迭代次数
    WINDOW_SIZE=15                                    上下文窗口数
    BINARY=2                                          保存文件类型（2进制）
    NUM_THREADS=8                                     线程数
    X_MAX=10
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    代码解读

执行bash文件

进入到主文件夹下

复制代码

    make
    
    
      
    
    代码解读

复制代码

    bash demo.sh
    
    
      
    
    代码解读

需要注意的是：较大的训练数据会导致运行时间延长；为了确保资源稳定运行，请考虑使用nohup来执行程序

复制代码

    nohup bash demo.sh >output.txt 2>&1 &
    
    
      
    
    代码解读

经过训练后会生成一个名为vetors.txt的文件，在打开文档的第一行插入vacob_size和vector_size这两个变量名的同时，在打开文档的第一行插入这两个变量名的同时，在打开文档的第一行插入这两个变量名的同时，在打开文档的第一行插入这两个变量名的同时，在打开文档的第一行插入这两个变量名的同时，
这样做的原因是为了确保后续使用word2vec模型的load函数能够顺利加载这些参数并完成向量词表示的学习过程。
与此同时，在训练过程中可以看到这些参数的具体数值和更新情况，
因此建议在开始模型训练前先准备好必要的配置参数设置，
以便后续能够更好地控制模型的学习过程和结果输出。

参数说明

导航至glove目录后建议先参考README.txt文件中对本程序进行了详细说明，并其中主要介绍了该程序包含四个关键组件：词向量统计（vocab_count）、余弦相似度计算（cooccur）、数据随机化处理（shuffle）以及最终生成结果（glove）。

vocab_count 负责计算输入文本中的词汇频率统计，并将结果以每行"单词词频"的形式保存至 vocab.txt 文件中。
cooccur 负责统计词语之间的共现关系，在类似 word2vec 模型中考虑窗口内任意两个连续出现的词语，并将这些共现关系存储为 cooccurrence.bin 的二进制文件。
shuffle 对 cooccur 产生的共现结果进行重新排序处理；ord2vec 模型则在此基础上考虑窗口内任意两个连续出现的词语，并将这些信息存储为 cooccurrence.bin 的二进制文件。
randomization: 对2中的共现结果进行重新排列
glove: glove算法的训练过程涉及相关文件(1&3)，最终将输出两个向量文件：vectors.txt(可以直接访问) 和 vectors.bin(二进制格式)，下文将重点研究vectors.txt

全部评论 (0)

还没有任何评论哟~

Word2Vec——使用GloVe训练中文词向量

准备语料准备好中文语料：中文语料库，或者使用Leavingseason准备好的语料进行训练：http://pan.baidu.com/s/1jHZCvvo 准备源码到斯坦福GloVe开源代码gih...

训练GloVe中文词向量

准备语料准备好自己的语料，保存为txt，每行一个句子或一段话，注意要分好词。准备源码从GitHub下载代码，https://github.com/stanfordnlp/GloVe 将语料cor...

word2vec训练词向量 python_Word2vec训练中文词向量

Word2vec训练中文词向量发布时间：2018081610:55, 浏览次数：445 ,标签： Word vec Word2vec训练中文词向量将所有的语料读入到列表中，把每一句已经分好词的句子...

训练中文词向量 word2vec

理论： embedding简单来说就是用向量表示词汇，最早使用的都是onehot向量，一个维度代表一个单词，长度为词典的长度。优点是简单明了，缺点是占用空间大，无法表示词与词之间的相似度。

glove训练出得词向量文件转成word2vec向量读取

先用glovec++平台去训练出glove向量，然后再转成word2vec格式去读取 importgensim fromgensim.modelsimportKeyedVectors fromgens...

使用word2vec训练词向量

1.安装gensim：pipinstallgensim 2.准备预料：word2vec中需要sens是经过预处理且用空格进行分词的 3.训练模型 w2vmodel=gensim.models.Word...

（二）利用Wikipedia中文语料训练词向量word2vec——分词、训练word2vec

在前一节，（一）利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库我们学习到了如何下载Wiki中文语料库，并且学会了如何将繁体转换为简体。在这一节中，我...

词向量tf-idf、word2vec、glove

什么是词向量词向量技术将自然语言中的词语转化为稠密的向量，相似的词会有相似的向量表示，这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法（共现矩阵、SVD分解）到...

NLP中文词向量训练：word2vec（Negative Sampling）

一.基于HierarchicalSoftmax的word2vec模型的缺点 HierarchicalSoftmax，使用霍夫曼树结构代替了传统的神经网络，可以提高模型训练的效率。

word2vec词向量训练及gensim的使用

一、什么是词向量词向量最初是用onehotrepresention表征的，也就是向量中每一个元素都关联着词库中的一个单词，指定词的向量表示为：其在向量中对应的元素设置为1，其他的元素设置为0。采用这...

是否确定退出登录?

Word2Vec——使用GloVe训练中文词向量

准备语料

准备源码

修改训练语料地址

执行bash文件

参数说明

全部评论 (0)

相关文章推荐

Word2Vec——使用GloVe训练中文词向量

训练GloVe中文词向量

word2vec训练词向量 python_Word2vec训练中文词向量

训练中文词向量 word2vec

glove训练出得词向量文件转成word2vec向量读取

使用word2vec训练词向量

（二）利用Wikipedia中文语料训练词向量word2vec——分词、训练word2vec

词向量tf-idf、word2vec、glove

NLP中文词向量训练：word2vec（Negative Sampling）

word2vec词向量训练及gensim的使用