预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载
中文预训练词向量——该词向量建立在中文维基百科语料的基础上
英文预训练词向量——该英语预训练词向量源自斯坦福大学开发的GloVe模型
百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw
提取码: afhh

维基百科词向量 sgns.wiki.char.bz2解压后的文件扩展名为."char"。可以通过特定方法提取获得."txt"结尾的文件。该预训练数据集包含约35万个不同的词汇与标点符号,并采用3_维空间中的向量表示来捕捉词语语义特征。在使用这些词嵌入层时需确保程序能够加载完整的预训练模型至内存中。当计算机内存不足时会导致模型无法正常加载而引发溢出错误。为了解决这一问题可选择并截取8_千至2_万词汇样本用于模型训练。该方法适用于大多数普通计算设备
中文预训练词向量
该文于2018年发表在ACL 2018上,并探讨了基于类比的中文形态语义关系推理技术
该项目支持了丰富多样的表示方案(密集与稀疏表示),涵盖了多种上下文特征(包括单词、n-gram以及字符等多种类型),这些中文单词的向量均基于特定语料库进行训练,并且都采用了嵌入技术以实现表征。研究人员能够便捷地获取具有多样特性的预训练词向量模型,并将其成功应用于一系列 downstream的任务中。

下载地址:https://github.com/Embedding/Chinese-Word-Vectors
参考文献引用:
Li Song, Zhao Zheng, Hu Rong及其团队. 基于汉语形态学与语义关系的类比推理[J]. annual conference of the association for computational linguistics, 2018: 138-143.
英文词向量预训练
官方网站:https://nlp.stanford.edu/projects/glove/
预设好词向量(Predefined Word Vectors)。该数据集经由PUBLIC DOMAIN DEDICATION AND LICENSE授权发布,并完整文本可通过该页面访问:https://pdle.net/v1.0及其中文版资源。
- [维基百科 2014](http://dumps.wikimedia.org/enwiki/2014-[[January 2]]/) 与 Gigaword 5 的结合(总计6,889,993个令牌、4,798,377个词项),不包含章节结构;其向量维度包括5D、1×D到3×D以及5×D载体版本:分别对应于6,889,993个令牌及4,798,377个词项的数量;这些载体版本分别存储于对应的压缩文件中:分别是glove.6B.5D-v.txt.gz(约3.7MB)、glove.6B.×D-v.txt.gz(约3.7MB)等

至此结束。
