doc2vec计算文档相似度
发布时间
阅读量:
阅读量
Doc2Vec方法源自Word2Vec模型,在衡量词语之间相似程度方面表现突出。通过对Word2Vec算法中的CBOW与Skip-Gram架构进行了优化设计,并对Word2Vec中的CBOW与Skip-Gram架构进行了改进设计以提高计算效率的同时也保持了原有的优点。通过Paragraph Vector方法生成相应的文档向量表示并完成数据预处理阶段的工作流程如下:首先采用os.walk()函数对目标文件夹进行遍历操作完成路径下的所有文件及子目录内容获取;其次建立语料库时需完成文本分词处理并将无意义的停用词剔除;接着通过gensim.models.doc2vec.TaggedDocument()方法对每个文档进行标记化处理;最后训练生成完整的Doc2Vec模型结构
model = Doc2Vec(size=50, min_count=1, iter=10)
model.build_vocab(corpora_documents)
model.train(corpora_documents)
4.计算相似度
inferred_vector = model.infer_vector(test_cut_raw_1)
sims = model.docvecs.most_similar([inferred_vector], topn=3)
print sims
代码参考例子:https://github.com/iamxiaomu/doc2vec
参考文献: 基于全局向量的词表示方法(GloVe: Global Vectors for Word Representation); 其中相关研究可参见 <> 和 <>。
全部评论 (0)
还没有任何评论哟~
