sklearn 相似度矩阵_利用sklearn计算文本相似性

阅读量：

标签：

通过调用sklearn库中的TfidfVectorizer类来获取TF-IDF特征向量，并生成一个对称的余弦相似度矩阵并将其保存为特定的文件格式。在实际应用中，则是先对输入的文档集进行预处理以去除停用词和标点符号等无意义信息随后使用TfidfVectorizer类生成TF-IDF权重矩阵作为衡量文档间相关性的数值依据

#!/usr/bin/python

-- coding: utf-8 --

import numpy

import os

import sys

from sklearn import feature_extraction

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

reload(sys)

#sys.setdefaultencoding(UTF-8)后将系统默认编码设置为 UTF-8

trainfile = open(r"C:\Users\hd\Desktop\docs.txt", "r") # 其中 different documents 分别位于不同的目录下，并通过回车分隔

traincorpus = trainfile.readlines()

#corpus=["我来到北京清华大学","我他来到

trainfile.close()

corpus = traincorpus;

vectorizer=CountVectorizer()#该类会被赋值为一个用于将文本中的词语转换为词频矩阵的对象，在此过程中, 矩阵元素a[i][j]表示第i个类别文本中第j个词的出现次数

tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, #max_features=n_features,

stop_words=‘english‘)

transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值

模型通过两次fit_transform操作来完成文本的转换过程：首先使用transformer模型进行tf-idf计算得到表示向量；随后又利用同一个模型将文本转换为词频矩阵形式

word=tfidf_vectorizer.get_feature_names()#获取词袋模型中的所有词语

通过调用toarray方法生成权重矩阵 $...$ 其中a[i][j]代表第i类文本中第j个词的TF-IDF加权值

f = open("C:\ Users\ hd\ Desktop\ tif.txt","w+")

该算法通过嵌套循环结构实现对所有文本数据的处理：外层循环逐个遍历每一篇待分析的文章；内层循环则逐条检查文章中每个词项的TF-IDF值计算结果，并将计算出的权重信息存储到预设的数据结构中以便后续处理和分析。
# 输出每类文本的TF-IDF词语权重信息
for i in range(len(weight)):
for j in range(len(weight[i])):
print(f"第{i+1}类文章中第{j+1}个词项的TF-IDF值为{weight[i][j]:.4f}")

print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"

f.write(str(i+1)+"\t")

for j in range(len(word)):

if(weight[i][j]>0): f.write(str(j+1) + ":" + str(weight[i][j]) + " ")

f.write("\n")

print i

f.close()

f = open("C:\ Users\ hd\ Desktop\ dictionary.txt","w+")

for i in range(len(word)):

f.write(str(i) + "\t" + word[i].encode("utf-8") + "\n")

f.close()

SimMatrix = (tfidf * tfidf.T).A

print SimMatrix[1,3] #"第一篇与第4篇的相似度"

numpy.savetxt("C:\Users\hd\Desktop\SimilarityMatrix.csv", SimilarityMatrix, delimiter=',') # 保存相似度矩阵

标签：

全部评论 (0)

还没有任何评论哟~

sklearn 相似度矩阵_利用sklearn计算文本相似性

利用sklearn计算文本相似性，并将文本之间的相似度矩阵保存到文件当中。这里提取文本TFIDF特征值进行文本的相似性计算。 python代码： !/usr/bin/python coding:utf...

sklearn 相似度矩阵_利用sklearn计算文本相似性

利用sklearn计算文本相似性，并将文本之间的相似度矩阵保存到文件当中。这里提取文本TFIDF特征值进行文本的相似性计算。 !/usr/bin/python coding:utf8 importnu...

sklearn 相似度矩阵_利用sklearn计算文本相似性

标签：利用sklearn计算文本相似性，并将文本之间的相似度矩阵保存到文件当中。这里提取文本TFIDF特征值进行文本的相似性计算。 !/usr/bin/python coding:utf8 impo...

sklearn 相似度矩阵_Python 使用sklearn计算余弦相似度

背景在计算相似度时，常常用到余弦夹角来判断相似度，Cosine余弦相似度取值范围[1,1]，当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值1，两个方向正交时夹角余...

sklearn 相似度矩阵_文本相似度的一种计算方法

本文是作者结合资料对论文FromWordEmbeddingsToDocumentDistances的理解，其中有些地方理解不到位，还希望读者能批评指正。本文首先会介绍BOW和TFIDF，再介绍Wor...

sklearn tfidf求余弦相似度_使用余弦相似度算法计算文本相似度

在工作中一直使用余弦相似度算法计算两段文本的相似度和两个用户的相似度。一直弄不明白多维的余弦相似度公式是怎么推导来的。今天终于花费时间把公式推导出来，其实很简单，都是高中学过的知识，只是很多年没用了，...

sklearn 相似度矩阵_具有numpy的大型稀疏矩阵的余弦相似度

Thecodebelowcausesmysystemtorunoutofmemorybeforeitcompletes. Canyousuggestamoreefficientmeansofcompu...

【文本相似度】利用余弦相似性计算句子的相似度

好吧，在处理文本的过程中有陷入了一个胡同，不知道接下来该做啥了。于是又在网上找相关的资料，无意间发现了两篇写得超级超级好的博客，是讲文本相似度，之前也学过，但是这两篇博文写得非常棒，深入浅出。然后也按...

sklearn 相似度矩阵_使用python+sklearn实现数据预处理

sklearn.preprocessing包提供了几个常用的实用工具函数和变换器类，用来将原始特征向量转换为更适合机器学习模型的表达形式。通常，学习算法受益于数据集的标准化。如果集合中存在一些异常值，...

利用余弦相似度计算文本相似度

利用余弦相似度计算文本相似度 1、Introduction针对文本相似判定，本文提供余弦相似度算法，并根据实际项目遇到的一些问题，给出相应的解决方法。经过实际测试表明：余弦相似度算法适合于短文本，而不...

是否确定退出登录?

sklearn 相似度矩阵_利用sklearn计算文本相似性

-- coding: utf-8 --

print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"

全部评论 (0)

相关文章推荐

sklearn 相似度矩阵_利用sklearn计算文本相似性

sklearn 相似度矩阵_利用sklearn计算文本相似性

sklearn 相似度矩阵_利用sklearn计算文本相似性

sklearn 相似度矩阵_Python 使用sklearn计算余弦相似度

sklearn 相似度矩阵_文本相似度的一种计算方法

sklearn tfidf求余弦相似度_使用余弦相似度算法计算文本相似度

sklearn 相似度矩阵_具有numpy的大型稀疏矩阵的余弦相似度

【文本相似度】利用余弦相似性计算句子的相似度

sklearn 相似度矩阵_使用python+sklearn实现数据预处理

利用余弦相似度计算文本相似度