京东评论用jieba分词并用词云可视化
发布时间
阅读量:
阅读量
在上一篇推送中, 我们将获取到的评论内容保存为txt格式文件, 接下来, 采用分词技术后生成关键词云, 话虽不多言, 查看完整代码参考链接。
#-*-coding=utf-8 -*-
from jieba import posseg as psg
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter
f3 = open('commont_philips.txt','r').read()
#print([(x.word,x.flag) for x in psg.cut(f3)]) 打印看看,找出我们不需要统计的词性。
nowords = ['x','uj','a','ul', 'p','d', 'v','zg','m','ug','i', 'f', 'ad','nz', 'r', 'r', 'ns','q','t','c']
words =[x.word for x in psg.cut(f3) if len(x.word)>=2 and (x.flag) not in nowords]
#顺便去掉长度小于2的单字,标点符号。
word_count = Counter(words)
print(word_count)
cy = WordCloud( background_color='white', # 设置背景颜色
#mask = pic, # 设置背景图片
max_words = 2000, # 设置最大现实的字数
#stopwords =STOPWORDS.add('有点'), # 设置停用词
font_path = 'SIMYOU.ttf',# 设置字体格式,如不设置显示不了中文
max_font_size = 80, # 设置字体最大值
random_state = 200, # 设置有多少种随机生成状态,即有多少种配色方案
relative_scaling = 1,
scale= 10).generate_from_frequencies(word_count)
plt.imshow(cy)
plt.axis("off")
plt.show()
生成的照片如下:

当然也可以选择一张照片作为词云制作的背景无需额外准备无需导入额外的照片作为词云制作的背景从scipy misc模块导入模块并调用imread函数读取图像from scipymisc import imread
在接下来的文章中, 我们将采用多种图表形式, 包括柱状图表, 圆形饼图, 水平线图以及散点分布图等, 以呈现多样化的视觉效果
全部评论 (0)
还没有任何评论哟~
