Python数据可视化——词云图

阅读量：

一、配置环境

要生成词云图，必备的插件是wordcloud。课堂上给出了两种安装插件的方法。一是通过调用命令行，输入pip3 install wordcloud进行安装。二是下载whl文件，通过pip3 install xxx.whl安装。可是这两种方法都无法成功安装。这一步耗费了非常多的时间，最终在同学的提示下，我在jupyter中直接输入了安装命令。

安装成功。

此外，还需要安装jieba分词库，对文本进行分词，才能生成词云。

二、数据准备

找到一篇报告，将其全文文本复制，另存在本地为.txt文件。需要跟python文件存在同一目录下。

三、编程部分

1.打开文件

首先import os模块、wordcloud库和matplotlib库。os模块的功能是处理文件，需要用它来打开我们刚才保存的.txt文件，这里一定要输入[encoding='utf-8']处理中文字符，否则会报错。matplotlib库用于制图。

将文件赋值为text，可以先print出来，确认文本是否有问题。

复制代码

 import os

    
 from wordcloud import WordCloud
    
 import matplotlib.pyplot as plt
    
  
    
 text=open("China145.txt","r",encoding="utf-8").read()
    
 #print(text)

2.jieba分词

加载文本文件，分词为模式为精确模式（cut_all=False）。精确模式是指将句子最精确地切开，适合文本分析。如：今天天气,真,好

新建一个字典，赋值为tf。遍历jieba分词结果中的所有词，通过循环语句计数。将字典的值，也就是词本身放到列表中，这一步是为剔除无用数据做准备。

复制代码

 import jieba

    
 jieba.load_userdict("China145.txt")
    
 seg_list=jieba.cut(text,cut_all=False)
    
  
    
 tf={}
    
 for seg in seg_list:
    
     if seg in tf:
    
     tf[seg]+=1
    
     else:
    
     tf[seg]=1
    
 ci=list(tf.keys())

3.剔除无用数据

遍历分词结果列表中所有的词，满足出现次数足够多并且长度>2，且不在停词文档中的词才能够用来绘制词云图。（这里的出现次数可以视情况而定，一般使词云图中的词在50~300左右为宜）将不满足条件的词剔除。

复制代码

 with open("stopword.txt","r",encoding="UTF-8") as ft:

    
     stopword=ft.read()
    
     
    
 for seg in ci:
    
     if tf[seg]<20 or len(seg)<2 or seg in stopword or "-" in seg:
    
     tf.pop(seg)

4.遍历字典，将值放在前面，键放在后面，放入data列表中。用list的sort方法将词按出现次数由小到大排序，再用reverse方法倒叙，得到出现次数由大到小排序的列表。再将数字和词位置互换，存入字典中。

复制代码

 ci,num,data=list(tf.keys()),list(tf.values()),[]

    
 for i in range(len(tf)):
    
     data.append((num[i],ci[i]))
    
 data.sort()
    
 data.reverse()
    
 #print(data)
    
  
    
 tf_sorted={}
    
 print(len(data),data[0],data[0][0],data[0][1])
    
  
    
 for i in range(len(data)):
    
     tf_sorted[data[i][1]]=data[i][0]
    
     
    
 print(tf_sorted)

5.生成词云

可以将词语字体、颜色、情况按喜好进行设置。然后关掉词云的坐标轴，输出并保存到本地即可。

复制代码

 import os

    
 from wordcloud import WordCloud
    
 import matplotlib.pyplot as plt
    
 wc=WordCloud(font_path=font,width=800,height=600).generate_from_frequencies(tf)
    
  
    
 plt.imshow(wc)
    
 plt.axis('off')
    
 plt.show()
    
 wc.to_file('AI2.jpg')

输出结果

全部评论 (0)

还没有任何评论哟~

Python数据可视化——词云图

一、配置环境要生成词云图，必备的插件是wordcloud。课堂上给出了两种安装插件的方法。一是通过调用命令行，输入pip3installwordcloud进行安装。二是下载whl文件，通过pip3i...

Python可视化词云图

一、绘制词云时常用库及函数的意义 1、dir库 1）查看函数的用法 printdir函数 2、os库：对文件和目录进行操作，重命名文件，添加，删除，复制目录以及文件等。

Python数据可视化之绘制词云图

需要使用到的两个Python类库 jieba:中文分词分词工具 wordcloud:Python下的词云生成工具 jieba类库使用介绍支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本...

python可视化词云图WordCloud

一、WordCloud安装首先打开命令提示符，输入“pipinstallwordcloud”安装词云包问题①安装包的位置安装时非常顺利，但是在jupyternotebook里想要引入wordcl...

Python数据可视化 Pyecharts 制作 WordCloud 词云图

词云图通过直观的视觉效果展示了文本数据中词汇的频率分布，词汇频率越高，字体的大小越大。本文介绍了如何使用pyecharts库中的WordCloud类生成自定义词云图，并通过一系列配置选项实现词云的定...

数据可视化之利用Python制作词云图

制作词云图一.词云图介绍二.wordcloud方法二.stylecloud方法一.词云图介绍词云图可以看作是文本数据的视觉表示，由词汇组成类似云的彩色图形。相对其它诸多用来显示数值数据的图表...

小白入门python之数据可视化（词云图）

词云的生成需要确认已安装了wordcloud、matplotlib，下载库可以通过cmd或者直接在jupyternotebook上输入指令进行下载，也可以从网站https://www.lfd.uci....

Python爬虫数据可视化之词云

效果图： 1.准备一张合适的图片 2.导入需要的包： importjieba分词 importpymysql数据库 frommatplotlibimportpyplotasplt绘图，数据可视化 fr...

数据可视化demo1 - 词云

Python数据科学生态学习第一站–jieba分词+词云开发环境pycharm\+anaconda 用到的第三方库： importmatplotlib.pylabasplt importjieba ...

python可视化词云

完整代码 coding:utf8 fromosimportpath importmatplotlib.pyplotasplt fromscipy.miscimportimread importjieb...

是否确定退出登录?

Python数据可视化——词云图

一、配置环境

二、数据准备

三、编程部分

全部评论 (0)

相关文章推荐

Python数据可视化——词云图

Python可视化词云图

Python数据可视化之绘制词云图

python可视化词云图WordCloud

Python数据可视化 Pyecharts 制作 WordCloud 词云图

数据可视化之利用Python制作词云图

小白入门python之数据可视化（词云图）

Python爬虫数据可视化之词云

数据可视化demo1 - 词云

python可视化词云