wordcloud 库——可视化词云
发布时间
阅读量:
阅读量
wordcloud 默认会以\textcolor{red}{空格}或\textcolor{red}{标点}为分隔符对目标文本进行分词处理。
中文词云
#对于中文文本,分词处理需要由用户来完成。
#一般步骤是先将文本分词处理,然后以空格拼接,再调用 wordcloud 库函数。
import jieba # 调用 jieba 库——分词
from wordcloud import WordCloud # 调用 wordcloud 库的核心 WordCloud 类——词云
txt = '全国计算机等级考试 Python 科目' # 文本
words = jieba.lcut(txt) # 精确分词
newtxt = ' '.join(words) # 空格拼接
wordcloud = WordCloud(font_path="msyh.ttc").generate(newtxt) # 产生词云
wordcloud.to_file('词云图名.png') # 保存图片
WordCloud 对象创建的常用参数
| 参数 | 功能 |
|---|---|
| font_path | 指定\textcolor{red}{字体}文件的完整\textcolor{red}{路径},默认 None |
| width | 生成图片\textcolor{red}{宽度},默认 400 像素 |
| height | 生成图片\textcolor{red}{高度},默认 200 像素 |
| mask | 词云\textcolor{red}{形状},默认 None,即,方形图 |
| min_font_size | 词云中\textcolor{red}{最小}的字体字号,默认 4 号 |
| font_step | \textcolor{red}{字号}步进\textcolor{red}{间隔},默认1 |
| min_font_size | 词云中\textcolor{red}{最大}的字体字号,默认 None,根据高度自动调节 |
| max_words | 词云图中最大\textcolor{red}{词数},默认 200 |
| stopwords | 被排除词列表,\textcolor{red}{排除词}不在词云中显示 |
| background_color | 图片\textcolor{red}{背景颜色},默认黑色 |
WordCloud 类的常用方法
| 方法 | 功能 |
|---|---|
| generate(text) | 由 text 文本\textcolor{red}{生成词云} |
| to_file(filename) | 将词云图\textcolor{red}{保存}为名为 filename 的文件 |
词云形状 mask
# 将 <图片名>.png 转换成 ndarray 类型,参数 mask 要求
from scipy.misc import imread
mask = imread('<图片名>.png')
全部评论 (0)
还没有任何评论哟~
