Advertisement

wordcloud 库——可视化词云

阅读量:

wordcloud 默认会以\textcolor{red}{空格}\textcolor{red}{标点}为分隔符对目标文本进行分词处理。

中文词云

复制代码
    #对于中文文本,分词处理需要由用户来完成。
    #一般步骤是先将文本分词处理,然后以空格拼接,再调用 wordcloud 库函数。
    import jieba   # 调用 jieba 库——分词
    from wordcloud import WordCloud  # 调用 wordcloud 库的核心 WordCloud 类——词云
    txt = '全国计算机等级考试 Python 科目'  # 文本
    words = jieba.lcut(txt)        # 精确分词
    newtxt = ' '.join(words)       # 空格拼接
    wordcloud = WordCloud(font_path="msyh.ttc").generate(newtxt)   # 产生词云
    wordcloud.to_file('词云图名.png')        # 保存图片
    
    
      
      
      
      
      
      
      
      
      
    

WordCloud 对象创建的常用参数

参数 功能
font_path 指定\textcolor{red}{字体}文件的完整\textcolor{red}{路径},默认 None
width 生成图片\textcolor{red}{宽度},默认 400 像素
height 生成图片\textcolor{red}{高度},默认 200 像素
mask 词云\textcolor{red}{形状},默认 None,即,方形图
min_font_size 词云中\textcolor{red}{最小}的字体字号,默认 4 号
font_step \textcolor{red}{字号}步进\textcolor{red}{间隔},默认1
min_font_size 词云中\textcolor{red}{最大}的字体字号,默认 None,根据高度自动调节
max_words 词云图中最大\textcolor{red}{词数},默认 200
stopwords 被排除词列表,\textcolor{red}{排除词}不在词云中显示
background_color 图片\textcolor{red}{背景颜色},默认黑色

WordCloud 类的常用方法

方法 功能
generate(text) 由 text 文本\textcolor{red}{生成词云}
to_file(filename) 将词云图\textcolor{red}{保存}为名为 filename 的文件

词云形状 mask

复制代码
    # 将 <图片名>.png 转换成 ndarray 类型,参数 mask 要求
    from scipy.misc import imread
    mask = imread('<图片名>.png')
    
    
      
      
      
    

全部评论 (0)

还没有任何评论哟~