Pyhton生成《百年孤独》高频词词云

阅读量：

对于热爱的书籍, 想深入探究其中蕴含的思想与文化内涵。借助于Python的jieba库与wordcloud库, 即可完成对书籍中高频词语识别及生成词云的过程。尝试了两本书: 一本是经典之作《百年孤独》，另一本是我最近读完的一本书——《山茶文具店》。

库准备

获取相应Python版本及其操作系统对应的安装包；正确安装这两个库；可参考博文。

可查阅wordcloud项目的官方网站，并参考这篇中文博客文章。

jieba的GitHub简介及其应用实例，详细介绍了基本功能及其应用实例，并列举了典型用例进行深入分析。

Input输入文件准备

在生成词云时，请确保准备好下文中的红色标注文本文件（运行本文代码后会自动生成绿色标记文档）。

小说文本——范晔版百度网盘
停用词——网络下载指路
词云字体——使用本机微软字体（C:\Windows\Fonts）
词云轮廓mask——在线制作工具（选择白背景jpeg格式保存）
自定义词典（使人名等专有名词不拆分），下附：

复制代码

 梅尔基亚德斯

    
 何塞·阿尔卡蒂奥·布恩迪亚
    
 乌尔苏拉
    
 何塞·阿尔卡蒂奥
    
 奥雷里亚诺·布恩迪亚
    
 阿玛兰妲
    
 丽贝卡
    
 阿尔卡蒂奥
    
 奥雷里亚诺·何塞
    
 奥雷里亚诺·特里斯特
    
 蕾梅黛丝
    
 何塞·阿尔卡蒂奥第二
    
 奥雷里亚诺第二
    
 何塞·阿尔卡蒂奥
    
 雷纳塔·蕾梅黛丝
    
 阿玛兰妲·乌尔苏拉
    
 奥雷里亚诺·巴比洛尼亚
    
 奥雷里亚诺
    
 皮埃特罗·克雷斯皮
    
 费尔南达
    
 赫里内勒多·马尔克斯
    
 马格尼菲科·比斯巴勒
    
 堂阿波利纳尔·摩斯科特
    
 奥雷里托
    
 皮埃特罗·克雷斯皮
    
 佩特拉·科特斯
    
 庇拉尔·特尔内拉
    
 桑塔索菲亚·德拉·彼达

代码实现

复制代码

 #-*- coding: utf-8 -*-

    
 #.py文件名不能和引用的库名重复
    
 """
    
 Created on Sun Mar  8 11:01:44 2020
    
   6. @author: toto
    
 """
    
  
    
 import os,jieba
    
  
    
 from wordcloud import WordCloud
    
 from PIL import Image
    
 import numpy as np
    
  
    
 cwd = os.getcwd()#当前工作路径
    
  
    
 #os.path.join(cwd,文件名)== 文件名
    
 jieba.load_userdict("UserDict.txt")#加载自定义词典文本
    
  
    
 book = "Solitude.txt"#处理的书籍文本，注意检查不要乱码
    
 stop_word = "stop_word.txt"#停用词文本
    
 top_word = "TopWord.txt"#高频词文本
    
  
    
 type_pic = "Marquez.jpeg"#白背景词云掩膜图片
    
 cloud = "Solitudecloud.png"#词云图
    
  
    
 ##——分词——
    
 #读取txt书籍文件
    
 fb = open(book,'r',encoding='UTF-8')
    
 book_txt = fb.read()
    
  
    
 #读取txt停用词文件
    
 ff = open(stop_word,'r',encoding='UTF-8')
    
 stop_word_txt = ff.read()
    
  
    
 #拆分词语存入列表
    
 #jieba.add_word("何塞·阿尔卡蒂奥·布恩迪亚")
    
 word_ls = jieba.lcut(book_txt,cut_all=False,HMM=True) # 精确模式
    
 #print(word_ls)
    
  
    
 ##——统计词频——
    
 word_dict = {}
    
  
    
 for i in word_ls:
    
     
    
     if i not in stop_word_txt:
    
     
    
     word_dict[i] = word_dict.get(i, 0) + 1
    
  
    
 #print(word_dict)
    
  
    
 word_ls = sorted(word_dict.items(), key=lambda x: x[1], reverse=True)#变成以（词语，次数）为元组的列表
    
 print(word_ls[0:101])
    
  
    
  
    
 #写入高频词文本
    
 #fw = open(top_word,"wt",encoding="utf-8")
    
 top_word = []
    
 for j in range(200):
    
     
    
     top_word.append(word_ls[j][0])
    
  
    
 top_word_txt = " ".join(top_word)     
    
     
    
 ##——生成词云——
    
 Marquez_mask = np.array(Image.open(type_pic))
    
 wordcloud_Solitude = WordCloud(
    
     background_color="white", 
    
     max_words=200,
    
     	# 添加遮罩层
    
     mask=Marquez_mask,
    
     # 生成中文字体
    
     font_path = os.path.join(cwd,"SIMKAI.TTF"),
    
     contour_width=3,
    
     min_font_size=2,
    
     #max_font_size=40,
    
     )
    
  
    
 wordcloud_Solitude.generate(top_word_txt)#注意函数参数是列表，不是txt文本
    
 wordcloud_Solitude.to_file(cloud)
    
  
    
  
    
 fb.close()
    
 ff.close()
    
 #拓展——jieba自定义词典正则表达式匹配（如何塞·阿尔卡蒂奥·布恩迪亚）

生成图

拓展

鉴于《百年孤独》中人物名字的独特性，在存在重名且带有特殊字符" · "的情况下（例如：如何分割·阿尔卡蒂奥·布恩迪亚），优化jieba字典源码以确保其正确识别不拆分此类名字，并构建自定义词典的标准正则表达式模式。

革命尚未成功，同志仍需努力！

全部评论 (0)

还没有任何评论哟~

Pyhton生成《百年孤独》高频词词云

对于喜欢的书，想更多的了解它。利用Python的jieba库和wordcloud库，可以统计书中的高频词并生成词云，小试了两本书：一本是《百年孤独》，另一本是近期读完的一本《山茶文具店》。库准备下...

matlab根据已有词频生成词云,jieba+wordcloud 按词频生成词云

coding:utf8 fromrandomimportrandint importjieba.analyse fromosimportpath fromPILimportImage,ImageSeq...

python词频统计生成词云

博客简介本篇博客介绍2个第三方库，中文分词库jieba和词云库WordCloud，我们将完成三个例子：统计英文词汇频率统计中文文本词汇频率使用jieba库生成词云在正式开始之前，我们先安装两...

python爬取电影热评生成高频词词云

目标：针对一部电影，爬取他的热评高频词，并生成词云分解目标： 1、爬取热评内容，只保留文本部分 2、热评文本保存到本地的txt文档，以便后续的分词 3、文本分词 4、生成词云 1、爬取热评拿到一个...

已知词频生成词云图（数据库到生成词云）--generate_from_frequencies（WordCloud）

词云图是根据词出现的频率生成词云，词的字体大小表现了其频率大小。写在前面：用wc.generatetext直接生成词频的方法使用很多，所以不再赘述。但是对于根据generatefromfrequ...

python做词云统计_python词频统计，生成词云

本篇博客介绍2个第三方库，中文分词库jieba和词云库WordCloud，我们将完成三个例子：统计英文词汇频率统计中文文本词汇频率使用jieba库生成词云在正式开始之前，我们先安装两个第三方库...

红楼梦词频统计，词云生成

wordcloud参数简单介绍 fontpath:string//字体路径，需要展现什么字体就把该字体路径+后缀名写上，如：fontpath=‘黑体.ttf’ width:intdefault=400...

统计csv词频_中文词频统计与词云生成

一、中文词频统计 1\.下载一长篇中文小说。 2\.从文件读取待分析文本。 3\.安装并使用jieba进行中文分词。 pipinstalljieba importjieba jieba.lcuttex...

《全职高手》人物词频分析和词云图片生成

本文使用的代码和操作都很简单，很适合刚学习Python的小白参考，需要注意的事项都在文章尾部说明了，可以注意一下。 1.词频分析 1）代码： importjieba defwordFreqfilepa...

【033】词云统计–汉语语段分析及使用高频词云生成

汉语言研究有时需要对一段文字进行词性分类和词频统计，制作PPT有时也需要做词云来加强视觉效果。在“词云统计”可以免费无需注册的进行汉语语段分析和高频词云生成。地址：参见文末图打开“词云统计”网站，...

是否确定退出登录?

Pyhton生成《百年孤独》高频词词云

全部评论 (0)

相关文章推荐

Pyhton生成《百年孤独》高频词词云

matlab根据已有词频生成词云,jieba+wordcloud 按词频生成词云

python词频统计 生成词云

python爬取电影热评生成高频词词云

已知词频生成词云图（数据库到生成词云）--generate_from_frequencies（WordCloud）

python做词云统计_python词频统计，生成词云

红楼梦词频统计，词云生成

统计csv词频_中文词频统计与词云生成

《全职高手》人物词频分析和词云图片生成

【033】词云统计–汉语语段分析及使用高频词云生成

python词频统计生成词云