python画二维温度云图_python 绘制词云图

阅读量：

1. 先下载并安装nltk包，准备一张简单的图片存入代码所在文件目录，搜集英文停用词表

import nltk

nltk.download()

2. 绘制词云图

import re

import numpy as np

import pandas as pd

#import matplotlib

import matplotlib.pyplot as plt

from nltk.tokenize import word_tokenize, sent_tokenize

from nltk.corpus import stopwords

from PIL import Image

from wordcloud import WordCloud

from sklearn.datasets import fetch_20newsgroups

#from sklearn.feature_extraction.text import CountVectorizer

from collections import Counter, defaultdict

def word_cut(contents, cut=','):

res = []

for content in contents:

content = content.lower()

words = [word for word in re.split(cut, content) if word]

res.append(words)

return res

def word_count(contents):

#words_count = Counter(sum(contents,[])) #慢

word_count_dict = defaultdict(lambda: 0)

for content in contents:

temp_dict = Counter(content)

for key in temp_dict:

word_count_dict[key] += temp_dict[key]

return word_count_dict

def stopwords_filter(contents, stopwords):

contents_clean = []

word_count_dict = defaultdict(lambda: 0)

for line in contents:

line_clean = []

for word in line:

if word in stopwords:

continue

line_clean.append(word)

word_count_dict[word] += 1

contents_clean.append(line_clean)

words_count = list(word_count_dict.items())

words_count.sort(key=lambda x:-x[1])

words_count = pd.DataFrame(words_count, columns=['word', 'count'])

return contents_clean, words_count

从外部导入数据

'''

df_news = pd.read_table('val.txt', names=['category','theme','URL','content'], encoding='utf-8')

stopwords = pd.read_csv("stopwords.txt", index_col = False, sep="\t",

quoting=3, names=['stopword'], encoding='utf-8')

contents = df_news.content.values.tolist()

stopwords = stopwords.stopword.values.tolist()'''

自定义切词

'''

#[ ,.\n\t--':;?!/+<>@]

#[ ,.\n\t=--'`_:;?!^/|+<>{}@~\ ]

#contents = word_cut(contents=news.data, cut='[ ,.\n\t-`_:;?!^/|+<>{}@~]')

'''

将数据整理为模型入参形式

'''

#vec = CountVectorizer()

#X_train = vec.fit_transform(X_train) #不可直接将vec用在测试集上

#vectorizer_test = CountVectorizer(vocabulary=vec.vocabulary_)

#X_test = vectorizer_test.transform(X_test)

'''

可从中筛选停用词

'''

word_count_dict = word_count(contents)

temp = list(word_count_dict.items())

temp.sort(key=lambda x:-x[1])

df = pd.DataFrame(temp, columns=['word','count'])

df.to_csv(r'D:\PycharmProjects\zsyb\stop_words.csv')

'''

调包实现上述功能

news = fetch_20newsgroups(subset='all')

自定义的快好几倍，可以加if not in ‘’去标点

contents = [word_tokenize(content.lower()) for content in news.data] #sent_tokenize(content)

punctuations = set(list(',.\n\t-`_():;?!$#%&.*=^/|+<>{}@~')) #标点

digits = {str(i) for i in range(50)}

others = {'--', "''", '``', "'", '...'}

下载网上的停用词表加入 nltk_data\corpora\stopwords，低频词过滤（不要加入停用词）

stopWords = set(stopwords.words('english')) | punctuations | digits | others

contents_clean, words_count = stopwords_filter(contents, stopWords)

#df.groupby(by=['word']).agg({"count": np.size})

绘制词云图

fontpath = 'simhei.ttf'

aimask = np.array(Image.open(r"D:\PycharmProjects\zsyb\pig.png"))

wc = WordCloud(font_path = fontpath, #设置字体

background_color = "white", #背景颜色

max_words = 1000, #词云显示的最大词数

max_font_size = 100, #字体最大值

min_font_size = 10, #字体最小值

random_state = 42, #随机数

collocations = False, #避免重复单词

mask = aimask, #造型遮盖

width = 1200, height = 800, #图像宽高，需配合plt.figure(dpi=xx)放缩才有效

margin = 2 #字间距

)

word_frequence = {x[0]:x[1] for x in words_count.head(100).values}

word_cloud=wc.fit_words(word_frequence)

plt.figure(dpi=100) #通过这里可以放大或缩小

plt.subplot(121)

plt.imshow(aimask)

#plt.axis("off") #隐藏坐标

plt.subplot(122)

plt.imshow(word_cloud)

#plt.axis("off") #隐藏坐标

全部评论 (0)

还没有任何评论哟~

python画二维温度云图_python 绘制词云图

1\.先下载并安装nltk包，准备一张简单的图片存入代码所在文件目录，搜集英文停用词表 importnltk nltk.download 2\.绘制词云图 importre importnumpyas...

python画二维温度云图_Python数据可视化-使用Python绘制词云图

经常有朋友问怎么使用Python绘制词云图？今天我们展示一个简单的demo，有兴趣的朋友可以尝试跟着DIY哦 1\.前期准备在绘制词云图之前，我们要先安装所需的第三方库。

python画二维温度云图_python定制后处理云图

用后处理软件处理的云图会出现这样或那样的不满意，其实我们可以将求解数据导出以后，借助python定制云图。我们以fluent为例求解完成之后，我们将我们需要做云图的物理量以ASCII导出如下的p...

python画二维温度云图_lammps温度云图

转自：小木虫田淮安的回答。 LAMMPS中的温度是由原子的动能计算而来的，具体可参见手册computetempcommand一节的说明。 LAMMPS的模拟结果，我这里指的是dump命令得到的lamm...

python画二维温度云图_Python之路—matplotlib与云图

一直以来，对于python的Matplotlib库画图效果情有独钟，原因很简单，图很漂亮，比如说这是matplotlib官网的一副图，相信大家和我一样，第一反应是漂亮，第二反应是手痒痒，想尝试一下，...

python 可以用excel做词云图嘛_python绘制中文词云图

1\.明确任务最近学习过程中看到很多分析报告中都有运用到可视化的词云，也有看到五花八门的工具教程，刚好有一份《都挺好》电视剧的弹幕源数据。便决定用这份数据尝试使用python绘制词云。

python词云图_python爬虫学习笔记——6. Wordcloud绘制词云图

整理自<wordcloud制作中文词云图.更详细的介绍和例子参见官网Wordcloud 我注意到可以用pyecharts绘制词云WordCloud，也可以安装wordcloud库绘制词云，两者不是同一...

python 可以用excel做词云图嘛_python绘制中文词云图

Python绘制词云图

1.用到的一些包，如下 importjieba importcollections importre frompyecharts.chartsimportWordCloud frompyecharts...

Python绘制词云图

目录 1.引言 2.准备工作 3.导入数据 4.分词处理 5.统计各种词性的出现次数 6.筛选出词性为'n'的词语生成一个列表 7.生成词云图 8.全部代码 9.效果演示 10.总结 1.引言词云图...

是否确定退出登录?

python画二维温度云图_python 绘制词云图

从外部导入数据

自定义切词

将数据整理为模型入参形式

可从中筛选停用词

调包实现上述功能

自定义的快好几倍，可以加if not in ‘’去标点

下载网上的停用词表加入 nltk_data\corpora\stopwords，低频词过滤（不要加入停用词）

绘制词云图

全部评论 (0)

相关文章推荐

python画二维温度云图_python 绘制词云图

python画二维温度云图_Python数据可视化-使用Python绘制词云图

python画二维温度云图_python定制后处理云图

python画二维温度云图_lammps温度云图

python画二维温度云图_Python之路—matplotlib与云图

python 可以用excel做词云图嘛_python绘制中文词云图

python词云图_python爬虫学习笔记——6. Wordcloud绘制词云图

python 可以用excel做词云图嘛_python绘制中文词云图

Python绘制词云图

Python绘制词云图