数据挖掘学习笔记——(四)文本挖掘
发布时间
阅读量:
阅读量
概念
基于文本的数据挖掘是Data Mining的一种形式。基于此观点,文本数据 mining 属于 Data Mining 的一个分支。
工具类
jieba
工具类使用
import jieba
str = "好好学习,天天向上!"
print("/".join(jieba.lcut(str))) # 精简模式
print("/".join(jieba.cut(str, cut_all=True))) # 全模式
print("/".join(jieba.cut_for_search(str))) # 搜索引擎模式
效果图:

词频统计
import jieba
words = jieba.cut(longtext) #longtext是我先前定义的一个变量,可用文本代替
c = {} # 将词语与词语出现的次数存为k-v类型
for word in words:
if(len(word) == 1):
continue #抛弃单个不能组成词语的字
else:
c[word] = c.get(word, 0) + 1
items = list(c.items())
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
for word,count in items:
print("{0:<8}{1:>8}".format(word, count))
效果图:

提示:统计词频后还可展示词云,可以说是一个词频可视化的好方法。
全部评论 (0)
还没有任何评论哟~
