Advertisement

数据挖掘学习笔记——(四)文本挖掘

阅读量:

概念

基于文本的数据挖掘是Data Mining的一种形式。基于此观点,文本数据 mining 属于 Data Mining 的一个分支。

工具类

jieba

工具类使用

复制代码
    import jieba
    str = "好好学习,天天向上!"
    
    print("/".join(jieba.lcut(str)))                 # 精简模式
    print("/".join(jieba.cut(str, cut_all=True)))  # 全模式
    print("/".join(jieba.cut_for_search(str)))      # 搜索引擎模式

效果图:

在这里插入图片描述

词频统计

复制代码
    import jieba
    
    words = jieba.cut(longtext)  #longtext是我先前定义的一个变量,可用文本代替
    c = {}     # 将词语与词语出现的次数存为k-v类型
    for word in words:
    if(len(word) == 1):
        continue     #抛弃单个不能组成词语的字
    else:
        c[word] = c.get(word, 0) + 1
    
    items = list(c.items())
    items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序
    
    for word,count in items:
    print("{0:<8}{1:>8}".format(word, count))

效果图:

在这里插入图片描述

提示:统计词频后还可展示词云,可以说是一个词频可视化的好方法。

全部评论 (0)

还没有任何评论哟~