python数据挖掘实战笔记——文本挖掘（2）：中文分词

阅读量：

需要了解的几个概念：
**中文分词 ：**将一个汉字序列切分成一个一个的词。
**停用词 ：**数据处理时，需要过滤掉某些字或词，泛滥的词，比如web\网站等，语气助词、介词、副词、连接词等，如 的、地、得 。

需要用到的模块：jieba
jieba最主要的方法就是cut()方法，举个例子：

复制代码

    import jieba
    for w in jieba.cut("我爱Python"):
    print(w)
    我
    爱
    Python

复制代码

    seg_list = jieba.cut(
    "真武七截阵和天罡北斗阵哪个更厉害呢？"
    )
    for w in seg_list:
    print(w)
    真武
    七截阵
    和
    天罡
    北斗
    阵
    哪个
    更
    厉害
    呢
    ？
    
    
    AI写代码
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-31/ko2HtlEmDWycaGnIdps4vUgLJ71e.png)

虽然jieba包已经有默认词库，但是有时候遇到一些专业的场景会出现一些不太理想的效果（如上所示代码），这种情况就需要我们导入一些专有词。

复制代码

    jieba.add_word('真武七截阵')
    jieba.add_word('天罡北斗阵')
    seg_list = jieba.cut(
    "真武七截阵和天罡北斗阵哪个更厉害呢？"
    )
    for w in seg_list:
    print(w)
    真武七截阵
    和
    天罡北斗阵
    哪个
    更
    厉害
    呢
    ？
    
    
    AI写代码
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-31/DcQr4LtXpBTGuo9wAslSnV1ehR7Y.png)

当词的数量很多时，可以用jieba.load_userdict()方法，将包含所有专用词的txt文件一次性导入用户自定义词库中：

复制代码

    #一次性导入所有专有词
    jieba.load_userdict(
    r"C:\Users\www12\Desktop\data\2.2\金庸武功招式.txt"
    )

介绍完了jieba分词的用法，紧接着上篇的代码，对语料库进行分词处理，为了便于进行后续的分析，需要做出分词的结果以及对应的文件的出处。

复制代码

    import jieba
    
    segments = []
    filePaths = []
    #遍历语料库的每一行数据，得到的row为一个个Series，index为key
    for index, row in corpos.iterrows():
    filePath = row['filePath']#获取每一个row中filePath对应的文件路径
    fileContent = row['fileContent']#获取row中fileContent对应的每一个文本内容
    segs = jieba.cut(fileContent)#对文本进行分词
    for seg in segs:
        segments.append(seg)#分词结果保存到变量segments中
        filePaths.append(filePath)#对应的文件路径保存到变量filepaths中
    
    
    AI写代码
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-31/4WTLYwXyGtr1PQhkaUZfsgB38A9v.png)

复制代码

    #将分词结果及对应文件路径添加到数据框中
    segmentDataFrame = pandas.DataFrame({
    'segment': segments, 
    'filePath': filePaths
    })

分词完成，如图：
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~

python数据挖掘实战笔记——文本挖掘（2）：中文分词

需要了解的几个概念：中文分词：将一个汉字序列切分成一个一个的词。停用词：数据处理时，需要过滤掉某些字或词，泛滥的词，比如web\网站等，语气助词、介词、副词、连接词等，如的、地、得。

python数据挖掘实战笔记——文本挖掘（3):词频统计

概念：词频：指某个词在该文档中出现的次数。需要用到的模块：numpy importnumpy 进行词频统计 segStat=segmentDataFrame.groupby by=segment ...

python数据挖掘实战笔记——文本挖掘（10）：自动摘要

概念：摘要：全面准确地反映某一文献中心内容的简单连贯的短文。自动摘要：利用计算机自动地从原始文件中提取摘要。算法原理：余弦相似定理算法步骤：获取需要摘要的文章对该文章进行词频统计对该文章...

python数据挖掘实战笔记——文本挖掘（9）：相似文章推荐

概念：相似文本推荐：在用户阅读某篇文章的时候，为用户推荐更多与在读文章内容类似的文章。推荐：指介绍好的人或事物，希望被任用或接受。数据挖掘领域，推荐包括相似推荐及协同过滤推荐。相似推荐：指当用户...

python数据挖掘-文本挖掘(词频统计)

一，使用pycharm创建项目我创建的项目下只有两个文件，一个停分词文件，一个脚本代码文件停分词文件stopwords.txt:作用:在用jieba分词库对文件进行分词处理时，有些无用却频繁出现的...

python数据挖掘实战笔记——文本挖掘（1）：语料库构建

什么是文本挖掘？文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。一、搭建语料库语料库：要进行文本分析的所有文档的集合。

数据挖掘学习笔记——（四）文本挖掘

概念文本数据挖掘是从文本中进行数据挖掘DataMining。从这个意义上讲，文本数据挖掘是数据挖掘的一个分支。工具类 jieba 工具类使用 importjieba str=好好学习，天天向上！ ...

【文本挖掘】——中文分词

中文分词一、分词算法二、分词的难点三、常见分词工具四、结巴分词模式五、修改词典六、去除停用词七、词性标注一、分词算法分词算法主要有基于字符串的匹配和基于统计和机器学习的分词 1.基于...

文本挖掘 - 分词

分词即对词语进行划分。分词的基本方法包括：最大匹配法，最大概率分词法，最短路径分词法（最小切分法）。其中最大匹配法、最短路径法属于机械式分词法，最大概率分词法属于基于统计的分词方法。

python数据挖掘实战笔记——文本挖掘（5）：词云美化之绘制《红楼梦》词云图

词云图的美化就是把词云图的背景和颜色进行美化，以《红楼梦》词云图为例，如下所示：首先绘制词云，跟之前的代码操作一样： importjieba importnumpy importcodecs imp...

是否确定退出登录?

python数据挖掘实战笔记——文本挖掘（2）：中文分词

全部评论 (0)

相关文章推荐

python数据挖掘实战笔记——文本挖掘（2）：中文分词

python数据挖掘实战笔记——文本挖掘（3):词频统计

python数据挖掘实战笔记——文本挖掘（10）：自动摘要

python数据挖掘实战笔记——文本挖掘（9）：相似文章推荐

python数据挖掘-文本挖掘(词频统计)

python数据挖掘实战笔记——文本挖掘（1）：语料库构建

数据挖掘学习笔记——（四）文本挖掘

【文本挖掘】——中文分词

文本挖掘 - 分词

python数据挖掘实战笔记——文本挖掘（5）：词云美化之绘制《红楼梦》词云图