【NLP】朴素贝叶斯及其Python实现

阅读量：

文本分类（Document Classification / Document Categorization）

▶ 分类方法1——基于规则(Hand-coded)

精度高
开销大

▶ 分类方法2——机器学习(Machine learning)

是一种计算机算法，该算法通过对数据做自动分析来获得规律，并利用这些规律对未知数据进行预测。它是人工智能的一个分支。

有监督学习	无监督的学习
训练集包括输入和由人工标注的输出	其训练集没有人为标注的输出
分类器（classifier）	聚类（cluster）

常用的分类器有：朴素贝叶斯 、KNN 、决策树 、SVM 、神经网络 等。

朴素贝叶斯（Naïve Bayes）

▶ 朴素贝叶斯的原理
在这里插入图片描述
▶ 朴素贝叶斯的优缺点

优：朴素贝叶斯假设了数据集属性之间相互独立 ，因此算法的逻辑性得到极大的简化，这使得朴素贝叶斯十分稳定，即比较健壮。
缺：属性的独立性条件同时也是朴素贝叶斯的不足之处，毕竟在实际中，数据集的属性之间往往存在这样那样的关联 ，很难满足这种属性的独立性 ，分类效果也会因此大大降低。

▶ 朴素贝叶斯的理解

属性独立性 是Naïve Bayes的前提也是关键
这种独立性也代表着：属性无权重，它们对于决策结果的影响是平等的
贝叶斯方法的特点是结合先验概率和后验概率 ，即避免了只使用先验概率的主观偏见 ，也避免了单独使用样本信息的过拟合现象 ——通过下面的简单例子，你就能理解这句话了 >_<

▶ 如何基于这些原理实现Naïve Bayes分类器？

通俗地说，就是根据已有的数据集，得到先验概率** 和各种属性对于各种决策的条件概率 （可以理解为每种属性对每种决策的影响的大小）；面对新的场景，对于每一种决策结果，进行一串连乘，推选出概率最高者为最终决策。**

一个超级简单的例子

Chinese、Beijing、Tokyo等为相互独立的属性
求第五组(text5)属于那一类(c / j) ？

▶ 手写解
在这里插入图片描述
▶ 代码解

复制代码

    text1 = "Chinese Beijing Chinese"                   # 分类为c
    text2 = "Chinese Chinese Shanghai"                  # 分类为c
    text3 = "Chinese Macao"                             # 分类为c
    text4 = "Tokyo Japan Chinese"                       # 分类为j
    text5 = "Chinese Chinese Chinese Tokyo Japan"       # 分类为什么？
    
    
    import re
    pattern = re.compile('\w+')
    # 获取单词list
    C = pattern.findall(text1) + pattern.findall(text2) + pattern.findall(text3)	
    J = pattern.findall(text4)														
    All = C + J
    # 词频
    from nltk import *
    fd_c = FreqDist(C)
    fd_j = FreqDist(J)
    fd_all = FreqDist(All)
    
    # 先验概率
    pc = 3 / 4
    pj = 1 / 4
    
    def Naive_Bayes_classifier(text):
    pc = 1
    pj = 1
    pc *= 3 / 4
    pj *= 1 / 4
    for each in text5.split(' '):
        pc *= ((fd_c[each] + 1) / (len(C) + len(fd_all)))
        pj *= ((fd_j[each] + 1) / (len(J) + len(fd_all)))
    print('分类为c的后验概率正比于', pc)
    print('分类为j的后验概率正比于', pj)
    print('最终该text的分类为(最终决策)：', 'c' if pc > pj else 'j')
    
    
    Naive_Bayes_classifier(text5)
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/UixELeT6lchpCBFn31fomKbj527O.png)

NLTK提供的朴素贝叶斯分类器

复制代码

    ############################### 基于NLTK的朴素贝叶斯分类器实现人名分类 #############################
    
    from nltk.corpus import names		# 直接利用nltk提供的语料库
    print(names.fileids())				# 这个names语料库有两个文件：['female.txt', 'male.txt']
    name_sex = [(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')]
    
    # 把这些带标签的名字随机化
    import random
    random.shuffle(name_sex)
    
    # 获取特征———以名字的最后一个字母作为特征
    def get_features(word):
    return {'last_name': word[-1]}
    
    # 生成特征集合
    # tip：格式为[({描述:属性特征}, 类别), ({描述:特征}, 类别), ({描述:属性特征}, 类别)...]
    feature_set = [(get_features(name), sex) for (name, sex) in name_sex]
    
    # 获得训练集和测试集
    train_set = feature_set[500:]
    test_set = feature_set[:500]
    
    # 训练分类器
    import nltk
    classifier = nltk.NaiveBayesClassifier.train(test_set)
    
    # 输入名字，使用分类器实现分类（实际上是预测）
    name = input('>_< 请输入名字: ')
    print('>_< 我猜测ta的性别是: ', classifier.classify(get_features(name)))
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/WBljdRaGCrEU48pmIh97LTSn5V2Y.png)

评估：

复制代码

    print(nltk.classify.accuracy(classifier, test_set))			# 0.746
    
    
    python

上面在获取特征时(get_features)获取的是“名字的最后一个字母”，所以0.746这个评估结果完全在预料之中

如果将整个名字作为特征：def get_features(word): return {'whole_name': word}

评估结果可达到0.998

检查分类器的有效特征

复制代码

    classifier.show_most_informative_features(5)
    
    
    java

全部评论 (0)

还没有任何评论哟~

【NLP】朴素贝叶斯及其Python实现

文本分类（DocumentClassification/DocumentCategorization） ▶分类方法1——基于规则Handcoded 精度高开销大 ▶分类方法2——机器学习Machin...

【NLP】朴素贝叶斯

【任务5传统机器学习–朴素贝叶斯】 1\.朴素贝叶斯贝叶斯：贝叶斯定理旨在计算PAB的值，也就是在已知B发生的条件下，A发生的概率是多少。大多数情况下，B是被观察事件，比如“昨天下雨了”，A为预测结...

朴素贝叶斯python代码_朴素贝叶斯模型及python实现

1朴素贝叶斯模型朴素贝叶斯法是基于贝叶斯定理、特征条件独立假设的分类方法。在预测时，对输入x，找出对应后验概率最大的y作为预测。 NB模型：输入：先验概率分布：PY=ck,k=1,2,⋯,KP\...

朴素贝叶斯法及其R实现

1\.朴素贝叶斯基本方法 1.1贝叶斯分类法基本公式：朴素贝叶斯分类器可以表示为上式中，分母对所有的ck都相同，所以 1.2后验概率最大化含义朴素贝叶斯法将实例分类到后验概率最大的类中，这等价于...

用起来不太朴素的朴素贝叶斯及其Python实现

作为一个听起来非常Naive的分类器，NaiveBayesClassifier使用了“属性条件独立性假设”，也就是假设所有属性相互独立。分类器的目的，是对任一测试样本x,利用贝叶斯定理求出后验概率最大...

python实现朴素贝叶斯

手动实现朴素贝叶斯，并没有使用sciLearn的。其中的主要公式参考的仍然是统计学习方法中的内容。并且使用贝叶斯估计参数，并且结果和书上的内容可以完全对应上，验证了过程的可靠性。

朴素贝叶斯python实现

本实现仅仅是课本上的实现，仅供学习参考和sklearn实现不同朴素贝叶斯的实现主要分为三步，本文按照三个步骤来实现，我们假设S为样本集合，包含N个样本，样本的特征维度为n 1.计算先验概率，表示类别...

[nlp] 朴素贝叶斯分类

<https://www.cnblogs.com/luonet/p/4028990.html 朴素贝叶斯分类的思想真的很朴素，它的思想基础是这样的：对于给出的待分类项，求解此项出现的条件下各个类别出现...

贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现

原标题：朴素贝叶斯和贝叶斯网络算法及其R语言实现作者：鲁伟一个数据科学践行者的学习日记。数据挖掘与机器学习，R与Python，理论与实践并行。个人公众号：数据科学家养成记微信ID：louwill1...

朴素贝叶斯原理及python实现

一、贝叶斯算法引入朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类法，是一种基于概率分布的分类算法。贝叶斯分类算法，通俗的来讲，在给定数据集的前提下，对于一个新样本（未分类），在数据集中找到...

是否确定退出登录?

【NLP】朴素贝叶斯及其Python实现

文本分类（Document Classification / Document Categorization）

朴素贝叶斯（Naïve Bayes）

一个超级简单的例子

NLTK提供的朴素贝叶斯分类器

全部评论 (0)

相关文章推荐

【NLP】朴素贝叶斯及其Python实现

【NLP】朴素贝叶斯

朴素贝叶斯python代码_朴素贝叶斯模型及python实现

朴素贝叶斯法及其R实现

用起来不太朴素的朴素贝叶斯及其Python实现

python实现朴素贝叶斯

朴素贝叶斯python实现

[nlp] 朴素贝叶斯分类

贝叶斯网络python实现_朴素贝叶斯和贝叶斯网络算法及其R语言实现

朴素贝叶斯原理及python实现