朴素贝叶斯公式（过滤垃圾邮件）

阅读量：

准备数据：切分文本

现提供邮件文件夹：spam；非垃圾邮件文件夹：ham，各有25封邮件。
将邮件中的内容文本，进行分割，转换成一系列词语组成的列表

复制代码

 def textParse(bigString){

    
     import re;
    
     listOfTokens=re.split('\W',bigString) ;
    
     return [tok.lower() for tok in listOfTokens if len(tok)>2];
    
 }

准备数据：从文本中构建词向量

（1）首先将所有文档中的单词组成词汇表

复制代码

 def creatVocabList(dataset){

    
     vocabSet=set([]);
    
     for document in dataset{
    
      vocabSet=vocabSet|set(document);  
    
 }
    
     return list(vocabSet);
    
 }

（2）将每一篇文档转换为词汇表上的向量，现有两种模型：词集模型与词袋模型
词集模型：文档转换成的向量中的每一元素为1或0，分别表示词汇表中的单词在输入文档中是否出现。
词袋模型：文档转换成的向量中的每一元素，表示词汇表中的单词在输入文档中出现的次数

复制代码

 def setOfWords2Vec(vocabList,inputSet){

    
     returnVec=[0]*len(vocabList);
    
     for word in inputSet{
    
     if word in vocabList{
    
      
    
         returnVec[vocabList.index(word)]=1;
    
 }
    
 }
    
     return returnVec;
    
 }
    
  
    
 def bagOfWords2Vec(vocabList,inputSet){
    
     returnVec=[0]*len(vocabList);
    
     for word in inputSet{
    
     if word in vocabList{
    
         returnVec[vocabList.index(word)]+=1;
    
 }
    
 }
    
     return returnVec;
    
 }

训练算法：从词向量计算概率

复制代码

 def trainNB0(trainMatrix,trainCategory){

    
     numTrainDocs=len(trainMatrix) ;
    
     numWords=len(trainMatrix[0]) ;
    
     pAbusive=sum(trainCategory)/float(numTrainDocs) ; 
    
     p0Num=np.ones(numWords); p1Num=np.ones(numWords);
    
     p0Deom=2.0; p1Deom=2.0;
    
     for i in range(numTrainDocs){
    
     if trainCategory[i]==1{
    
         p1Num+=trainMatrix[i] ; 
    
         p1Deom+=sum(trainMatrix[i]); 
    
 }
    
     else{
    
         p0Num+=trainMatrix[i];
    
         p0Deom+=sum(trainMatrix[i]);
    
 }
    
 }
    
     p1Vect=np.log(p1Num/p1Deom); 
    
     p0Vect=np.log(p0Num/p0Deom);
    
     return p0Vect,p1Vect,pAbusive;
    
 }

测试算法：使用朴素贝叶斯进行交叉验证

复制代码

 def classifyNB(vec2Classify,p0Vec,p1Vec,pClass){

    
     p1=sum(vec2Classify*p1Vec)+np.log(pClass);
    
     p0=sum(vec2Classify*p0Vec)+np.log(1-pClass);
    
     if p1>p0{
    
     return 1;  
    
 }
    
     else{
    
     return 0;
    
 }
    
 }
    
 def spamTest(){
    
     docList = [];  
    
     classList = [];  
    
     for i in range(1, 26){
    
     wordlist = textParse(open('data/spam/{}.txt'.format(str(i))).read());
    
     docList.append(wordlist);
    
     classList.append(1);
    
     wordlist = textParse(open('data/ham/{}.txt'.format(str(i))).read());
    
     docList.append(wordlist);
    
     classList.append(0);
    
 }
    
     vocabList = creatVocabList(docList);  
    
     import pickle;
    
     file=open('data/vocabList.txt',mode='wb');  
    
     pickle.dump(vocabList,file);
    
     file.close();
    
     trainingSet = list(range(50));
    
     testSet = [];
    
     for i in range(10){
    
     randIndex = int(np.random.uniform(0, len(trainingSet)));
    
     testSet.append(trainingSet[randIndex]);
    
     del (trainingSet[randIndex]);
    
 }
    
     trainMat = []; 
    
     trainClasses = []; 
    
     for docIndex in trainingSet{
    
   
    
     trainMat.append(bagOfWords2Vec(vocabList, docList[docIndex]));
    
     trainClasses.append(classList[docIndex]);
    
 }
    
     p0v,p1v,pAb=trainNB0(trainMat,trainClasses);
    
     file=open('data/threeRate.txt',mode='wb'); 
    
     pickle.dump([p0v,p1v,pAb],file);
    
     file.close();
    
     errorCount=0;
    
     for docIndex in testSet{
    
     wordVector=bagOfWords2Vec(vocabList,docList[docIndex]);
    
     if classifyNB(wordVector,p0v,p1v,pAb)!=classList[docIndex]{
    
         errorCount+=1;
    
 }
    
 }  
    
  return float(errorCount)/len(testSet);
    
 }

构造分类器

复制代码

 def fileClassify(filepath){

    
     import pickle;
    
     fileWordList=textParse(open(filepath,mode='r').read());
    
     file=open('data/vocabList.txt',mode='rb');
    
     vocabList=pickle.load(file);
    
     vocabList=vocabList;
    
     fileWordVec=bagOfWords2Vec(vocabList,fileWordList);
    
     file=open('data/threeRate.txt',mode='rb');
    
     rate=pickle.load(file);
    
     p0v=rate[0];p1v=rate[1];pAb=rate[2];
    
     return classifyNB(fileWordVec,p0v,p1v,pAb);
    
 }
    
  
    
 if __name__=='__main__'{
    
     print('朴素贝叶斯分类的错误率为：{}'.format(spamTest())) ;
    
     filepath=input('输入需判断的邮件路径');
    
  
    
     if fileClassify('data/spam/1.txt')=={
    
     print('垃圾邮件');
    
 }
    
     else{
    
     print('非垃圾邮件');
    
 }
    
 }

全部评论 (0)

还没有任何评论哟~

朴素贝叶斯公式（过滤垃圾邮件）

准备数据：切分文本现提供邮件文件夹：spam；非垃圾邮件文件夹：ham，各有25封邮件。将邮件中的内容文本，进行分割，转换成一系列词语组成的列表 deftextParsebigString imp...

朴素贝叶斯实现垃圾邮件过滤

收到一封邮件，假定它是正常邮件和垃圾邮件的概率各是50%， P（正常）=P（垃圾）=50% P垃圾发票=P发票垃圾⋅P垃圾/P发票根据全概率公式： P发票=P发票垃圾⋅P垃圾+P发票正常⋅P正常 P...

朴素贝叶斯算法过滤垃圾邮件

基础知识 1.条件概率在A发生的条件下B发生的概率记为PBA, 2.全概率公式若B1,B2...Bn为样本空间E的一个划分，则算法概述 1\.贝叶斯公式若为样本空间E的一个划分，则 2\.极大...

朴素贝叶斯算法--垃圾邮件过滤

文章目录一、朴素贝叶斯概述 1、贝叶斯决策理论 2、条件概率 3、朴素贝叶斯 4、朴素贝叶斯一般过程二、朴素贝叶斯算法垃圾邮件 1、准备数据：从文本中构建词向量 2、训练算法：从词向量计算概率 3...

朴素贝叶斯垃圾邮件

暂无描述

【Python机器学习】朴素贝叶斯——使用朴素贝叶斯过滤垃圾邮件

使用朴素贝叶斯解决一些现实生活中的问题时，需要先从文本内容中得到字符串列表，然后生成词向量。使用朴素贝叶斯对电子邮件进行分类的过程： 1、收集数据：提供文本文件 2、准备数据：将文本文件解析成词条向...

朴素贝叶斯算法实现垃圾邮件过滤

朴素贝叶斯算法实现垃圾邮件过滤 1．1题目的主要研究内容（1）贝叶斯垃圾邮件过滤技术是一种电子邮件过滤的统计学技术，它使用贝叶斯分类来进行垃圾邮件的判别。

搭建朴素贝叶斯模型【过滤垃圾邮件】

经典朴素贝叶斯定理适合用于文本分类场景，垃圾邮件过滤是个典型的二分类场景。先理解几个知识点： 1、联合概率分布Px,y=Pxy.Py=Pyx.Px 2、贝叶斯定理Pxy=Pyx.Px/Py 3、条件...

朴素贝叶斯——垃圾邮件分类

垃圾邮件分类朴素贝叶斯的介绍：贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯（NaiveBayes）分类是贝叶斯分类中最简单，也是常见的一种分类方法...

朴素贝叶斯——垃圾邮件分类

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、贝叶斯二、朴素贝叶斯三、代码四、小小自我判别总结前言垃圾邮件是否一直困扰着你，贝叶斯公式，给予你求得这...

是否确定退出登录?

朴素贝叶斯公式（过滤垃圾邮件）

准备数据：切分文本

准备数据：从文本中构建词向量

训练算法：从词向量计算概率

测试算法：使用朴素贝叶斯进行交叉验证

构造分类器

全部评论 (0)

相关文章推荐

朴素贝叶斯公式（过滤垃圾邮件）

朴素贝叶斯实现垃圾邮件过滤

朴素贝叶斯算法过滤垃圾邮件

朴素贝叶斯算法--垃圾邮件过滤

朴素贝叶斯垃圾邮件

【Python机器学习】朴素贝叶斯——使用朴素贝叶斯过滤垃圾邮件

朴素贝叶斯算法实现垃圾邮件过滤

搭建朴素贝叶斯模型 【过滤垃圾邮件】

朴素贝叶斯——垃圾邮件分类

朴素贝叶斯——垃圾邮件分类

搭建朴素贝叶斯模型【过滤垃圾邮件】