R-数据挖掘-决策树ID3（四）

阅读量：

海林老师《数据挖掘》课程作业系列

要求：自己写R/Python代码、函数实现一系列算法

其他参见：

R-数据挖掘-研究混合型数据对象的距离（一）

全文逻辑：（读者可将所有代码按顺序复制到RStudio，全选ctrl+A,运行ctrl+enter,查看结果）

分析

算法/函数

测试数据

测试代码

测试结果（截图）

分析：这个很难！！（难在递归生成树）

#实现输入训练集输出ID3方式得到的决策树（列表）

#输入：训练集数据框(要求最后一列为类别)
#输出：显示划分属性
#返回：列表，按分类属性的可取值分的，
######[[1]]表示为某个属性时，
######列表最里层[[2]]表示此路径的最终类别

算法实现（编写函数）：

（1）生成决策树：

复制代码

 id3_jcs<-function(data){

    
   #求给定列的信息熵Info
    
   ##data数据框
    
   ##默认最后一列为分类Label
    
   info<-function(data){
    
     count_all=nrow(data)
    
     count_fen=as.numeric(table(data[,ncol(data)]))
    
     result=0
    
     for (i in 1:length(count_fen)) {
    
       rate=count_fen[i]/count_all
    
       result=result-(rate*log(rate,2))
    
     }
    
     return(result)
    
   }
    
   #print(info(train))
    
   
    
   #求某属性分类，得到的总信息熵
    
   ##col_fen:要对该列属性进行分类
    
   info_col<-function(data,col_fen){
    
     leibie=names(table(data[,col_fen]))
    
     count_all=nrow(data)
    
     result=0
    
     for (i in 1:length(leibie)) {
    
       data[,col_fen]=as.character(data[,col_fen])
    
       data_fen=subset(data,data[,col_fen]==leibie[i])
    
       data_fen=droplevels(data_fen)#除去无用因子
    
       count_fen=nrow(data_fen)
    
       info_fen=info(data_fen)
    
       result=result+info_fen*(count_fen/count_all)
    
     }
    
     return(result)
    
   }
    
   #x=info_col(train,1)
    
   #x=info_col(train,"age")
    
   
    
   #根据属性各取值，切割数据框
    
   ###属性为列名
    
   ###返回列表
    
   split_data<-function(data,col_fen){
    
     leibie=names(table(data[,col_fen]))
    
     leibie_num=length(leibie)
    
     data[,col_fen]=as.character(data[,col_fen])
    
     data_fens=NULL
    
     
    
     for (i in 1:leibie_num) {
    
       data_fen=subset(data,data[,col_fen]==leibie[i])
    
       data_fen=droplevels(data_fen)
    
       data_fen=data_fen[,-col_fen]
    
       print("------------------------------------")
    
       print(leibie[i])
    
       print("==========================================")
    
       print(data_fen)
    
       data_fens[[i]]=list(leibie[i],data_fen)
    
     }
    
     return(data_fens)
    
   }
    
   #xx=split_data(train,1)
    
   #xx[[1]][[1]]#获取第一个分类依据
    
   #xx[[1]][[2]]#获取第一个分类之后的数据框，不含划分属性
    
   #xx[[2]][[1]]
    
   #test=xx[[2]][[2]]
    
   #a1=best(test)
    
   #test2=split_data(test,a1)
    
   
    
   #找到最好的划分属性
    
   ###返回所在列数
    
   best<-function(data){
    
     info_all=info(data)#计算父表的信息增益
    
     gains=c(rep(0,ncol(data)))
    
     if(ncol(data)>1){
    
       for (i in 1:(ncol(data)-1)) {
    
     gains[i]=info_all-info_col(data,i)#得到子表的信息增益
    
       }
    
     }
    
     index=which(rank(-gains,ties.method="first")==1)#得到划分属性的列数
    
     return(index)
    
   }
    
   #best(train)
    
   
    
   #如果只有一列，而结果却多个的话，采用多数表决
    
   #找出出现次数最多的分类名称
    
   ###传入数据框（一列，是最后一列，为分类Y N 等）
    
   majorityCnt<-function(data){
    
     data_fen<-table(data)
    
     index=which(rank(-as.numeric(data_fen),ties.method="first")==1)#得到划分属性的列数
    
     return(names(data_fen)[index])
    
   }
    
   #根据列数和数据框，输出列名
    
   col_name<-function(col_count,data){
    
     return(names(data)[col_count])
    
   }
    
   
    
   #############################递归创建树
    
   createTree<-function(data){
    
     #递归停止条件
    
     if(length(data)==1){
    
       return(majorityCnt(data))
    
     }
    
     if(length(as.numeric(table(data[,ncol(data)])))==1){
    
       return(data[1,ncol(data)])
    
     }
    
     if(nrow(data)==0){
    
       return()
    
     }
    
     
    
     #根据传入数据求最佳分类属性的位置
    
     bestFeature=best(data)
    
     #输出划分属性的名称
    
     print(paste0("********我是划分属性:",col_name(bestFeature,data),"************"))
    
     #根据这个位置，对数据进行分类，得到分类之后的列表
    
     data_fens=split_data(data,bestFeature)
    
     #遍历分类后的数据框,对每个框进行从上到下相同的操作
    
     data_fen_lists=NULL
    
     for (i in 1:length(data_fens)) {
    
       data_fen_label=c(col_name(bestFeature,data),data_fens[[i]][[1]])
    
       data_fen=data_fens[[i]][[2]]
    
       data_fen_list=createTree(data_fen)
    
       data_fen_lists[[i]]=list(data_fen_label,data_fen_list)
    
     }
    
     return(data_fen_lists)
    
   }
    
  return(createTree(data))
    
 }

（2）实现分类

复制代码

 classify<-function(tree,test){

    
    xh=function(treelist){
    
      for (i in 1:length(treelist)) {
    
     label=treelist[[i]][[1]][1]
    
       if(test[1,label]==treelist[[i]][[1]][2]){
    
         result=treelist[[i]][[2]]
    
         if(!is.list(result)) return(result)
    
         aa=xh(result)
    
         return(aa)
    
       }
    
      }
    
    }   
    
   return(xh(tree))
    
 }

数据测试：

测试数据：

书上的数据

训练数据选前13行

最后一行用于测试

复制代码

 age=c("youth","youth","youth","youth","youth","middle_aged","middle_aged","middle_aged","middle_aged","senior","senior","senior","senior","senior")

    
 income=c("high","high","medium","low","medium","high","low","medium","high","medium","low","low","medium","medium")
    
 student=c("no","no","no","yes","yes","no","yes","no","yes","no","yes","yes","yes","no")
    
 credit_rating=c("fair","excellent","fair","fair","excellent","fair","excellent","excellent","fair","fair","fair","excellent","fair","excellent")
    
 class=c("no","no","no","yes","yes","yes","yes","yes","yes","yes","yes","no","yes","no")
    
 data<-data.frame(age,income,student,credit_rating,class,stringsAsFactors = F)
    
 train<-data[1:13,]
    
 test<-data[14:14,]

复制代码

 #训练集测试  结果存在xx中

    
 xx=id3_jcs(train)
    
  
    
 #测试集一条记录  
    
 test
    
 mmm=classify(xx,test)
    
 mmm
    
 #若测试集多条记录
    
 test2=data[12:14,]
    
 test2
    
 for (i in 1:nrow(test2)) {
    
   print(classify(xx,test2[i,]))
    
 }

测试结果：

全部评论 (0)

还没有任何评论哟~

R-数据挖掘-决策树ID3（四）

海林老师《数据挖掘》课程作业系列要求：自己写R/Python代码、函数实现一系列算法其他参见： R数据挖掘求混合型数据对象距离（一） R数据挖掘主成分分析PCA（二） R数据挖掘关联规则（三） R...

数据挖掘决策树——ID3

经典的ID3算法一、ID3的介绍 ID3算法最早是由罗斯昆（J.RossQuinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。

数据挖掘算法——ID3（决策树）

决策树算法：决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策...

数据挖掘决策树ID3算法原理

上一篇博客写了ID3算法的简单实现这一篇讲讲ID3的原理写这个算法是由于某同事的同学的毕业设计，关系够复杂的了==，写完这个算法，突然对数据挖掘有了兴趣，决定把C4.5,C5.0算法也一并实现，并...

学习数据挖掘决策树ID3算法

一个月前的C语言程序设计课上学习了决策树ID3算法然后自己用了两个多星期的时间开始用C语言实现，结果由于过程太过于复杂，写出来的东西就跟屎一样。可能是自己对于这个算法理解的不够深刻，或者是在设计的...

数据挖掘--分类之决策树算法ID3

一、决策树：一棵决策树由一个根节点，一组内部节点和一组叶节点组成。每个内部节点（包括根节点）表示在一个属性上的测试，每个分枝表示一个测试输出，每个叶节点表示一个类，有时不同的叶节点可以表示相同的类。

数据挖掘中决策树ID3非递归算法

最近看了下ID3算法，虽然很经典，但是网上90%的实现方式都是用的递归，大家都知道递归的效率低下，特别是当数据集很多的时候，刚好最近在看python，因此无聊就把他改成非递归的了数据集： Sunny...

《python数据分析与挖掘实战》 ID3决策树

coding:utf8 使用ID3决策树算法预测销量高低 importpandasaspd fromsklearn.treeimportDecisionTreeClassifierasDTC from...

数据挖掘决策树算法 ID3 通俗演绎

决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代...

数据挖掘实验（四）：决策树归纳 R语言

一、实验目的：决策树分类算法（decisiontree）通过树状结构对具有某特征属性的样本进行分类。其典型算法包括ID3算法、C4.5算法、C5.0算法、CART算法等。本次实验掌握用ID3的信息增...

是否确定退出登录?

R-数据挖掘-决策树ID3（四）

全文逻辑：（读者可将所有代码按顺序复制到RStudio，全选ctrl+A,运行ctrl+enter,查看结果）

算法实现（编写函数）：

数据测试：

测试结果：

全部评论 (0)

相关文章推荐

R-数据挖掘-决策树ID3（四）

数据挖掘决策树——ID3

数据挖掘算法——ID3（决策树）

数据挖掘 决策树ID3算法原理

学习数据挖掘决策树ID3算法

数据挖掘--分类之决策树算法ID3

数据挖掘中决策树ID3非递归算法

《python数据分析与挖掘实战》 ID3决策树

数据挖掘 决策树算法 ID3 通俗演绎

数据挖掘实验（四）：决策树归纳 R语言

数据挖掘决策树ID3算法原理

数据挖掘决策树算法 ID3 通俗演绎