Advertisement

【数据挖掘】决策树

阅读量:

一、分类与预测

1、分类:基于数据的某些属性进行评估(离散值)。
2、预测:基于数据的某些属性进行预测(连续值)。
3、常见的方法:

  • 基于统计分析的方法
  • 基于距离计算的方法
  • 最广泛使用的是基于决策树的方法
  • 基于神经网络模型

二、决策树的基本原理

构建决策树的基本过程:
构建决策树;
求见决策树;
生成规则应用于数据库。

一棵决策树的部分之一是 called 节点.
被称作 root node 的是没有父 node 的 node.
被称作 leaf node 的是没有子 node 的 node.
当一个node按照某个attribute进行分割时,它就被称为split attribute.例如,如果rootnode的splitattribute是性别.
每个branch都会标记上一个split predicate.例如,root结point分割谓词是"性别=Female".

在这里插入图片描述

修剪决策树

在这里插入图片描述

生成规则

在这里插入图片描述

三、ID3、C4.5、C5.0

起源于20世纪50年代初期的概念学习系统的开创性工作后来经不断发展完善,并于20世纪80年代末期由Quinlan开发出了具有里程碑意义的一种分类方法——ID3算法。该方法特别适用于处理具有离散型属性的数据作为对ID3的一种优化升级,C4.5算法增添了一项处理连续属性的方法,从而实现了更好的分类效果基于大规模数据集设计而成

在这里插入图片描述
在这里插入图片描述

信息熵

在这里插入图片描述

信息熵的多少反映了不确定性的多少;其值越高,则不确定度也越高;其值较小时,则不确定度也随之减小。

在这里插入图片描述

(可以把信息熵理解成概率中的数学期望。)

全部评论 (0)

还没有任何评论哟~