【数据挖掘】决策树
发布时间
阅读量:
阅读量
一、分类与预测
1、分类:基于数据的某些属性进行评估(离散值)。
2、预测:基于数据的某些属性进行预测(连续值)。
3、常见的方法:
- 基于统计分析的方法
- 基于距离计算的方法
- 最广泛使用的是基于决策树的方法
- 基于神经网络模型
二、决策树的基本原理
构建决策树的基本过程:
构建决策树;
求见决策树;
生成规则应用于数据库。
一棵决策树的部分之一是 called 节点.
被称作 root node 的是没有父 node 的 node.
被称作 leaf node 的是没有子 node 的 node.
当一个node按照某个attribute进行分割时,它就被称为split attribute.例如,如果rootnode的splitattribute是性别.
每个branch都会标记上一个split predicate.例如,root结point分割谓词是"性别=Female".

修剪决策树

生成规则

三、ID3、C4.5、C5.0
起源于20世纪50年代初期的概念学习系统的开创性工作后来经不断发展完善,并于20世纪80年代末期由Quinlan开发出了具有里程碑意义的一种分类方法——ID3算法。该方法特别适用于处理具有离散型属性的数据作为对ID3的一种优化升级,C4.5算法增添了一项处理连续属性的方法,从而实现了更好的分类效果基于大规模数据集设计而成


信息熵

信息熵的多少反映了不确定性的多少;其值越高,则不确定度也越高;其值较小时,则不确定度也随之减小。

(可以把信息熵理解成概率中的数学期望。)
全部评论 (0)
还没有任何评论哟~
