【数据挖掘实验】决策树算法之ID3算法
发布时间
阅读量:
阅读量
一、实验目的与要求:
1、掌握ID3算法构建决策树的基本步骤,并基于提供的数据集构建相应的决策树模型并提取规则集。
2、学习在SPSS Clementine平台中创建分布图、散点图和网络图的方法,并掌握使用C5.0节点构建决策树的技术。
二、实验原理:
决策树模型是一种类似于流程图的层次化结构,在机器学习领域具有重要应用价值。其中每个内部节点代表一个属性划分操作,分支对应于不同属性值的结果输出路径,并且叶子节点用于存储具体的分类结果或数据分布情况。该结构以根节点作为起点,并通过一系列条件判断形成多级分支结构(如图1所示)。具体而言,在 buys_computer 概念模型中通过一系列属性判断完成对潜在顾客是否购买计算机行为的预测任务。在这一过程中,
决策树模型将输入样本按照预设规则逐步筛选并最终定位到特定叶子节点中。
这种基于路径逻辑的设计使得决策树模型能够自然地将分类规则转化为可解释的形式。

2、ID3算法
■ 决策树中的每个内部节点对应一个非目标属性特征,其分支代表该特征的具体取值。叶子节点表示从根节点到该叶子路径上所有实例所属的目标属性值。
■ 每个内部节点都与具有最大区分度的特征相关联。
■ 采用信息增益作为标准来选择能够最好地将样本集分类的特征。
信息增益基于信息论中的熵概念。ID3算法总是选择具有最高信息增益(即最大熵压缩)的那个特征作为当前节点的测试依据。所选特征能够使对样本集进行划分所需的最少信息量最小化,并反映了划分后的最小不纯度或随机性。
三、实验方案设计:

四、测试数据与实验结果
测试数据:假设你是一位临床医学研究者,在整理临床研究数据的过程中,请注意以下几点
1、读取文本数据


2、添加表
3、创建分布图




全部评论 (0)
还没有任何评论哟~
