① 比如预测肿瘤细胞良恶性
② 将信用卡交易归类为合法或欺诈
③ 营销经理需要进行数据分析,以帮助猜测具有给定配置文件的客户是否会购买一台新计算机(类别为购买/不购买)。
④ 银行贷款官员需要对她的数据进行分析,以了解哪种贷款申请对她的银行是有风险的(课程有风险/没有风险)
⑤ 将新闻故事归类为金融、天气、娱乐、体育等。
① 在算法成为一棵完整的树之前停止它。
② 节点的典型停止条件:(1.如果所有实例都属于同一个类,则停止;2.如果所有属性值都是相同的,则停止)
③ 更严格的停止条件:(1.如果实例数小于用户指定的阈值,则停止。2.如果实例的类分布独立于可用特性(例如使用卡方测试),则停止。3.如果扩展当前节点不改善杂质度量(GINI或信息增益),则停止-贪婪)
后剪枝:
① 首先构建一棵完整的树
② 以自下而上的方式修剪决策树的节点。
③ 如果裁剪后泛化误差有所改善,则将子树替换为叶节点。
④ 叶节点的类标签是从子树中的大多数实例中确定的。
缺失值处理 :(《机器学习》周志华 P87)
① 如何在属性值缺失的情况下进行划分属性的选择(根据没有缺失的值进行划分,信息增益Gain乘以一个无缺失样本比例)
② 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分(将属性值a缺失的样本分入每一个a的分支中,权值调整为w*比例,开始阶段,各样本权值初始化为1)