非参数模型:什么是机器学习中的决策树?
决策树是一种监督式机器学习算法,在AI中用于分类和回归任务。它通过递归地将数据集分割为更小的子集来构建模型,并基于特征值对数据进行分类或预测。决策树由根节点、内部节点(分裂点)和叶节点组成,叶节点表示最终结果或类别。
在监督学习中,决策树通过计算信息增益或基尼指数来选择最优分裂特征。熵用于衡量数据集的不确定性,信息增益表示分割后熵的减少量;基尼指数评估模型对类别的区分能力。决策树的关键术语包括根节点、分裂点(决策节点)和结果点(叶节点)。
构建决策树时需避免过拟合,可通过剪枝技术减少复杂度。剪枝方法包括减少错误修剪和成本复杂度修剪。决策树广泛应用于分类任务(如文档分类)、回归问题(如预测房价)以及医疗诊断等领域。
总之,决策树是一种简单而强大的机器学习工具,在AI中具有广泛应用价值。

概述
一种不可替代且直观易懂的监督式机器学习算法被称为决策树算法。被训练数据通过其关键参数不断进行分裂,在人工智能系统的框架下构成两种核心组成部分:即所谓的决策节点与叶部单元体。其中叶部单元体负责定义一系列可能的结果或结论,而那些决定如何分割数据的关键节点则设定着具体的分割阈值指标。本文旨在深入探讨机器学习领域中的这一重要技术。
介绍
AI 中的决策树是一种监督式机器学习算法,在AI领域中被广泛应用于分类和预测任务。作为监督学习的一种形式,在训练阶段模型利用一组变量构建数据集来完成分类任务,并通过测试阶段验证其准确性。虽然Decision Trees偶尔只能给出明确的答案或结论,在某些情况下它们则提供了更为灵活的选择以供数据科学家参考。与传统方法相比,在模拟人类思维的过程中Decision Trees往往能生成更加直观易懂的结果。

机器学习中不同类型的决策树
分类树
什么是分类树?
分类问题作为人工智能领域中最常见的决策树应用形式之一。它属于监督学习方法之一的分类任务,在这一过程中需要对带有标签的数据进行建模与分析。通过训练阶段对数据进行学习并建立特征与类别的映射关系。该模型在处理阶段数据时能够根据预设规则输出相应的类别标签。其作用机制在于通过对处理后数据样本特征的分析与综合判断来进行预测与决策支持。其应用实例涵盖文档分析、图像识别系统以及垃圾邮件筛选等领域。

构建用于对数据进行分类的对象或集合的一种模型架构即为分类树。在构建过程中的分叉末端通常标记着具体的类别标识,在这种情况下各个分叉路径会逐渐收敛最终指向明确的目标结果。该方法采用逐步细化的方式将整体样本划分为更小、更具特异性的子集从而实现精准的数据划分过程对于离散型或多类目标变量而言该方法采用二元划分策略即通过连续的问题拆解逐步缩小范围直至确定最终结果路径这一过程体现了信息增益的概念进而优化了决策边界的表现形式在这种框架下每一层节点都代表了一次关键的信息筛选步骤最终能够将所有可能的情况都包含进去并形成完整的决策路径这一特性使得它成为处理多维数据问题的理想选择
回归树
回归分析也是一种监督式机器学习方法,并主要用于预测连续型目标变量(如房价或股票价格波动)。此外,其核心目标是建立模型来揭示自变量与因变量之间的关系机制,并通过利用标注数据集进行有监督学习优化参数配置

通过训练回归模型...以便揭示输出数据与输入数据之间的关系。一旦明确了这种关联,该模型就能根据不可见的输入预测结果。这些模型的应用场景涵盖预测不同环境中的未来趋势以及填补历史数据中的缺失。回归模型的例子可能涉及房价预测、未来零售额预期或金融股票投资组合的表现。在人工智能领域中用于处理连续值的决策树被称为回归树.类似于分类树,它通过逐步分解成更小的数据子集来构建密集或稀疏的数据簇.新的和不可见的数据点可被应用于这些簇.值得注意的是,尽管回归_tree在连续数值输出方面表现稳健,但在某些复杂任务上可能不如其他技术精确.
常用属性选择度量
熵亦称Shannon entropy,在信息论中用 H(S) 表示有限集合 S 的元素数量,用于评估数据的不确定性或随机性水平。

从直观上讲, 它揭示了特定事件发生的可预测性特性。比如, 在一枚公平的硬币中, 正面出现的概率与反面出现的概率均为0.5, 此时该随机变量的熵达到最大值, 因为我们无法预测结果将如何呈现。另一种情况是具有双重正面的硬币, 其熵能够被完美预测, 我们已知它总是正面朝上, 因此这种情况下该事件不含不确定性;其熵即为零。换句话说, 该事件不含随机性;其熵即为零数值预示较低不确定性...而较高数值则预示较高不确定性
信息增益
信息增益亦称作 Kullback-Leibler 散度,在机器学习领域中被广泛应用于特征选择和模型评估。具体而言,在给定数据集 S 的情况下,信息增益表现为在确定属性 A 后熵值的有效减少量。该指标衡量了相对于原始状态自变量带来的熵量变化。

其中信息增益IG(S,A)是由应用特征A所获取的信息量所体现的度量指标。整个集合S的熵H(S)则代表了该集合的信息总量。此外,在计算过程中还会涉及到一项与条件熵相关的项。其中P(x)代表事件x发生的概率。

在上图中,我们仅限于获取来自节点1的一个类的数据。另一方面,在该节点内部(即节点1)我们必须获取比其他任何节点更多的数据以准确描述决策过程。鉴于以上分析可知,在综合考虑各方面因素后可以确定该特定区域的信息增益相对较高。具体而言污染程度最为严重的区域必须更多地依赖相邻区域的环境数据才能达到平衡状态。
基尼指数
基尼指数用于衡量在随机选择的情况下元素被错误分类的概率。因此,我们应优先选择基尼系数较小的属性。Python库Scikit-learn默认采用'基尼'准则来计算基尼指数。其计算公式如下:Gini = 1 - \sum_{i=1}^{n} p_i^2

哪里

是类的百分比

在节点中。
决策树的关键术语
以下是决策树的一些关键超参数:
- 核心要素: 决策树构建过程中的基础单元。
- 分割操作: 在分析过程中对当前数据集进行划分的行为。
- 决策点: 在分析中需要做出选择的阶段标志。
- 结果标志: 当所有可能的选择都已经考虑完毕时所达到的状态。
- 简化处理: 对过复杂决策树进行优化以减少计算负担的技术手段。
- 路径结构: 决策树中每一个分支都代表了一种特定的分析流程和可能性集合。
如何将算法表示为树
决策树类似于一棵树。树的基是根节点。从根节点流出一系列描述要做出的决策的决策节点。决策节点是表示这些决策结果的叶节点。每个决策节点表示一个问题或分割点,源自决策节点的叶节点表示可能的答案。叶子节点从决策节点发芽,就像树枝上的叶子发芽一样。这就是为什么我们将决策树的每个子部分称为“分支”。让我们看一个例子。你是一名高尔夫球手,而且是一贯的高尔夫球手。在任何一天,您都希望在两个方面预测您的分数:低于标准杆或高于标准杆。

决策树变量和设计:
在高尔夫示例中 ,每个结果都是独立的,因为它不依赖于上一次抛硬币的结果。另一方面,因变量受到之前的事件的影响。 在 AI 中构建决策树涉及构造,您可以在其中选择生成决策树的属性和条件。然后,对树进行修剪,以删除可能影响准确性的不相关分支。修剪涉及 发现异常值,即远远超出常规的数据点,这些异常值可能会因对数据中的罕见事件给予过多的权重而使计算中断。 当涉及到你的高尔夫得分时,温度可能并不重要,或者有一天你得分很差,导致你的决策树被抛弃了。当您探索决策树的数据时,您可以修剪特定的异常值,例如您在球场上糟糕的一天。您还可以修剪可能与数据分类无关的整个决策节点 ,例如温度。 精心设计的决策树呈现的数据节点和分支很少。您可以在一张纸或白板上手绘一个简单的决策树。然而,更复杂的问题需要使用决策树软件。
什么时候停止种树?
一个数据集一般包含多个特征,在构建决策树的过程中,在每个层级都会产生大量分支。这些分支构成一棵较为复杂的结构体;这种结构体若无节制地发展下去可能会引发过拟合现象;因此;确定停止生长该树的时间点至关重要。
一种常用的方法是在叶子节点仅允许最少一定数量的训练样本作为基础决策依据;例如;建议在单个节点中至少包含10个样本作为基础决策依据;并排除那些仅有少于15个样本参与分类判断的情况。
另一种方法则是设定决策树模型的最大深度;其中tree depth指的是从根节点延伸至任一叶子节点所需的最深深度。
修剪
修剪是一种旨在通过减少决策树复杂度来避免过拟 fit并增强其预测能力的技术。该方法通过删除使用低重要性特征的决策节点来优化模型结构。上述方法不仅能够缩减树的复杂性,还能有效抑制过拟合现象的发生。

进行修剪时可从根部或叶端着手。最基础的修剪策略通常始于叶片部分。若不降低分类精度,则应删除该叶片中具有最高频类别的所有节点。此方法有时被归类为错误导向的剪枝。然而,在实际应用中还存在更为复杂的剪枝策略。通过调节参数α(alpha),我们可以决定是否基于子树规模来删减相应的节点。这通常被称为剪枝中的薄弱环节法。
决策树的应用
在人工智能领域中广泛应用的决策树模型是实现监督学习的重要工具,在分类任务中表现出色。作为机器学习模型之一,在AI领域中决策树主要用于根据给定的标准将数据样本归类。通过预设的标准体系或综合多个标准来排列属性特征,在此过程中逐步识别出样本所属的具体类别。另外一种主要用途是建立特征与结果之间的映射关系。以下是一些典型的应用场景:
缓解 .NET 工作负载
决策树可用于指导 .NET 旧版应用程序搜索适合规划迁移到现有或现代化版本的路径。与其采取“全盘考虑”的方式来解决问题,不如分阶段进行每个应用程序的评估与规划,这将有助于实现更加有效的成本控制和优化工作。

客户推荐引擎
消费者往往倾向于选择与之前购买过的类似产品。在这种情况下,推荐引擎扮演着重要的角色。例如,在顾客购买手机后,这有助于推广手机屏幕保护膜。推荐引擎能够基于决策树构建模型,并根据客户的决策轨迹生成节点。
识别抑郁症的危险因素
一项于2009年在澳大利亚开展的研究跟踪了超过6,000人的队列(队列:指参与研究者的群体),并对其严重抑郁症患病情况进行了调查。研究团队基于吸烟习惯、饮酒频率以及就业状态等因素进行分析,并开发出一种用于预测重度抑郁症发生概率的决策树模型。医疗诊断过程依赖于多种因素来评估患者的健康状况,并根据综合分析结果推荐合适的治疗方案。该系统能够帮助医疗工作者更为精准地制定个体化的诊疗计划,在临床应用中展现出显著的价值和潜力。
结论
在人工智能领域中,决策树是一种关键且易于理解和应用的算法。
本文阐述了多种决策树类型及其构建方法、生长终止条件,并探讨了不同参数对模型的影响。
通过对其在人工智能领域的广泛运用进行深入分析后,本研究得出了相关结论。
