Advertisement

【数据挖掘笔记八】分类:基本概念

阅读量:

8.分类:基本概念

分类是一种关键的数据分析方法,在分析中用于识别并构建特征数据类别系统(即所谓的分类器),该系统能够预测其对应结果(即离散且无序的具体类别编号)。

8.1 基本概念

主要分为两类:一种是基于输入变量进行类别区分的任务——即所谓的"分类任务"(classification task),另一种则是根据输入变量来估计连续型目标变量的任务——即所谓的"回归分析"(regression analysis)。这些方法构成了机器学习领域中处理未知现象的核心技术基础。
在数据分类过程中涉及两个关键步骤:首先是在训练阶段开发或建立分类模型;其次是在测试或应用阶段利用该模型对新数据进行类别标记。

在机器学习中,在提供每个训练样本及其对应类别标签的情况下(即每个训练元组包含输入数据和对应的类标号),该种学习方式被称为监督学习;其特点是无需预先知道类别信息。与之相比,在无监督学习中,则需要处理那些不带标签的数据集(即每个训练元组仅包含输入数据而不包含对应的类标号)。具体类别数量或集合形式通常也是未知的。

在分类阶段中,首先要评估分类器的预测准确性.如果出现过拟合现象(即,在学习过程中,学习器可能会捕获训练数据中的某些特殊模式,而这些模式通常不在一般的数据集中出现),则需采用独立于训练数据的测试集.在这种情况下,该分类器在测试集上的准确率即为其正确识别测试样本的比例.

8.2 决策树归纳

基于带标签的训练样本集合进行决策树归纳。在构建决策树过程中采用属性选择度量来评估并选择最优地分离不同类别的特征。在构建过程中可能会生成反映训练数据噪声和异常点的分支,在这种情况下为了提高泛化能力会去除这些不必要的分支从而有助于进一步提升模型在未知测试集上的分类性能 ID3 C4.5和CART等算法均采用了贪心策略即无需回溯就能保证生成的整体结构是最优或接近最优的其中这些算法都会通过自顶向下递归的方式对数据集进行分治处理

属性选择度量是决策树中用于分类的重要标准,在于通过将具有相同类标记的训练元组有效地划分为单独类别来实现的方法。它为描述每个训练元组的各个属性进行了评估排序,在这些排序中表现最佳的特性被选作元组的分割特征。常用的属性选择度量包括信息增益、增益率以及基尼指数三种指标。其中信息增益更倾向于选择多值属性,在此基础之上计算出的信息增益值会有所差异;而为了修正这一偏差带来的影响,则引入了增益率这一指标进行调整;然而这种调整也会导致划分结果出现一定程度上的失衡现象——其中一个区域的数据规模明显小于其他区域;基尼指数同样偏好于处理多值属性的问题,并且在面对类别数量较多时容易陷入计算复杂度过高的困境;此外它还倾向于生成规模相等且纯度较高的分区结果

决策树剪枝方法有先剪枝和后剪枝:

在应用剪枝方法时, 采用提前终止的方式构造决策树, 并根据给定节点是否继续分裂或划分训练数据集中的子集来决定. 当剪枝过程完成时, 则将该节点标记为叶子节点, 并由其所代表的数据子集中的多数类别决定其分类结果. 在构建决策树的过程中, 可以利用统计显著性检验、信息增益评估指标以及基尼指数等指标来衡量不同分割方式的有效性.

后剪枝策略通过在完全生长的决策树上减除不必要的分支以减少过拟合的可能性。CART算法采用的是代价复杂度剪枝方法作为其后剪枝策略的一个具体实现方式。该方法旨在平衡决策树模型的复杂度与预测性能,在构建决策树时将复杂度视为其树叶结点数量与预测错误率之间的函数关系。从决策树底部节点开始向上遍历,在每个内部节点N处计算其子树的成本复杂度指标以及子树被修剪后的成本复杂度指标进行比较:如果移除节点N下的所有子树能够带来更低的成本复杂度,则执行该操作从而实现对冗余分支的有效去除。

由于训练集过大而导致的数据存储与缓存频繁交换,在内存与快照之间转换数据块时带来了较高的计算开销。因此需要研究能够有效扩展处理能力的决策树模型。例如RainForest算法能够在有限内存环境下运行,并不仅适用于基本决策树构建但也可扩展至复杂的决策树模型;其中一种方法是采用自助法结合乐观估计的技术来优化决策树构建过程。

基于感知的分类是一种结合多维可视化界面的交互式分类系统,在构建决策树的过程中提供辅助知识输入的功能

8.3 贝叶斯分类方法

它是一种基于统计学的分类方法,在机器学习领域具有重要应用价值。它能够估计各实体归属于某一类别之概率,在实际应用中可帮助分析数据间的分布特征及归属关系等信息。其理论基础源于贝叶斯定理

其假设任何一个属性值在给定类上的影响不依赖于其他属性的值,并基于此提出类条件独立性的概念。

8.4 基于规则的分类

基于一组IF-THEN规则的分类器用于执行分类任务。其中IF部分代表条件前提而THEN部分代表结果结论。这些指标通常包括覆盖率达到一定程度的同时保证一定的分类精度。通过顺序覆盖算法(sequential covering algorithm)可以直接从训练数据中提取这些IT-THEN型的模式而不必生成完整的决策树结构。采用顺序覆盖算法能够直接从训练数据中提取出这些模式而无需构建完整的决策树结构。

8.5 模型评估与选择

衡量机器学习模型性能的重要标准之一是混淆矩阵;它是一个重要的辅助工具。其关键评价指标包括准确性(即正确识别比例)、误判率(即错误识别比例)、误分类频率(即被错误分到其他类别的情况)、检测能力(即正确识别正类的比例)以及识别能力(即正确识别负类的比例)。此外还有捕获能力(即正确识别正类的比例)和ROC曲线(即 receiver operating characteristic curve)等重要指标。

除了基于准确率的度量外,还可以在其他方面比较分类器:

1)速度:产生和使用分类器的计算开销;

鲁棒性:在数据存在噪声或缺失值的情况下分类器正确预测的能力,在学术界通常采用的方法是通过不断增加噪声和缺失值来生成一系列合成数据集进行评估。

可伸缩性:面对海量数据集,具备构建分类器的能力;常用逐步扩展的数据集合进行评估;

4)可解释性:分类器或预测器提供的理解和洞察水平。

在模型评估过程中,样本抽样采用了特定的技术,并包括交叉验证、自助法(即有放回的均匀采样)以及留一法。在模型选择过程中,则采用了统计检验方法。

8.6 提高分类准确率的技术

集成模型(ensemble)是一种复杂的系统结构,在其中多个基础分类器协同工作以实现目标识别任务的综合判断。集成策略主要包含投票法与加权法两种主要类型,在不同场景下展现出各自的优劣特点。该系统相较于其基模型的识别能力较之现有单个模型而言更具优势,并且能够显著提高整体诊断效率与准确性水平

基于 bootstrap 的 bagging 方法:通过有放回地随机抽样选取 N 份训练数据集,并为 N 个基础分类器进行模型训练;其分类决策由投票机制综合得出;最后通过并行计算实现集成效果。

提升Boosting算法时,会对每个训练元组分配一定权重。然后依次进行k次循环训练:每次使用前一次的学习结果来调整当前分类器的权重分布。

随机森林是Bagging的案例,Adaboost是Boosting的案例。

除了在模型优化方面外,在数据处理上也有重要研究。通过优化类不平衡数据分布能够显著提升各类别的识别精度。传统的分类方法的目标是最大限度地减少分类错误。实现不平衡数据下的高准确率可通过以下手段达到:过采样技术(over-sampling)、欠采样方法(under-sampling)、阈值平移策略(threshold shifting)以及多种技术的结合应用。

8.7 小结

1)在机器学习中,分类是一种数据分析形式,在其中我们通过分析数据特征来识别数据类别的分布情况。这类技术中的一个典型代表是分类器或分类模型,在这些方法中我们通过分析输入样本来识别其所属的具体类别标签名称(即类别标号)。数值预测则涉及构建基于输入数据特征的连续值函数模型。在机器学习中,分类和数值预测被视为两大核心任务。

2)决策树归纳是一种基于自顶向下的递归方法,在构建分类模型时将实例集合逐步划分为较小子集。该方法通过特定属性评估指标来决定节点处的特征划分。其中ID3、C4.5和CART等算法采用不同的评估标准来区分节点特征。为了提升模型准确性与泛化能力,该方法通过去除那些因数据噪声而产生的子分支来优化结构。传统在线决策树假设所有数据均存放在内存中,并已针对可扩展性需求提出了一些扩展型架构(如Rainforest)。

该方法遵循后验概率模型,并假设各个属性的值在给定类别下相互独立。

4)该分类器基于预设的IT-THEN规则进行判别。其构建过程可从预设的决策树中提取相应的判别标准,并可采用顺序覆盖算法自动生成相应的判别标准以适应复杂数据特征

混淆矩阵用于衡量分类器性能。在二分类问题中,它展示真实正例、真实负例、虚假正例和虚假负例的数量。涉及分类器预测能力的关键指标包括准确率、灵敏度(召回率)、特异性、精确率以及F-分数等。当研究关注的类别样本数量较少时,在过度依赖准确率作为评价标准时可能会导致误导结论。

分类器的构建与评估过程涉及将标记化的数据集划分为训练集与验证集两部分。其中包含固定比例保持、随机抽样选取样本作为训练集、交叉验证采用不同子集组合的方法以及自助法通过反复有放回地抽样来实现数据的多样化等典型划分方法。

这些统计方法包括显著性检验和ROC曲线,在模型选择中具有有效性。这些方法有助于比较不同分类器之间的性能差异。具体来说,显著性检验用于评估两个分类器准确率差异是否由于偶然因素导致;而ROC曲线则展示了各个分类器的真实正率(灵敏度)与假正率(1 - 特异性)之间的关系。

8)集成方法通过训练多个基础分类器模型集合来显著提升了整体准确性。Bootstrap aggregating(Bagging)、提升法以及Random Forest被认为是常用的技术。

当类别中感兴趣的子类仅包含较少的样本实例时会出现类不平衡问题。采用上述方法进行分类器调整能够有效缓解这一问题。

全部评论 (0)

还没有任何评论哟~