Advertisement

Data Mining Practical Machine Learning Tools and Techniques

阅读量:

4.数据挖掘基本方法

本章将深入探讨核心概念。其中最富启发性的经验教训是:即使最简单的思路也往往能产生显著的效果。为了提高分析效率,在实际操作中我们强烈推荐遵循"以简为先"的原则。通过数据集我们能够揭示出多种不同形式的基本模式

八种不同数据结构类型

  1. 仅一个属性承担了所有的工作职责,而其余属性则不相关或冗余,无法发挥作用.
  2. 属性之间可能存在独立且平等的关系,对最终结果的影响具有同等重要性.
  3. 属性呈现一种简单的逻辑架构,主要涉及少量几个关键因素,这些要素能够被决策树有效捕捉.
  4. 学习系统中可能会有一些独立规则负责将实例分配到不同的类别中.
  5. 不同子集之间可能存在相互依存关系,彼此之间存在一定的关联性.
  6. 数字间存在线性相关关系,其核心在于某些特征变量间的加权求和效应.
  7. 在特定区域内的分类任务通常根据实例间的距离进行划分管理.
  8. 学习系统缺乏类别信息时,这样的情况属于无监督学习场景.

从无数个可能的集合中发展出多种类型的数据结构,并非所有数据挖掘工具都能发现所有潜在模式;无论这些模式多么基础。八种不同的数据类别都对应着特定的机器学习方法。

1.基本推断规则

描述

基于1-Rule的推断规则构建了一棵一级决策树,仅依赖单一属性即可完成任务,既简单又高效.在实践中,许多实际数据集往往表现出令人吃惊的高准确性.这可能源于许多实际数据集具有极为基础的内在结构,因此只需一个属性即可相当准确地确定实例所属类别.

方法

逐一统计各属性各类别取值对应的样本数量,并将各分支中数量最多的一类作为该节点所属类别。选择错误率最小的特征作为决策依据,并最终实现基于特征的分类目标

缺失值和数值属性

  1. 单规则推理规则可将缺失属性视为另一个属性值missing来替代缺失属性。
  2. 在数值型数据离散化过程中通常会先对其进行排序,在确定分段点时依据目标类别进行操作。为了减少过拟合风险并合理划分区域边界,则建议采用最少多数类原则设定每个区间。

讨论

在广泛实验中,最小大多数类通常被设置为6

2. 统计建模

这个就是朴素贝叶斯方法

描述

方法

朴素贝叶斯方法通过分析样本集中各属性值的出现频率来推断各类别对应的类条件概率分布以及各属性之间的条件独立关系。当处理分类问题时,在给定条件下计算各类别对应的后验概率,并将具有最大后验概率的类别作为预测结果。通常情况下,在进行相关计算时需要执行大量乘积运算以获得最终结果;为了简化运算过程减少复杂度通常会对这些乘积取对数之后再进行求解

缺失值和数值属性

  1. 朴素贝叶斯方法建立在条件概率理论的基础上,并用于处理缺失值及其鲁棒性。
  2. 假设数值型特征遵循某种特定的概率分布。通过样本来估计这些参数,并将数值型特征的概率密度函数作为其出现概率的替代。

讨论

基于各属性之间相互独立的基础上构建的。冗余数据间的相关性会影响模型的学习效果,在实际应用中可以通过去除部分属性间存在的相关关系,并合理选择具有代表性的特征来提升朴素贝叶斯模型的表现质量。针对数值型数据,在选择合适的数据分布模式时能够显著提升模型的效果,在某些情况下则无需预先设定特定的数据分布类型,并可利用核密度函数进行参数估计以进一步优化预测结果的准确性。

3. 决策树

决策树适用于属性有逻辑性,层次性的数据

防止过拟合

决策树更可能倾向于选择具有较高区分度的属性,在这种情况下容易出现过拟合现象。为了缓解这一问题,在选择特征时通常采用基于信息增益比的方法来替代传统的信息增益指标;此外,在那些具有较高信息增益(超过50%)的属性中,则进一步优化其对应的计算结果以实现更高的分类效果。

4. 覆盖算法

描述

与决策树的理念恰恰相反,在每棵决策树中每个节点处选择能使得当前分支样本纯度增益最大的属性这一过程不断持续下去;而Covering Algorithm则会依次涵盖各类别,在每一次划分时都会选取能够使得该类别中的所有样本都被涵盖并尽量排除不属于该类别的其他样本的分类条件。其特点表明它会生成一个规则集合而非一棵Decision Tree

覆盖算法和决策树

决策树采用的是递归划分方法,在每个节点处进行属性选择时会优先考虑基于信息增益率进行优化的特征指标;而覆盖方法则通过寻找能够使目标分类对象预测准确度最高的属性-值组合来实现分类任务的划分。

PRIMS算法

该算法依次生成各分类别的规则集合,并从空规则集合出发持续向规则集中加入条件直至达到100%的准确率。生成完一个规则集后,则移除该类别所有被覆盖的样本。

规则列表

覆盖算法会生成一系列规则;这些规则会对样本集进行集合的交运算。尽管存在一定的顺序;但这些交运算本身并无严格的逻辑先后关系。
在一系列规则的应用过程中;目标样本的数量会逐渐缩小;直到所有规则都被应用完毕后;所有的目标样本都会被归类到某一类别中。
在后续分类的过程中;这些已经被正确归类的目标会被单独分离出来;因此后续产生的各个分类标准都是针对那些尚未被正确归类的对象。
这种情况下带来的好处很显而易见:各个模块化的独立性使得每个模块都能单独承担一部分知识功能。
然而这也带来了一个明显的缺点:同一个输入可能触发多个不同的分类模块。

5.关联规则挖掘

算法描述

该算法通过考察各条规则间的相互关系来构建知识库。事实上传统的1-Rule基于单一属性进行划分是一种简单有效的分类方法而更复杂的关联分析则需深入挖掘各属性间取值间的相互作用及组合模式。在选择合适的分类关联模型时需综合考量其分类性能与所选特征集合的相关性

算法步骤

  1. 第一步, 依次生成符合最小覆盖条件的单目集、双目集和三目集等。
  2. 从每个项集中输出预设最低准确率的模式。

讨论

对于多项属性的组合而言,在实际应用中可能会导致结果呈现指数级增长的趋势。实际上,在其基础属性集上构建的过程下生成多项集合。因此,在计算方面考虑周全后无需遍历每个样本即可完成相关运算。最后,在分析涉及二元属性的情形时

6. 线性模型

描述

使用线性回归进行预测时,默认采用最小平方误差作为损失函数。
在某些情况下,在特定条件下将任何一种回归技术应用到分类问题上也是可行的。
对于每一个类别而言,在其对应的区域中应用一个线性模型,并通过该模型输出结果来判断是否属于该类别。
对于未知类别中的样本实例,则需要分别计算每个对应的线性模型输出值,并选取其中最大的那个值作为最终判定依据。

7.基于实例的学习

描述

k-近邻,懒分类。

有效算法

基于样本的信息利用构建学习策略简单有效, 但存在明显的局限性, 通常运算速度较慢。通过建立树结构来表示训练样本的数据分布特征, 可以更有效地实现邻居关系的识别。kD树作为一种高效的空间分割数据结构, 在构建过程中能够有效地组织实例数据, 从而显著提升近邻搜索效率。

8.聚类

聚类算法

全部评论 (0)

还没有任何评论哟~