Advertisement

【数据挖掘笔记九】分类:高级方法

阅读量:

9.分类:高级方法

9.1 贝叶斯信念网络

贝叶斯信念网络(Bayesian belief networks)作为概率图模型的一种应用,在无需假定各属性间的类条件独立性的情况下实现对多维随机变量联合分布的概率建模能力。该方法通过图形化表示变量间的局部依赖关系来建模全局依赖结构,并提供了描述变量子集间的局部依赖关系的能力。同时使得其成为机器学习和数据挖掘中的重要工具。

贝叶斯信念网络由两个组成部分构成: 有向无环图和条件概率表集合. 这些变量既可以表现为观测到的数据, 在全部或部分训练元组中存在. 情况被称作缺失数据或者不完整数据. 如果已知该网路的拓扑结构, 并且所有的变量都是可观测到的, 则对网路进行训练将变得直接而简便. 当给定一个确定好的网路拓扑, 并且其中一些变量无法被观测到时, 则需要采取不同的策略来训练信念网.

信仰网络属于一种计算密集型的技术。
由于信仰网络能够直观地展示因果关系,
专家可以通过分析网络拓扑结构以及条件概率数据来建立先验知识。

9.2 用后向传播分类

该算法基于后向传播机制实现神经网络的学习过程。主要优势体现在能够以较高程度容忍噪声数据,并具备识别非训练数据模式的能力。适用于无法建立属性与类别之间明确关联的情况。

后向传播算法在多层前馈神经网络中进行学习,并通过迭代过程优化一组用于元组类标号预测的权重参数。由输入层、隐藏层(若有的话)以及输出层构成的多层前馈神经网络结构为:输入端接收来自训练样本的所有特征信息,并通过逐层传递至输出端完成信息处理过程。该神经网络的输入端则与每个训练样本所具有的观测属性一一对应。

在训练开始前必须设定神经网络的拓扑结构参数。这些参数包括输入层中的神经元数量、各隐藏层中的神经元数量以及输出层中的神经元数量。

反向传播算法通过反复处理训练数据集中的元组来实现参数优化过程。在这一过程中,算法将每个元组的网络预测结果与其真实已知的目标值进行对比学习,以期达到更好的拟合效果。这些目标值可能是训练样本所属于的类别标签或连续型数值,并且对于每一个训练样本,算法会调整权重参数以最小化网络预测输出与实际目标之间均方误差的大小。

算法整个过程:初始化权重、向前传播输入、向后传播误差、终止迭代。

9.3 支持向量机

支持向量机(SVM),一种能够处理线性和非线性数据分类任务的方法。该方法通过将输入数据进行非线性转换(即投影到更高维度的空间中),使得在新的维度空间中能够找到一个最佳的分隔超平面(即能将不同类别的数据点区分开来的决策边界)。当选择一个足够高的维度并采用适当的非线性转换时,在这一高维空间中两个类别总是可以通过超平面得以分离。该算法基于基本训练样本(即支持向量)以及由这些支持向量所界定的边界区域来确定最佳分隔超平面。

面对非线性可分的数据时, 借助核技巧将原始数据映射至高维空间中以实现对复杂模式的学习. 利用核函数能够绕过在高维空间中进行耗时的点积运算(计算开销巨大),而是在原始数据空间中完成相关运算以达到模拟高维效果的目的. 常见的核函数类型包括多项式型、径向基函数以及S型转化等.

核方法的理解参考:

9.4 使用频繁模式分类

该模型揭示了在给定数据集中频繁出现的属性-值对之间的有趣关联。将每个属性-值对视为一个项,在此基础上发现这些项的频繁组合的过程被称为频繁模式挖掘或称为 frequent itemset mining.

该系统支持三种类型的关联分类方法:CBR以分类为基础进行关联、CMAR则采用多条关联规则来进行分类,并且CPAR则以预测性的关联规则作为基础进行应用。在处理过程上,默认情况下会按照以下步骤执行:

1)挖掘数据,得到频繁项集,即找出数据中经常出现的属性-值对;

2)分析频繁项集,产生每个类的关联规则,它们满足置信度和支持度标准;

3)组织规则,形成基于规则的分类器。

基于有区别力的频繁模式分类,一般框架如下:

特征生成:基于类别标记将数据集D划分为若干个区域,并运用频繁项集挖掘技术识别出各区域中符合最低支持度要求的频繁模式集合F。这些频繁模式构成候选特征集合

2)在特征选择方面:从集合F中进行特征筛选,在筛选后的频繁模式集中具有更强的鉴别力以区分不同的类别或行为趋势。这些指标包括信息增益、Fisher得分以及其他的评估指标如互信息等。这些方法可以帮助我们去除不相关的属性或模式,在剩下的属性集中仅保留单个属性以及被选中的高频次出现的频繁模式Fs,在新的数据集中仅保留单个属性以及被选中的高频次出现的频繁模式Fs

3)学习分类模型:在数据集D’上建立分类器。****

9.5 惰性学习法(近邻学习)

急切学习法(eager learner)在接收待分类的新元组(如检验元组)之前就建立了泛化模型(即分类模型),简单来说就是说训练好的模型已经准备好并等待着对未曾见过的数据进行分类处理。

惰性学习法(Lazy learner)仅在接收到测试样本后才开始处理。只有在识别到待分类样本时才会执行泛化操作。当处理训练样本时仅需进行基本计算。而对分类任务或数值预测时则需要消耗更多计算资源。惰性学习存储训练元组或实例,也称为基于实例的学习法。

当用于处理分类或数值预测任务时

通过模式空间搜索确定k个训练样本与目标样本之间的最短距离,并将这些训练样本按照多数类别分配给目标样本;基于距离比较的方法默认假设所有属性具有相同的重要性;然而,在实际应用中如果数据存在噪声或者与目标无关的属性时,则会影响模型准确率;为此我们采用一种改进方法结合属性加权策略并剔除对分类影响不大的训练样本;此外选择合适的度量方法对于模型性能至关重要;为了加快分类速度我们可以采用部分距离计算和精简存储库来提高效率

通过案例驱动的发展(Case-Based Reasoning, CBR)的方法依赖于一个存储问题解库的数据库系统来检索并解决新问题。与将训练元组作为欧氏空间中的点进行存储的 nearest-neighbor 分类方法不同,在 CBR 中,则是将问题解决方案的元组或案例以复杂的符号描述的形式进行存储作为其核心机制

9.6 其他分类方法

遗传算法具有良好的并行性,在多个领域表现出色。它不仅广泛应用于分类任务以及其他优化场景,并且还可以用来评估其他算法在数据挖掘中的拟合效果。

粗糙集方法:在分类任务中应用时被用来识别不准确数据或噪声数据中存在的潜在结构联系,并特别适用于处理离散属性特征

3)模糊集方法:可能性理论,处理模糊或不精确的事实。

9.7 关于分类的其他问题

在多类别分类问题中:单对多(OVA)方案、多对多(AVA)方法以及建立纠错码机制来提升各类别间的区分度

2)半监督分类:通过标注数据与未标注数据的结合进行分类器的训练。采用自监督学习与互监督学习的方法进行进一步优化。

3)主动学习:一种迭代更新的监督学习方法,在数据资源丰富但类别标签稀缺或获取成本高昂的情形下具有显著应用价值。该方法特别适用于仅需少量有标签实例即可掌握概念的情形。为主动学习程序赋予明确目标,在有限 labeled data 的情况下最大化模型性能。

迁移学习主要通过从多个源任务中获取经验或知识基础,并将其应用于目标任务的问题解决过程中。

9.8 小结

贝叶斯信念网络能根据变量子集间的关系建立类条件独立关系,并构建了表示因果关系的图形化模型,在其框架内进行学习。经过训练后得到的贝叶斯信念网络能够实现分类任务。

The backpropagation algorithm is a neural network method primarily used for classification tasks, employing gradient descent to optimize its weights. It searches for a set of weights to model the data such that the average squared distance between the predicted class and actual class labels is minimized. Trained neural networks can aid in enhancing the interpretability of trained models by extracting rules.

该算法主要应用于处理不同维度的数据,在机器学习领域中被广泛使用。通过将输入空间映射到高维特征空间进行处理,并利用支撑向量构建基本单元来识别出能够有效分类的超平面位置。

4)高频项集揭示数据中属性-值对或项之间的显著关联关系,并可用于基于高频项集进行的数据分类任务。主要采用两种方法:一是关联式Classification(AC),二是差异能力强的高频项集(Highly Differentiable Frequent Itemset Classification, HD-FIC)。其中,在AC方法中,默认采用从高频项集生成的相关性规则构建决策树;而对于HD-FIC,在构建分类模型时,默认综合考虑多个单一特征外还融合多个高频项集作为综合特征进行建模

5)快速学习的方法基于训练原则构建泛化模型以预设新元组的分类任务而惰性学习则通过存储训练元组并在检验原则满足时进行泛化运算同时该方法需要具备有效的索引技术以支持大规模数据处理

6)基于遗传算法,在规则集合上实施交叉重组和基因突变等操作不断演化,直至所有生成的规则均达到设定的标准。利用粗糙集理论,在对象之间不可区分类别下可建立粗略界定类别的方法。模糊系统技术则通过替代传统的固定阈值来实现对连续值属性赋予敏感性低的隶属度函数。

7)优化二元分类器方案,并采用例如支持向量机算法等方法实现多类别问题的求解;构建多个二元分类器并结合使用的方法可进一步提升系统的识别精度;通过引入纠错码机制进一步提升系统的识别精度

8)在面对海量未标注的数据时,半监督学习有效于此类场景。该方法通过结合有标注与无标注数据来构建分类器。其常见策略涵盖自我训练法与协同训练法。

9)主动学习属于监督学习的一种,在数据资源较为丰富的情形下尤其适用,并且特别适用于其中类别标签稀缺或难以获取的情况。由学习算法主动地请求用户提供类别标签,在确保较低的成本目标下,则尽量利用较少的标注样本数量以实现较高的分类精度。

迁移学习主要通过从多个源任务中归纳出的知识,并将其应用于目标任务。TrAdaBoost则是一种具体实施方式之一,在这种方法下会对来自源任务中的特定数据元组进行权重调整并利用这些调整后的数据来训练目标任务;从而仅需少量标注的目标任务数据即可完成训练。

全部评论 (0)

还没有任何评论哟~