数据挖掘之集成学习
-
数据挖掘的主要目标之一是从观察到的样本中预测出新样本的未知值,这样的一个过程分为两个连续的阶段:A:训练阶段—使用某种现有的监督学习方法从训练样本中产生一个预测模型,B:检验阶段—使用未在训练集中用到的检验样本评估训练阶段生成的预测模型
-
为了提高模型的准确性,可以使用集成学习的高效算法,他的核心思想是组合训练样本生成的各种预测模型的结果,主要动机就是减少错误率
-
集成学习方法论
在训练阶段,集成方法从训练样本中生成一些不同的预测模型,为了预测一个检验样本的未知值,集成方法聚集每个预测模型的输出结果,通过集成方法生成的集成预测模型与一些预测模型和一个组合规则组成,他还有一些名称作为执行预测任务的同义词使用,其中包括多分类器、分类器融合或聚集等多个名称
为了使性能优于一个单独的模型,集成应该由几个相互独立的预测模型组成,也即是他们的错误率互不相关,并且准确率都大于0.5,每个预测模型输出结果聚集一起决定检验样本的输出值
仅当集成方法中每个预测模型的错误率都低于0.5时,集成方法的错误率才远低于一个单独的预测模型
如果集成中分类器的数量太大或者每个分类器的错误率太小,集成错误率的下降就会变得没那么明显 -
生成具有多样性和独立性的学习器的方式
A: 采用不同学习算法对各个独立的学习模型进行训练
B: 通过调节不同模型的超参数,在同一算法框架下实现差异性
C: 基于输入特征的不同子集构建多样的特征空间
D: 基于不同训练样本集合并采用统一的学习策略生成多套独立的模型
层叠泛化方法亦称层叠策略,在第一组中可被归类的方法论包括:首先将训练集划分为两个互不相交的部分;其次,在第一个子集中训练多个基础学习器;接着通过在第二个子集上评估这些基础学习器的表现;最后利用C步骤中的预测结果作为输入信号,并将实际结果作为反馈信号来训练一个高级别学习器。
-
基于手工或自动的特征选择、提取,这样可以使用不同的特征集生成多元分类器,例如,可能使用与不同的传感器相关的子集,或者使用不同的算法计算的特征子集,为了形成数据集,首先需要选择不同的输入特征子集,然后带有选择输入特征的每个训练样本就变成了训练数据集的一个元素,生成其他训练集,主要的要求是,使用互补的不同的特征子集
-
随机子空间法(RSM)是一个较近的集成学习方法,它基于随机辨别理论,首先在原始输入空间的随机选择子空间上训练学习集,然后再整合模型的输出,RSM适用于带有冗余特征的大型特征集
-
基于输入输入样本的不同训练子集的方法论,相应的技术包括bagging和boosting等广泛应用于不同工具中
-
多学习器组合方法
组合方案包括:
A: 整体法,通过学习器的融合,每个学习器都会产生一个输出,然后通过投票、平均或堆叠来整合这些输出,这就是集成功能:对于每一种模式来说,所有的分类器都会影响最终的决定
B: 局部法,基于学习器提取,负责生成输出的一个或多个学习器是依据它们对样本的封闭性而选择的,如果对于模式只有一个分类器(或子集)用于最终的决定,则应用选择功能
C: 多级组合,使用串行方法,仅在前面的学习器预测结果不精确情况下训练或检验下一个学习器
投票是在全局层面上组合分类器最简单的方式 -
bagging 和 boosting
为了使bagging方法具有良好的效果, 必须依赖于高度不稳定的非线性模型. 微小的数据变化会产生显著不同的分类器, 这种情况会导致分类器准确率出现显著波动. bagging技术通过减少弱学习器输出结果中的方差来降低预测错误. 在每一次学习步骤中需要做两件事: 首先, 提高那些弱分类器无法正确识别的样本权重; 其次, 降低那些被弱分类器正确识别的样本权重.
Adaboost是一种强大的机器学习算法
