数据挖掘之集成学习

阅读量：

数据挖掘的主要目标之一是从观察到的样本中预测出新样本的未知值，这样的一个过程分为两个连续的阶段：A:训练阶段—使用某种现有的监督学习方法从训练样本中产生一个预测模型，B:检验阶段—使用未在训练集中用到的检验样本评估训练阶段生成的预测模型
为了提高模型的准确性，可以使用集成学习的高效算法，他的核心思想是组合训练样本生成的各种预测模型的结果，主要动机就是减少错误率
集成学习方法论
在训练阶段，集成方法从训练样本中生成一些不同的预测模型，为了预测一个检验样本的未知值，集成方法聚集每个预测模型的输出结果，通过集成方法生成的集成预测模型与一些预测模型和一个组合规则组成，他还有一些名称作为执行预测任务的同义词使用，其中包括多分类器、分类器融合或聚集等多个名称
为了使性能优于一个单独的模型，集成应该由几个相互独立的预测模型组成，也即是他们的错误率互不相关，并且准确率都大于0.5，每个预测模型输出结果聚集一起决定检验样本的输出值
仅当集成方法中每个预测模型的错误率都低于0.5时，集成方法的错误率才远低于一个单独的预测模型
如果集成中分类器的数量太大或者每个分类器的错误率太小，集成错误率的下降就会变得没那么明显
生成具有多样性和独立性的学习器的方式
A: 采用不同学习算法对各个独立的学习模型进行训练
B: 通过调节不同模型的超参数，在同一算法框架下实现差异性
C: 基于输入特征的不同子集构建多样的特征空间
D: 基于不同训练样本集合并采用统一的学习策略生成多套独立的模型

层叠泛化方法亦称层叠策略，在第一组中可被归类的方法论包括：首先将训练集划分为两个互不相交的部分；其次，在第一个子集中训练多个基础学习器；接着通过在第二个子集上评估这些基础学习器的表现；最后利用C步骤中的预测结果作为输入信号，并将实际结果作为反馈信号来训练一个高级别学习器。

基于手工或自动的特征选择、提取，这样可以使用不同的特征集生成多元分类器，例如，可能使用与不同的传感器相关的子集，或者使用不同的算法计算的特征子集，为了形成数据集，首先需要选择不同的输入特征子集，然后带有选择输入特征的每个训练样本就变成了训练数据集的一个元素，生成其他训练集，主要的要求是，使用互补的不同的特征子集
随机子空间法（RSM）是一个较近的集成学习方法，它基于随机辨别理论，首先在原始输入空间的随机选择子空间上训练学习集，然后再整合模型的输出，RSM适用于带有冗余特征的大型特征集
基于输入输入样本的不同训练子集的方法论，相应的技术包括bagging和boosting等广泛应用于不同工具中
多学习器组合方法
组合方案包括：
A: 整体法，通过学习器的融合，每个学习器都会产生一个输出，然后通过投票、平均或堆叠来整合这些输出，这就是集成功能：对于每一种模式来说，所有的分类器都会影响最终的决定
B: 局部法，基于学习器提取，负责生成输出的一个或多个学习器是依据它们对样本的封闭性而选择的，如果对于模式只有一个分类器（或子集）用于最终的决定，则应用选择功能
C: 多级组合，使用串行方法，仅在前面的学习器预测结果不精确情况下训练或检验下一个学习器
投票是在全局层面上组合分类器最简单的方式
bagging 和 boosting

为了使bagging方法具有良好的效果, 必须依赖于高度不稳定的非线性模型. 微小的数据变化会产生显著不同的分类器, 这种情况会导致分类器准确率出现显著波动. bagging技术通过减少弱学习器输出结果中的方差来降低预测错误. 在每一次学习步骤中需要做两件事: 首先, 提高那些弱分类器无法正确识别的样本权重; 其次, 降低那些被弱分类器正确识别的样本权重.

Adaboost是一种强大的机器学习算法

全部评论 (0)

还没有任何评论哟~

数据挖掘之集成学习

1.数据挖掘的主要目标之一是从观察到的样本中预测出新样本的未知值，这样的一个过程分为两个连续的阶段：A:训练阶段—使用某种现有的监督学习方法从训练样本中产生一个预测模型，B:检验阶段—使用未在训练集中...

数据挖掘之Spark学习

阅读路线: Hadoop与Spark比较 Spark的安装 Spark知识点一、Hadoop与Spark比较 1.简单的比较刚开始学习Spark的时候，自己总是会想当然的理解两者之间的关系。

数据挖掘学习之路

前言记录一下学习数据挖掘的历程一、数据挖掘从数据集合中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在的有用信息。提取出来的知识一般为概念、规则、规律、模式等形式。在大数据的背景之下，数...

数据挖掘之Apriori频繁项集挖掘

本文的代码文件原件可以在我们的数据臭皮匠中输入第六章1拿到 1.基本概念介绍频繁项集和关联规则的挖掘首先需要了解一些概念,如支持度,置信度,事务,事务集,项,项集,频繁项集等,首先介绍下基本的概念定...

数据挖掘算法和实践（七）：集成学习

集成学习是通过构建并结合多个学习器来完成学习任务，如下图，集成学习通过将多个学习器结合，获得比单一学习器显著优越的泛化性能。集成学习分为同质集成和异质集成，如果个体学习器全是一种算法称为同质集成，如果...

数据挖掘学习1--数据挖掘流程

数据挖掘学习1–数据挖掘流程首先什么是数据挖掘？举个例子来理解：你和你的同事同时去一家银行办信用卡，办卡之后银行的客服总是给你的同事打电话推荐新出的理财产品，基本不会给你打电话。

数据挖掘学习-准备篇-数据集

1.Recsys2013Yelp https://www.kaggle.com/c/yelprecsys2013/data https://www.yelp.com/datasetchallenge/...

数据挖掘学习之数据探索

数据探索是数据挖掘必不可少的一环，数据探索技术会对模型准确率的提高带来惊喜的效果。 1、什么是数据探索？答：数据探索是通过绘图、计算、等手段，分析数据集的数据质量、数据的结构、数据的趋势和数据的关联...

数据挖掘笔记——数据集成

对来自多个数据存储的数据进行集成。 1.实体识别问题数据集成是将来自多个数据源的数据进行合并存放在一个一致的数据存储中。数据集成时涉及到实体识别问题，如何确保一个实体对应不同名字可以最终映射到同一个...

机器学习与数据挖掘：集成学习（知识点总结）

简介集成学习ensemblelearning通过构建并结合多个学习器来完成学习任务，通常可获得比单一学习器更良好的泛化性能。同质（其中的个体学习器被称作基学习器），异质弱学习器：指泛化性能略优于...

是否确定退出登录?

数据挖掘之集成学习

全部评论 (0)

相关文章推荐

数据挖掘之集成学习

数据挖掘之Spark学习

数据挖掘学习之路

数据挖掘之Apriori频繁项集挖掘

数据挖掘算法和实践（七）：集成学习

数据挖掘学习1--数据挖掘流程

数据挖掘学习-准备篇-数据集

数据挖掘学习之数据探索

数据挖掘笔记——数据集成

机器学习与数据挖掘：集成学习（知识点总结）