Advertisement

【数据挖掘】数据挖掘概述

阅读量:

一、数据挖掘产生的背景

1、从数据分析的角度审视数据
政治计算模型(即政治算法)、概率统计学(即概率论与数理统计)、数据挖掘
2、主要原因为求解海量数据分析问题
应用领域的存在带来了对理论方法的新考验

大规模数据分析的主要特点

数据存储模式遵循"3V"原则:

  • 数据量大:涵盖TB至PB级别的海量存储容量
  • 数据类型丰富:涵盖结构化与非结构化两大类别的多样化信息
  • 数据流快速:支持处理包括语音在内的多种多样化的动态变化信息

实时性分析:

在用户的每一个互动时刻都需要提供即时反馈和决策支持

二、什么是数据挖掘

Data Mining is the process of extracting implicit, unknown knowledge from vast amounts of data.
(Patterns represent the underlying relationships between things.)**
The process of data mining must be either fully automated or semi-automated, relying on computer technology.**
The volume of data is always enormous, but the patterns discovered hold significant meaning and generate substantial economic value.

在这里插入图片描述

三、数据挖掘算法

根据学习过程的类型划分有两种主要的学习算法:有监督学习与无监督学习。
**监督式学习(Supervised Learning)**是一种根据结果度量对输入数据进行预测的一种方法。
它基于一组输入特征(Features)对结果变量进行预测。
利用已知数据集中的输入特征与目标变量训练出一个预测模型。
该方法将目标变量划分为两类:当目标为定性时属于分类任务;当目标为定量时则属于回归任务。

在这里插入图片描述

无指导学习
在数据中探寻新的模式
归纳和总结数据

在这里插入图片描述

常见的数据挖掘算法
(1)分类预测算法
1、决策树算法:
C4.5、C5.0、CART、CHAID、QUEST
2、BP算法
3、回归分析方法
线性回归分析、Logistic回归
(2)探寻内部结构的算法
1、关联规则分析
Apriori算法、序列关联
2、聚类分析
K-means聚类、谱系聚类、两步聚类、Kohonen聚类

全部评论 (0)

还没有任何评论哟~