Advertisement

数据挖掘的建模流程

阅读量:

1、定义数据挖掘目标

任务理解

指标确定

2、数据取样

  • 建模抽样(大数据是用过滤后的全量数据)

抽样之前需要衡量数据质量衡量的标准主要有以下几点:

资料完整无缺,各类指标齐全

数据准确无误,反映的都是正常状态下的数据

数据抽样的方式:

随机抽样

等距抽样

分层抽样

从起始位置开始抽样

分类抽样

  • 实时采集

3、数据探索

  • 数据质量分析

1.数据质量分析是数据挖掘分析结论有效性的基础

2.缺失值分析

3.异常值分析

是用来检测数据是否有录入错误以及含有不和常理的数据

方式:

简单统计量分析

3西格玛原则

箱型图分析

箱型图识别异常值的一个标准是:异常值通常是被定义为小于Ql-1.5IQR或大于Qu+1.5IQR的值。Ql下四分位数,Qu上四分位数,IQR称为四分位间距。

4.一致性分析

  • 数据特征分析

就是通过绘制图表,计算某些特征量等方式

1.分布分析

分布分析能揭示数据分布特征和数据分布类型。对于定量数据,欲了解其分布形式是对称还是非对称的、发现某些特大或特小的可疑值,可以做频率分布表、绘制频率分布直方图、绘制茎叶图进行直观的分析;对于定性分类数据,可用饼图和条形图直观的显示分布情况。

1.1.定量数据分布分析(组数和组宽)

求极差-->决定组距和组数-->决定分点-->列出频率分布表-->绘制频率分布直方图

1.2.定性的数据分布分析

根据变量的分类类型来分组,常采用饼图和条形图来描述定性变量的分布。饼图的每一扇形代表每一类型的百分比或者频数。条形图的高度代表每一类型的百分比或频数,宽度没有意义。

2.对比分析

对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平高低、速度快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。 选择合适的对比标准是十分关键的步骤,选择合适才能客观评价,不合适,评价会得出错误的结论。

2.1.绝对数比较

2.2.相对数比较

他是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综和指标,其数值表现为相对数。由于研究的对象和对比的基础不同,相对数可以分为以下几种:

结构相对数 将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质,结构或质量 如:居民食品支出总额占消费支出的比重、产品合格率
比例相对数 将同一总体内不同部分的数值对比,表明总体内各部分的比例关系 如:人口性别比例,投资与消费比例
比较相对数 将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系 如:不同地区商品价格对比,不同企业间某项指标的对比
强度相对数 将两个性质不同,但有一定联系的总量指标对比,泳衣说明现象的强度、密度和普遍程度 如:人均生产总值用“元/人”表示,人口密度用“人/平方公里”表示
计划完成程度相对数 是某一时期实际完成数与计划数进行对比,用以说明计划的完成度
动态相对数 将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化速度。 如:发展速度、增长速度

3.统计量分析

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析

3.1.集中趋势分析

| 均值| 所有数据的平均值,对极端值特别敏感,可以使用截断均值度量数据的集中趋势| 求n个原始观察数据的平均数;
可以为每一个x赋予权重,求得加权平均数; |
|---|---|---|
| 中位数| 将数据从小到大排序,位于中间的哪个数据| n为奇数时
n为偶数时 |
| 众数| 出现最频繁的数,适用于定性分析,众数不具备wei'y| |

3.2.离中趋势度量

极差 极差=最大值-最小值 对数据集的极端值特别敏感,忽略了数据的分布
标准差 度量数据偏离均值的程度
变异系数 度量标准差相对于均值的离中趋势CV=s/x*100% 主要用来比较不同单位或不同波动幅度的数据集的离中趋势
四分位数间距 上下四分位数之差

4.周期性分析

周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化的趋势。有年度周期性趋势、季节周期性趋势、月度周期性趋势、周度周期性趋势,天、小时周期性趋势,可以进行数据的预测。

5.贡献度分析

贡献度分析又称为帕累托分析,它的原理是帕累托法则,又称为20/80定律。应用贡献度分析,可以重点改善其最重要的部分。

6.相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关性分析。

6.1.直接绘制散点图

完全正相关、完全负相关、非线性相关、正线性相关、负线性相关、不相关

6.2.绘制散点图矩形

多个变量之间的散点图

6.3.计算相关系数

为了更加准确的描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman相关系数和判定系数。

| Pearson相关系数| r=(物品a-a平均值)(物品b-b平均值)的和/(物品a-a平均值)平方的和(物品b-b平均值)平方的和开根号| r的取值范围是-1,1
其中r大于0,正相关
r小于0,负相关
|r| 离0近相关性弱,离1近相关性强 |
|---|---|---|
| Spearman秩相关系数| 先把变量取值按照从大到小,或从小到大排序,相同的取值必须有相同的 秩序,所以一方值相同,另一方要取平均值| Pearson要求数据的取值服从正态分布。不服从的用Spearman秩相关系数 |
| 判定系数| 相关系数的平方r方| 离1越近相关相关度越强,反之越弱 |

4、数据预处理

5、挖掘建模

模式发现

构建模型

验证模型

6、模型评价

设定评价标准

多模型对比

模型优化

7、模型发布

模型部署

模型重构

全部评论 (0)

还没有任何评论哟~