Advertisement

数据挖掘笔记(1)-数据探索

阅读量:

数据探索有助于选择合适的数据预处理方法和建模方法,数据探索可以从数据质量分析和数据特征分析两个角度进行探索。

数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据有一般有以下内容:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据以及含有特殊符号的数据

缺失值分析
使用统计分析对含有缺失值的属性计算缺失数和缺失率。
异常值分析

  • 利用简单统计量
    比如通过判断某个变量的最大值与最小值是否超过某个范围来判断它是否存在异常数据。

  • 3σ原则
    如果数据服从正态分布,异常值被定义为与均值的偏差超过3倍的标准差的值。

  • 箱型图
    QU代表3/4分位数,也叫上分位数
    QL代表1/4分位数,也叫下分位数
    IQR=QU-QL代表上分位数与下分位数之间的距离
    异常值被定义为小于QL-1.5IQR或者大于QU+1.5IQR的值

一致性分析
查看同一数据在不同地方是否保持一致

数据特征分析

分布分析

  • 同种类型数据的分布分析
    步骤:
    1)求极差
    2)决定组数和组距
    3)决定分点
    4)列出频率分布表
    5)绘制频率分布图
    实例:
    数据为4-6月某饭店的销售额,现在想分析这三个月内饭店的销售额集中在哪一块儿?
    在这里插入图片描述
    (1)极差
    3960-45=3915
    (2)决定组数和组距
    组距根据数据大概分布来选,这里选择500
    组数=极差/组距=3915/500=7.83则组数取8
    (3)决定分点
    在这里插入图片描述
    (4)频率分布表 在这里插入图片描述
    在这里插入图片描述
    组中值为组段中所有数据的平均值
    (5)频率分布直方图
    在这里插入图片描述
    老龄化问题,对于年龄也可以通过频率分布直方图来分析。

  • 多种类型数据的分布分析
    可以通过饼图和条形图来描述不同种类数据占的数量或者比例。
    如下图:
    在这里插入图片描述

对比分析

  • 绝对数比较
    利用绝对数进行比较,从而寻找差异。比如利用绝对数比较找出在同一时间阶段中变化最大的那个指标。

  • 相对数比较

  • 结构相对数
    将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。如,居民食品支出额占消费支出总额比重、产品合格率等。

  • 比例相对数
    将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如,人口性别比例、投资与消费比例等。

  • 比较相对数
    将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如,不同地区商品价格对比,不同行业、不同企业间某项指标对比等。

  • 强度相对数
    将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如,人均国内生产总值用"元/人"表示,人口密度用"人/平方公里"表示,也有用百分数或千分数表示的,如,人口出生率用‰表示。

  • 计划完成程度相对数
    是某一时期实际完成数与计划数对比,用以说明计划完成程度。

  • 动态相对数
    将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度。如,发展速度、增长速度等。

统计量分析

集中趋势度量

复制代码
* 均值 
  * 普通平均  
在这里插入图片描述
复制代码
  * 加权平均  

在这里插入图片描述
如果权重是频率,f1+f2+…+fn=1,加权平均变为:
在这里插入图片描述

复制代码
* 中位数 
  * n为奇数时  
在这里插入图片描述
复制代码
  * n为偶数时  
在这里插入图片描述
复制代码
* 众数  

数据集中出现最频繁的值。

离中趋势度量

复制代码
* 极差
* 标准差
* 变异系数  

变异系数用来度量标准差相对于均值的离中趋势,这个趋势也叫变异程度。变异系数用来衡量一项指标的变异程度。
公式如下:
在这里插入图片描述
优点:
比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
量纲与单位:量纲是表征物理量的性质(类别),如时间、长度、质量等;单位是表征物理量大小或数量的标准,如s、m、Kg等。
案例:
比如甲要购买一头幼猪,现得知A种猪平均体重196kg,标准差10.5kg,B种猪平均体重190kg,标准差8.5kg,他应该选择哪个品种的猪呢?
应该选择体重变异程度较小的品种。
A种猪体重的变异系数:CV=10.5/196=0.054
B种猪体重的变异系数:CV=8.5/190=0.044
所以他选择B种猪比较好。

复制代码
* 四分位数间距  

四分位数间距是上四分位数与下四分位数之差,其间包括观察值的一半。其值越大,数据的变异程度越大,其值越小,数据的变异程度越小。

周期性分析

贡献度分析
贡献度分析又称帕累托分析,根据帕累托法则(也就是20/80定律)。告诉我们,同样的投入放在不一样的地方效果会产生不同的收益。
比如,对于一家餐饮公司来讲,80%的利润来源于20%的菜品,另外80%的菜品只盈利了20%的利润,所以根据贡献度分析应该增加(创造了80%的利润的)那些20%的菜品的数量来增加收益。

相关性分析

复制代码
* 绘制散点图
* 绘制散点图矩阵
* pearson相关系数  

使用情况:(1)连续变量 (2)连续变量的取值服从正态分布
计算公式:
r=x与y的协方差 / x与y的标准差的乘积
在这里插入图片描述
r的取值范围:-1=<r<=1
含义:

复制代码
  * 正相关与负相关  

r>0表示正相关,r<0表示负相关

复制代码
  * 线性相关与非线性相关  

|r|<=0.3表示不存在线性相关,但可能存在非线性相关。
0.3=<|r|<=0.5表示弱线性相关
0.5=<|r|<=0.8表示强线性相关
|r|=1表示完全线性相关

复制代码
* spearman秩相关系数  

使用情况:不服从正太分布的变量、分类或者等级变量之间的关联可以使用斯皮尔曼秩相关系数。
计算公式:
在这里插入图片描述
Ri-Qi为xi与yi的秩次之差。
例子如下:
<>
含义:
(1)当x与y具有严格单调的函数关系时,它们就具有完全spearman相关性。
x与y具有相同的严格单调函数关系:
x严格递增y严格递增时rs=1
x严格递减y严格递减时rs=1
x与y具有不同的严格单调函数关系:
x严格递增y严格递减时rs=-1
x严格递减y严格递增时rs=-1
(2)正太分布情况下pearson相关系数与spearman相关系数效率等价,但对于连续变量更适合用pearson相关系数来分析。

复制代码
* 判定系数R平方  

判定系数又称决定系数,用来衡量一个回归方程的拟合程度。判定系数R2越大拟合程度越大。
公式如下:
总平方和也叫离差平方和。在这里插入图片描述

全部评论 (0)

还没有任何评论哟~