Advertisement

数据挖掘-数据预处理

阅读量:

由‘Truraly’|‘田园’|的博客平台发布。最新文章最初发布于田园幻想乡 | 原文链接位于该处,并附有详细内容。(如需了解更多信息,请访问)

文章目录

  • 数据集中趋势的度量
  • 算术平均数与加权算术平均数
    • 众数、中位值及算术平均值

    • 拟合数据分布特征:箱线图

    • 其他用于描述数据分布的技术

      • 3.4 数据清洗

        • 3.4.1 缺失值
        • 3.4.2 数据清洗
      • 3.5 数据集成和转换

        • 3.5.3 数据转换
      • 3.6 数据规约和数据变换

        • 3.6.2 数据离散化

数据类型:

名称型具有区别性特征, 如性别;顺序型不仅具有区别性还具有顺序性特征, 如身高;间隔型同时具备区别性、顺序性和可加减性质, 如温度;比率型则具备区别性、顺序性、可加减以及可乘除特性, 如百分比

为什么要预处理数据:

  1. 数据存在缺失项(即缺失值),例如在某些情况下可能出现未记录的数据。
  2. 数据存在不一致性特征(如单位表述不同),例如同一指标可能在不同的记录中使用不同的度量单位。
  3. 包含噪声污染(即异常观测值),例如某些观测结果可能由于操作失误或测量误差而被记录下来。

3.3.1 数据的中心趋势

平均数和加权平均数

首先这里有一组数据

复制代码
    1,,53,22,39,73,9,14

(算数)平均值:

\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

加权平均值:

\overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}}

其中: w_{i} 是权重 x_{i} 是数据

众数,中位数和均值

参考内容:偏态分布的左偏右偏如何认识?| 知乎

众数:出现次数最多的数

中位数:将数据从小到大排列,中间的数

均值:平均数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图情况为左偏态,反之为右偏态,中间为正态

描述数据的离散程度 & 箱线图

参考资料:箱形图 | 百度

  • 最低点(下界)Q₀
  • 最高点(上界)
  • 中间值(中间位置)Q₂在(n+1)/2的位置上
  • 第一四分之一和第三四分之一(Q₁和Q₃)分别位于(n+1)/4(3n+3)/4的位置上

中间四分位数极差:IQR = Q3 - Q1

上限:Q3 + k * IQR

下限:Q1 - k * IQR

k被视为一个常数。其经验取值一般为1.5。超出范围的数据被认为是离群点。根据具体情况选择是否忽略或删除

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
复制代码
    EG:
    
    1 2 2 5 6 9 9
    Q0 = 1
    Q1 = 2
    M = 5
    Q3 = 9
    
    
    1 2 2 5 6 7 8 9 9
    Q0 = 1
    Q1 = 第2.5位 = 2
    M = 第5位 = 6
    Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.5
    
    1 2 3 4 5 6 7 8
    Q0 = 1
    Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
    M = 第4.5位 = 4.5
    Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75
    
    
    
    txt
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/czORSULtAFlCuNvjy6GITErn8VZJ.png)

其他描述数据的方法

直方图:横轴为数据,纵轴为频数

分位图:横轴为数据,纵轴为累计频数

Q-Q 图:横轴为理论分位数,纵轴为样本分位数

散点图:横轴为数据,纵轴为数据

3.4 数据清洗

3.4.1 缺失值

缺失值的处理:

  1. 删除全部数据记录
  2. 手动填入
  3. 以统一数值填充缺失值
  4. 采用均值或中位数填充缺失值(降低数据波动性)
  5. 基于相近的数据集计算平均值或中位数,并进行填补(进一步降低潜在偏差)

3.4.2 数据清洗

针对数据的噪声,比如错误数据,重复数据,不一致数据

通过分箱技术对数据进行处理时,请先按照一定的规则将原始数据按照一定标准划分为若干个箱子。接着,在每个箱子中计算其平均值,并将其作为该箱子的数据代表值进行替换。这种方法有助于降低数据噪声的影响程度。

等宽分箱:采用等间距的方式对数据进行划分,在实际操作中通常选择每5个单位作为一个区间(每个区间内的数据具有一定的差异性)。设定区间的数量或大小时应考虑数据分布的特点

w=\frac{max(data)-min(data)}{N}

  • 等频分箱:将数据平等分为 n 份,每份数据个数相同

EG:

复制代码
    4 8 9 15 21 21 24 25 26 28 29 34
    等宽分箱:
    w = (34-4)/3 = 10
    [4,14) | [14,24) | [24,34]
    4 8 9 | 15 21 21 | 24 25 26 28 29 34
    
    等频分箱:
    w = 12/3 = 4 箱
    4 8 9 15 | 21 21 24 25 | 26 28 29 34
    
    
    txt

3.5 数据集成和转换

3.5.3 数据转换

数据规范化:

  1. 最大最小规范化:将数据转换到某一区间。比如[0,1],公式为:

X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}}

  1. Z-Score 规范化:将数据转换为均值为 0,标准差为 1 的数据。公式为:

X^{*}=\frac{X-\overline{X}}{S}

其中:
\overline{X} 为均值

S 为标准差

S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}

3.6 数据规约和数据变换

基于数据立方体的聚合操作涉及对数据的多维整合处理。具体而言,在时间轴上进行趋势分析,在地理空间分布范围上进行地域特征提取,在产品类型、服务种类以及功能模块等多个方面展开详细统计。

线性回归分析:使用线性方程拟合数据,然后使用方程代替数据

采样策略:对于一个相似的数据簇而言,在实际操作中我们通常会采用该数据簇的一部分替代整个数据簇,并须注意每个样本群组被替代的比例应保持一致

3.6.2 数据离散化

数据离散化:将连续数据转换为离散数据,比如将年龄分为 0-10,10-20,20-30 等

数据离散化的方法:

基于信息增益的方法:采用熵作为衡量数据离散程度的标准;当熵值较大时表明所处理的数据较为分散;而当熵值较小时则表明所处理的数据较为集中;同样地,在计算过程中也采用了信息增益这一指标;其数值越大则反映出更高的差异性

I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v})

其中:

Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i}

S被视为数据集,T被视为数据集的一个属性,S_{v}被视为T的具体值,p_i被视为S_v中第i个类别发生的概率

这个东西后面 ID3 决策树会用到

基于卡方检验的方法:通过以卡方检验为基础的方法度量数据分布的分散程度,在统计学中发现其值越大则表明所评估的数据分布更为分散;相反地则反映其分布相对集中。其计算公式如下所示:

\chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}}

其中:

A_{i} 为实际值,E_{i} 为期望值

  1. 基于自然分区的方法:采用基于自然区间的策略进行数据划分,并具体实施时按照年龄划分为 0至10岁段、10至20岁段以及20至30岁段等区间段。

————————————————

3

3

全部评论 (0)

还没有任何评论哟~