数据挖掘-数据预处理

阅读量：

由‘Truraly’|‘田园’|的博客平台发布。最新文章最初发布于田园幻想乡 | 原文链接位于该处，并附有详细内容。（如需了解更多信息，请访问）

文章目录

数据集中趋势的度量
算术平均数与加权算术平均数
- 众数、中位值及算术平均值
- 拟合数据分布特征：箱线图
- 其他用于描述数据分布的技术
  - 3.4 数据清洗
  - - 3.4.1 缺失值
    - 3.4.2 数据清洗
  - 3.5 数据集成和转换
  - - 3.5.3 数据转换
  - 3.6 数据规约和数据变换
  - - 3.6.2 数据离散化

数据类型：

名称型具有区别性特征, 如性别；顺序型不仅具有区别性还具有顺序性特征, 如身高；间隔型同时具备区别性、顺序性和可加减性质, 如温度；比率型则具备区别性、顺序性、可加减以及可乘除特性, 如百分比

为什么要预处理数据：

数据存在缺失项（即缺失值），例如在某些情况下可能出现未记录的数据。
数据存在不一致性特征（如单位表述不同），例如同一指标可能在不同的记录中使用不同的度量单位。
包含噪声污染（即异常观测值），例如某些观测结果可能由于操作失误或测量误差而被记录下来。

3.3.1 数据的中心趋势

平均数和加权平均数

首先这里有一组数据

复制代码

    1,,53,22,39,73,9,14

（算数）平均值：

$\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$

加权平均值：

$\overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}}$

$其中： w_{i} 是权重 x_{i} 是数据$

众数，中位数和均值

参考内容：偏态分布的左偏右偏如何认识？| 知乎

众数：出现次数最多的数

中位数：将数据从小到大排列，中间的数

均值：平均数

上图情况为左偏态，反之为右偏态，中间为正态

描述数据的离散程度 & 箱线图

参考资料：箱形图 | 百度

最低点（下界）Q₀
最高点（上界）
中间值（中间位置）Q₂在 $(n+1)/2$ 的位置上
第一四分之一和第三四分之一(Q₁和Q₃)分别位于 $(n+1)/4$ 和 $(3n+3)/4$ 的位置上

中间四分位数极差：IQR = Q3 - Q1

上限：Q3 + k * IQR

下限：Q1 - k * IQR

k被视为一个常数。其经验取值一般为1.5。超出范围的数据被认为是离群点。根据具体情况选择是否忽略或删除

复制代码

    EG：
    
    1 2 2 5 6 9 9
    Q0 = 1
    Q1 = 2
    M = 5
    Q3 = 9
    
    
    1 2 2 5 6 7 8 9 9
    Q0 = 1
    Q1 = 第2.5位 = 2
    M = 第5位 = 6
    Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.5
    
    1 2 3 4 5 6 7 8
    Q0 = 1
    Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
    M = 第4.5位 = 4.5
    Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75
    
    
    
    txt
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-07-13/czORSULtAFlCuNvjy6GITErn8VZJ.png)

其他描述数据的方法

直方图：横轴为数据，纵轴为频数

分位图：横轴为数据，纵轴为累计频数

Q-Q 图：横轴为理论分位数，纵轴为样本分位数

散点图：横轴为数据，纵轴为数据

3.4 数据清洗

3.4.1 缺失值

缺失值的处理：

删除全部数据记录
手动填入
以统一数值填充缺失值
采用均值或中位数填充缺失值（降低数据波动性）
基于相近的数据集计算平均值或中位数，并进行填补（进一步降低潜在偏差）

3.4.2 数据清洗

针对数据的噪声，比如错误数据，重复数据，不一致数据

通过分箱技术对数据进行处理时，请先按照一定的规则将原始数据按照一定标准划分为若干个箱子。接着，在每个箱子中计算其平均值，并将其作为该箱子的数据代表值进行替换。这种方法有助于降低数据噪声的影响程度。

等宽分箱：采用等间距的方式对数据进行划分，在实际操作中通常选择每5个单位作为一个区间（每个区间内的数据具有一定的差异性）。设定区间的数量或大小时应考虑数据分布的特点

$w=\frac{max(data)-min(data)}{N}$

等频分箱：将数据平等分为 n 份，每份数据个数相同

EG：

复制代码

    4 8 9 15 21 21 24 25 26 28 29 34
    等宽分箱：
    w = (34-4)/3 = 10
    [4,14) | [14,24) | [24,34]
    4 8 9 | 15 21 21 | 24 25 26 28 29 34
    
    等频分箱：
    w = 12/3 = 4 箱
    4 8 9 15 | 21 21 24 25 | 26 28 29 34
    
    
    txt

3.5 数据集成和转换

3.5.3 数据转换

数据规范化：

最大最小规范化：将数据转换到某一区间。比如[0,1]，公式为：

$X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}}$

Z-Score 规范化：将数据转换为均值为 0，标准差为 1 的数据。公式为：

$X^{*}=\frac{X-\overline{X}}{S}$

其中：
$\overline{X} 为均值$

S 为标准差

$S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}$

3.6 数据规约和数据变换

基于数据立方体的聚合操作涉及对数据的多维整合处理。具体而言，在时间轴上进行趋势分析，在地理空间分布范围上进行地域特征提取，在产品类型、服务种类以及功能模块等多个方面展开详细统计。

线性回归分析：使用线性方程拟合数据，然后使用方程代替数据

采样策略：对于一个相似的数据簇而言，在实际操作中我们通常会采用该数据簇的一部分替代整个数据簇，并须注意每个样本群组被替代的比例应保持一致

3.6.2 数据离散化

数据离散化：将连续数据转换为离散数据，比如将年龄分为 0-10，10-20，20-30 等

数据离散化的方法：

基于信息增益的方法：采用熵作为衡量数据离散程度的标准；当熵值较大时表明所处理的数据较为分散；而当熵值较小时则表明所处理的数据较为集中；同样地，在计算过程中也采用了信息增益这一指标；其数值越大则反映出更高的差异性

$I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v})$

其中：

$Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i}$

$S被视为数据集,T被视为数据集的一个属性,S_{v}被视为T的具体值,p_i被视为S_v中第i个类别发生的概率$

这个东西后面 ID3 决策树会用到

基于卡方检验的方法：通过以卡方检验为基础的方法度量数据分布的分散程度，在统计学中发现其值越大则表明所评估的数据分布更为分散；相反地则反映其分布相对集中。其计算公式如下所示：

$\chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}}$

其中：

$A_{i} 为实际值，E_{i} 为期望值$

基于自然分区的方法：采用基于自然区间的策略进行数据划分，并具体实施时按照年龄划分为 0至10岁段、10至20岁段以及20至30岁段等区间段。

————————————————

全部评论 (0)

还没有任何评论哟~

【数据挖掘】数据预处理

参考文献：《Python数据分析与挖掘实战》数据清洗数据清洗：删除数据集中无关数据，重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值和异常值。 1.缺失值处理：删除记录、数据插补。

数据挖掘--数据预处理

数据预处理方法小结根据自己的经验，总结了一下使用过的数据预处理的方法和小技巧。在进行数据分析的时候，工作量最大也最复杂的地方就是对数据进行预处理，一般分为四个步骤：数据清理、数据集成、数据变换、数据...

数据挖掘-数据预处理

来自🥬🐶程序员Truraly田园的博客，最新文章首发于：田园幻想乡原文链接github（欢迎关注）文章目录 3.3.1数据的中心趋势平均数和加权平均数众数，中位数和均值描述数据的离散程度&...

数据挖掘——数据预处理

《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》数据挖掘之数据预处理 1\.数据清洗DataCleaning 数据清洗：缺失值、噪声数据、离群点、不一致数据（1）对于...

数据挖掘--数据预处理(1)

这篇博客总结在数据挖掘，数据预处理阶段常用的方法和技巧，对于kaggle和天池的比赛和适用 importpandasaspd trainpd=pd.readcsvpath+'training.csv'...

数据挖掘之数据预处理

一：描述性数据汇总在获得所需的全部数据后，首先应该对数据有一个总体印象即在进行数据预处理之前，应该进行描述性数据汇总。首先就是中心趋势度量和离中趋势度量两个特征。中心趋势度量包括：均值，中位数，...

数据挖掘（二）数据预处理

前言基于国防科技大学丁兆云老师的《数据挖掘》数据挖掘数据挖掘（一）数据类型与统计 2、数据预处理 2.1数据清理缺失值处理： fromsklearn.imputeimportSimpleImp...

数据挖掘——数据预处理（2）

统计缺失值 train=pd.readcsvtrain.csv nullcolumns=train.columns[train.isnull.any] train[nullcolumns].isnul...

数据挖掘之数据预处理

李沐《动手学深度学习笔记》读取数据集创建一个人工数据集，并存储在CSV（逗号分隔值）文件../data/housetiny.csv中。 importos os.makedirsos.path.jo...

数据挖掘之数据预处理

引言数据挖掘是从大量数据中提取有用信息和知识的过程。在这个过程中，数据预处理是不可或缺的关键步骤。数据预处理旨在清理和转换数据，以提高数据质量，从而为后续的数据挖掘任务奠定坚实的基础...

是否确定退出登录?

数据挖掘-数据预处理

文章目录

3.3.1 数据的中心趋势

平均数和加权平均数

众数，中位数和均值

描述数据的离散程度 & 箱线图

其他描述数据的方法

3.4 数据清洗

3.4.1 缺失值

3.4.2 数据清洗

3.5 数据集成和转换

3.5.3 数据转换

3.6 数据规约和数据变换

3.6.2 数据离散化

全部评论 (0)

相关文章推荐

【数据挖掘】数据预处理

数据挖掘--数据预处理

数据挖掘-数据预处理

数据挖掘——数据预处理

数据挖掘--数据预处理(1)

数据挖掘之数据预处理

数据挖掘（二）数据预处理

数据挖掘——数据预处理（2）

数据挖掘之数据预处理

数据挖掘之数据预处理