数据挖掘-数据预处理
由‘Truraly’|‘田园’|的博客平台发布。最新文章最初发布于田园幻想乡 | 原文链接位于该处,并附有详细内容。(如需了解更多信息,请访问)
文章目录
- 数据集中趋势的度量
- 算术平均数与加权算术平均数
-
众数、中位值及算术平均值
-
拟合数据分布特征:箱线图
-
其他用于描述数据分布的技术
-
3.4 数据清洗
-
- 3.4.1 缺失值
- 3.4.2 数据清洗
-
3.5 数据集成和转换
-
- 3.5.3 数据转换
-
3.6 数据规约和数据变换
-
- 3.6.2 数据离散化
-
-
数据类型:
名称型具有区别性特征, 如性别;顺序型不仅具有区别性还具有顺序性特征, 如身高;间隔型同时具备区别性、顺序性和可加减性质, 如温度;比率型则具备区别性、顺序性、可加减以及可乘除特性, 如百分比
为什么要预处理数据:
- 数据存在缺失项(即缺失值),例如在某些情况下可能出现未记录的数据。
- 数据存在不一致性特征(如单位表述不同),例如同一指标可能在不同的记录中使用不同的度量单位。
- 包含噪声污染(即异常观测值),例如某些观测结果可能由于操作失误或测量误差而被记录下来。
3.3.1 数据的中心趋势
平均数和加权平均数
首先这里有一组数据
1,,53,22,39,73,9,14
(算数)平均值:
\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}
加权平均值:
\overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}}
其中: w_{i} 是权重 x_{i} 是数据
众数,中位数和均值
参考内容:偏态分布的左偏右偏如何认识?| 知乎
众数:出现次数最多的数
中位数:将数据从小到大排列,中间的数
均值:平均数

上图情况为左偏态,反之为右偏态,中间为正态
描述数据的离散程度 & 箱线图
参考资料:箱形图 | 百度
- 最低点(下界)Q₀
- 最高点(上界)
- 中间值(中间位置)Q₂在(n+1)/2的位置上
- 第一四分之一和第三四分之一(Q₁和Q₃)分别位于(n+1)/4和(3n+3)/4的位置上
中间四分位数极差:IQR = Q3 - Q1
上限:Q3 + k * IQR
下限:Q1 - k * IQR
k被视为一个常数。其经验取值一般为1.5。超出范围的数据被认为是离群点。根据具体情况选择是否忽略或删除

EG:
1 2 2 5 6 9 9
Q0 = 1
Q1 = 2
M = 5
Q3 = 9
1 2 2 5 6 7 8 9 9
Q0 = 1
Q1 = 第2.5位 = 2
M = 第5位 = 6
Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.5
1 2 3 4 5 6 7 8
Q0 = 1
Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
M = 第4.5位 = 4.5
Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75
txt

其他描述数据的方法
直方图:横轴为数据,纵轴为频数
分位图:横轴为数据,纵轴为累计频数
Q-Q 图:横轴为理论分位数,纵轴为样本分位数
散点图:横轴为数据,纵轴为数据
3.4 数据清洗
3.4.1 缺失值
缺失值的处理:
- 删除全部数据记录
- 手动填入
- 以统一数值填充缺失值
- 采用均值或中位数填充缺失值(降低数据波动性)
- 基于相近的数据集计算平均值或中位数,并进行填补(进一步降低潜在偏差)
3.4.2 数据清洗
针对数据的噪声,比如错误数据,重复数据,不一致数据
通过分箱技术对数据进行处理时,请先按照一定的规则将原始数据按照一定标准划分为若干个箱子。接着,在每个箱子中计算其平均值,并将其作为该箱子的数据代表值进行替换。这种方法有助于降低数据噪声的影响程度。
等宽分箱:采用等间距的方式对数据进行划分,在实际操作中通常选择每5个单位作为一个区间(每个区间内的数据具有一定的差异性)。设定区间的数量或大小时应考虑数据分布的特点
w=\frac{max(data)-min(data)}{N}
- 等频分箱:将数据平等分为 n 份,每份数据个数相同
EG:
4 8 9 15 21 21 24 25 26 28 29 34
等宽分箱:
w = (34-4)/3 = 10
[4,14) | [14,24) | [24,34]
4 8 9 | 15 21 21 | 24 25 26 28 29 34
等频分箱:
w = 12/3 = 4 箱
4 8 9 15 | 21 21 24 25 | 26 28 29 34
txt
3.5 数据集成和转换
3.5.3 数据转换
数据规范化:
- 最大最小规范化:将数据转换到某一区间。比如[0,1],公式为:
X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}}
- Z-Score 规范化:将数据转换为均值为 0,标准差为 1 的数据。公式为:
X^{*}=\frac{X-\overline{X}}{S}
其中:
\overline{X} 为均值
S 为标准差
S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}
3.6 数据规约和数据变换
基于数据立方体的聚合操作涉及对数据的多维整合处理。具体而言,在时间轴上进行趋势分析,在地理空间分布范围上进行地域特征提取,在产品类型、服务种类以及功能模块等多个方面展开详细统计。
线性回归分析:使用线性方程拟合数据,然后使用方程代替数据
采样策略:对于一个相似的数据簇而言,在实际操作中我们通常会采用该数据簇的一部分替代整个数据簇,并须注意每个样本群组被替代的比例应保持一致
3.6.2 数据离散化
数据离散化:将连续数据转换为离散数据,比如将年龄分为 0-10,10-20,20-30 等
数据离散化的方法:
基于信息增益的方法:采用熵作为衡量数据离散程度的标准;当熵值较大时表明所处理的数据较为分散;而当熵值较小时则表明所处理的数据较为集中;同样地,在计算过程中也采用了信息增益这一指标;其数值越大则反映出更高的差异性
I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v})
其中:
Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i}
S被视为数据集,T被视为数据集的一个属性,S_{v}被视为T的具体值,p_i被视为S_v中第i个类别发生的概率
这个东西后面 ID3 决策树会用到
基于卡方检验的方法:通过以卡方检验为基础的方法度量数据分布的分散程度,在统计学中发现其值越大则表明所评估的数据分布更为分散;相反地则反映其分布相对集中。其计算公式如下所示:
\chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}}
其中:
A_{i} 为实际值,E_{i} 为期望值
- 基于自然分区的方法:采用基于自然区间的策略进行数据划分,并具体实施时按照年龄划分为 0至10岁段、10至20岁段以及20至30岁段等区间段。
————————————————
3
3
