数据挖掘笔记(二)
主要的内容是归纳总结自己在数据挖掘课程上所涉及的一些内容。更多内容可以访问我的个人博客。
数据预处理(data-preprocessing)
- 数据预处理概论
(1)为什么要对数据进行处理
为了数据的质量:
不准确、不完整和不一致的数据普遍存在于现实世界的数据库和数据仓库中。
为了保持实时性,实时性也会影响数据质量(例如,在用户未及时更新数据时)。
为了保证可信度,可信度衡量了用户对数据的信任程度。
为了提高可解释性,在一定程度上需要克服对复杂数据分析难度的理解限制。
预处理方法:
(1)数据清洗(Data Cleaning)
(1)处理缺失的值
(2)处理噪音数据
(2)数据整合(Data Integration)
(1)冗余与相关性分析
(3)数据缩减(Data Reduction)
(1)维度约减
(2)数度约减
(3)数据压缩
(4)数据转化和数据离散化(Data Transformation and Data Discretization)
- 数据清洗(Data Cleaning)
处理缺失的值 ,平滑噪音数据 ,识别或者移除极端值 ,解决不一致 问题
(1)处理缺失的值
1.选择性地排除该元组
2.通过手工方法填充缺失值
3.采用全局统一的替代值进行填充(如未知值或负无穷-∞)
4.基于数据分布中心的数值(如均值或中位数)来填充
5.计算同一类别数据集的均值或中位数来进行填充
6.采用最可能替代值的方法填充(即利用贝叶斯定理确定最可能取样点;亦可借助决策树等基于推理回归的方法实现这一目标)
(2)处理噪音数据:噪声数据是测量变量中的随机误差。
通过应用平滑技术来去除噪声数据,在数据分析中也存在多种方法被广泛应用于数据离散化及数据约简过程。
(1)分箱法
采用箱均值来进行数值修匀;
采用中间值作为代表值的修匀方式;
利用区间端点来进行边界修正。

(2)回归
(3)极端值分析(聚类)
- 数据整合(Data Integration)
当从多个来源集成数据时,可能会出现差异性 和重复性 问题。
(1)元数据(字段名称、字段说明、数据类型定义、允许范围)有助于避免模式集成中的错误。
(2)重复性与相关性分析
- 对于名词属性 ,(首先统计名词属性的数量)采用卡方检验法(卡方检验:检验两个属性之间是否独立)
卡方检验的计算公式为:观察频数与理论频数之间的差额平方后除以相应的理论频数,并将各部分结果相加起来。

- 对于数值属性 ,使用相关系数 、协方差
X-E(X)
协方差用于衡量随机变量之间的相互关系程度。它表示为X与Y与其期望值偏差的乘积之数学期望。由于这些偏差可能为正也可能为负值,则协方差亦可能相应地呈现正值、负值或零值。当协方差取正值时,则表明X与Y之间存在正相关关系;当取负值时,则表明两者呈负相关;而当等于零时,则表示两者之间不存在线性关联(但并不排除可能存在其他类型的关联)。需要注意的是,在统计学中仅通过协方差进行定性分析即可判断变量间的相关方向与程度;若要量化两变量间的关系强度,则需采用其他指标如相关系数等。


相关系数 :定量分析两个变量之间关系。

- 数据缩减(Data Reduction)
(1)维度约减:
(1)小波变换
包含N个元素从序列S₀到S_N
计算每对相邻元素的平均值与差值
从而获得N/2个平均数与差分数组

基于平均值作为下次递归计算的基础数据
当只剩下一个平均值和相关差分数据时,则递归过程完成
最终获得一个平均值以及N-1个细节系数(细节权重),这些细节系数能够逆向转换为原始数据
(2)主成分分析(Principle Component Analysis)
(3)属性子集选择
(2)数度约减:
(1)参数化方法:使用统计模型代替实际数据
(2)非参数化方法
(3)抽样
(4)聚类
(5)柱状图
(3)数据压缩
- 数据转化和数据离散化(Data Transformation and Data Discretization)
(1)平滑
(2)属性构造
(3)聚合
(4)归一化
(1)在A数据集中对vi进行Min-Max normalization处理后得到vi’(容易受到异常值的影响)。

(2)Z-score标准化处理:在Z-score规范化方法中(或零均值规范化过程中),属性数据经均值和标准差计算后进行标准化处理。

(3)小数定点归一化处理:通过调整小数点的位置来进行规范化操作(将数值依次除以10的不同幂次方,并确保转化后的vi’绝对值的最大值控制在小于1的范围内)

(5)离散化
(1)采用分桶法完成数据离散化处理
(2)通过直方图分布分析对数据进行离散化处理
(3)借助聚类分析与决策树模型对数据进行离散化处理
(4)采用χ²合并算法(ChiMerge)对数据进行有效的离散化处理
(6)概念层次生成
