数据挖掘学习笔记(三)数据预处理
数据预处理
一,数据质量
数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。
二,数据预处理的任务
(1)数据清理
1,缺失值
该方法主要针对的是忽略元组的情况,并通过以下几种方式处理数据缺省问题:首先由人工处理缺失数据;其次采用统一的数据填充策略;基于属性特征计算平均或中位数作为替代值;通过同类样本的统计信息进行预测;最后利用概率模型对缺失数据进行估计补充分析。
2,噪声数据
噪声是被测量的变量的随机误差或方差、
方法:
分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑
回归:用一个拟合函数来光滑数据
离群点分析:可以通过聚类来检测离群点
(2)数据集成
1,实体识别问题
来自多个信息源的现实世界的等价实体如何才能“匹配”?
2,冗余和相关分析
在数据集成过程中存在冗余现象这一重要问题,在这种情况下若一个特定的属性能够被其他属性'推导出'则该特定属性很可能属于冗余属性通过相关性分析方法能够识别出一些具有冗余特征的属性
标称数据的χ2相关检验
假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br

其中Oij是联合事件(Ai,Bj)的观测频度,而eij 是(Ai,Bj)的期望频度:

其中,n是数据元组的个数,count(A=ai)是A上具有ai的元组的个数。
χ2 统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)*(c-1)。
数值数据的相关系数
针对数值数据而言,在分析它们时
3, 除了检测属性间的冗余外,还应该在元组级检测重复。
4,数据值冲突的检测与处理
(3)数据规约
数据规约策略包括:维规约,数量规约和数据压缩。
通过维规约技术来降低所涉及的随机变量数量以及属性数量,则可实现数据维度的有效缩减。具体而言,则包含小波变换、主成分分析以及基于属性子集的选择方法。
数量规约用代替的,较小的数据表示形式替换原数据。
数据压缩分为有损的和无损的。
(4)数据变换与数据离散化
数据变换的策略:
光滑:去掉数据中的噪声。这类技术包括分箱,回归和聚类。
属性构造:由给定的属性构造新的属性并添加到属性集中去。
聚集:对数据进行进行汇总或聚集。
规范化:把属性数据按比例缩放,使其落入某个区间。
离散化:数据分层。
基于标称数据生成概念分层:特征或字段(例如street字段),这些特征可以继承到或扩展到较高的层次(例如城市级别(city)或国家级别(country))。
