数据挖掘笔记——数据预处理
什么是数据?
数据对象和属性的集合
一、属性的类型
属性常常用操作来描述,操作有
a. 相异性:
b.顺序大小
c.加法减法
d.乘法与除法
根据这些操作可以将属性分为:
a. 标称属性(Nominal attribute):只能区分是否相等,例如ID
b. 序数属性(Ordinal attribute):可以区分顺序大小,例如成绩分为优良中
c. 区间属性(Interval attribute): 具有规模差别者称为区间属性,并且其相加或减法运算结果具有意义。例如日期
d. 比率属性(Ratio attribute):差值或者比率都是有意义的,例如:年龄

或者可以根据值的个数分为:离散型属性和连续性属性
非对称属性(asymmetric attribute):出现非零属性值才是重要的
二、数据集类型
1.记录数据
a.数据矩阵:关系数据库中的关系数据
b.文件数据:文档与term组成的表

c.交易数据:每条记录是一些对象的集合

2.图数据
a.万维网(World Wide Web):通过链接进行连接
b.分子结构
3.顺序数据
a.空间数据
b.时间数据
c.序列数据
三、数据的要求
准确性,完整性,一致性,实时性,可信度不附加,只可解释性和易获得性
同时数据容易存在的问题:
缺失值、数据不连续、重复数据、冗余数据、噪声和异常点
如果没有高质量的数据,将不可能得到高质量的数据分析结果
四、数据预处理(数据清洗,数据集成,数据转换,数据约简,数据离散化)
1.数据清洗
a.缺失值的处理
针对整体数据集而言,少量缺失值的数据可以通过去除包含缺失值的数据来处理。
而其他情况下,则可以选择以下方法:首先可以通过专家预测的方式估算一个合适的数值;其次可以利用特定符号(例如NaN)来表示缺失数据;再次可以选择数据集中的平均数或众数作为替代值;最后可以通过分析邻近样本的数据来推断出最可能代表缺失值的真实数值
b.平滑噪声数据
噪声源可能源于不当的采集设备使用,在数据输入过程中由于操作失误导致的问题也可能出现;传输过程中出现故障或延迟;技术系统的局限性与命名规范的差异可能造成问题
噪声源可能源于不当的采集设备使用,在数据输入过程中由于操作失误导致的问题也可能出现;传输过程中出现故障或延迟;技术系统的局限性与命名规范的差异可能造成问题
操作:对数据实施按区间分段的操作,随后对各组内部的数据实施平滑处理。回归分析:通过建立回归模型来实现数据的平滑。聚类分析:运用聚类方法去除异常点。

c.纠正不一致的数据
d.删除冗余数据
2.数据集成
可解决涉及多个来源的数据、同一实体的识别过程以及在相同的数据集下采用不同的度量标准的问题
但是数据集成操作会造成数据的冗余,可以使用相关性检测
针对连续数值数据的情况而言,在计算Pearson相关系数时,默认情况下如果变量间的协方差为零(即r_{A,B}接近于零),则认为变量间无显著的相关性;当r_{A,B}小于零时,则表示变量间存在负相关关系;当r_{A,B}大于零时,则表示变量间存在正相关关系。

b.对于离散的数值数据,可以使用卡方检验, Χ 2越大越有可能相关

3.数据转换
a.平滑并消除噪声
b.数据的整合:例如构造数据立方体
c.概念的聚合:数据上升到上一层概念
d.标准化:将数据映射到一个特定的范围
有min-max标准化

Z-score标准化

十进制缩放

e. 属性/特征的构造:利用现有的属性构造新的属性
4.数据约简
a.数据聚合
包含纵向属性与横向数据两方面的内容,在实际应用中可以通过这种整合方式,在保持原有关键信息的基础上实现了信息量与计算复杂度上的优化。如可将四个季度的销售总额合并为年度总值,则不仅能够显著减少记录的数量(即减少数据量),同时也能有效改善数据分析中的波动问题(即改善数据分析中的波动问题)。某些情况下还能使整体的数据波动降到最低水平(即使整体的数据波动降到最低水平)。
b.数据压缩
对于字串压缩而言通常情况下是被严格规定的不允许出现数据损失的情况。例如原始字符串如'abcccddddddef gg g g g g g ghijk'可以通过替换重复字符的方式被压缩为' ab3c6def10ghijk'。
如果是视频或者语音上的压缩容许丢一些信息;
针对数值型的数据,可以选择一种全面且高效的编码方案;通过建立描述性数据分析模型,并仅需存储该模型的核心参数来简化处理流程;为了方便后续分析工作,请确保能够准确提取出各项统计特性(例如均值、众数等关键指标);此外还需要准备好完整的数据可视化图表(如直方图)来辅助展示分析结果;最后在进行分类任务时,则只需要关注各类别中心点坐标及其分布范围即可实现分类目标;最后可以通过随机抽样方法替代整个数据分析过程以提高计算效率
5.数据离散化
减少数据大小、一些分类算法只接受离散型数据
a. 直方图
b. 有监督与无监督的方法
c. 自上而下地分割和自下而上的合并
d. 概念上的合并:例如年龄可以分为青年中年老年
e. 基于熵的离散化:决策树的结点划分
五、相似性和相异性
1.属性的相似相异性

2.数据对象的相似相异性
a.闵可夫斯基(Minkowski Distance)

当n=1时,称为曼哈顿距离(Manhattandistance)
当n等于2时,该欧氏距离(记为Euclidean distance):其缺点在于受到数据尺度的影响(例如,在使用千米时对结果的影响较小,在使用厘米时则明显更大),无法充分反映数据对象之间的关系。
当n无穷大时,称为切比雪夫距离(Chebyshev distance)各个坐标的最大值
b.马氏距离(MahalanobisDistance)

可以弥补欧式距离的不足
c.特殊的数据——二进制向量

d.余弦相似度
cos( d 1, d2 )= (d 1 · d 2)/ ||d 1|| ||d 2||
注:在计算相似性时应依据数据类型选择合适的指标,在具体应用中可采取以下策略:首先针对连续型和稠密型的数据样本集合,则可采用欧氏距离进行计算;而对于稀疏数据,则可采用余弦相似度与Jaccard系数来评估
