【读书笔记】数据挖掘导论(Introduction to Data Mining) 1
第二章 数据
2-1 数据类型
-
如下性质来描述属性
(1) 相异性 = 和 ≠
(2) 序 <, <=, >, >=
(3) 加法
(4) 乘法 -
从而定义四种类型 :标称,序数,区间,比率
标称:分类的(定性的)(= 和 ≠) 区分对象 如id等
序数:分类的 (< , >)如矿石硬度等
区间:定量的 (+, -) 值间差异有意义,如温度
比率:定量的 (*, /) -
数据集的一般特性
维度 dimensionality:数据集中对象的属性数量,维度过高的会出现维灾难,从而在数据预处理中一般会对其进行降维处理,称为 维归约;
稀疏性 sparsity:对象的部分属性值为0
分辨率 resolution:不同分别率下获取的数据表现出来的性质不一样。
2-2 数据质量
- 数据测量和收集方面的质量问题
1. 测量误差和数据收集错误
2. 噪声和伪像
噪声:常可用信号或图像技术降低
伪像:确定性的失真,一组照片中同一个位置出现条纹
3. 精度,偏倚,准确率
精度:重复测量值之间的接近程度 通常用标准差度量
偏倚:测量值与被测量间的偏差
准确率:测量值与实际值间的接近度
4. 离群点:异常,异常值。注意与噪声的区分,噪声无意义,离群点可以是合法的数据对象或值
5. 遗漏值:如选填的表格
处理:1. 直接删除(慎重);2. 估计,插值,如连续的,最近邻的平均值;3. 忽略
6. 不一致的值
7. 重复数据:区分重复是否合法,从而去重
2-3 数据预处理
分为聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变化等
抽样:
简单抽样:有放回和无放回;分层抽样
抽样的样本容量的确定:渐进抽样,事先不确定,容量上升准确率趋于稳定。
维归约:
通过创建新的属性,将一些旧属性合并在一起来降低维度。通过选择旧属性的子集得到新的属性,这种维归约叫特征子集的选择或特征选择。
维灾难:维度增加,数据会越来越稀疏,分析困难
维归约常用线性代数的技术:主成分分析PCA(待看),奇异值分解SVD
特征子集的选择:
降低维度的一种方法
冗余特征(重复),不相关特征(无关)
处理冗余特征和不相关特征的方法:
- 数据少:将所有可能的特征子集作为输入,选结果最好的
- 一般情况:嵌入,过滤,包装
嵌入 embedded approach: 与具体算法有关,如构造决策树分类器算法
过滤 filter approach和包装 wrapper approach两者唯一不同在于特征选择过程中使用不同的特征子集的评估方法
特征选择过程:
- 子集评估度量:试图预测实际数据挖掘算法在给定的属性集上执行的效果
- 控制新特征子集产生的搜索策略
- 停止搜索的判断
- 验证过程:特征子集产生的结果是否比所有特征产生的更好或至少一样好
