Advertisement

【读书笔记】数据挖掘导论(Introduction to Data Mining) 1

阅读量:

第二章 数据


2-1 数据类型

  1. 如下性质来描述属性
    (1) 相异性 = 和 ≠
    (2) 序 <, <=, >, >=
    (3) 加法
    (4) 乘法

  2. 从而定义四种类型 :标称,序数,区间,比率
    标称:分类的(定性的)(= 和 ≠) 区分对象 如id等
    序数:分类的 (< , >)如矿石硬度等
    区间:定量的 (+, -) 值间差异有意义,如温度
    比率:定量的 (*, /)

  3. 数据集的一般特性
    维度 dimensionality:数据集中对象的属性数量,维度过高的会出现维灾难,从而在数据预处理中一般会对其进行降维处理,称为 维归约;
    稀疏性 sparsity:对象的部分属性值为0
    分辨率 resolution:不同分别率下获取的数据表现出来的性质不一样。

2-2 数据质量

  1. 数据测量和收集方面的质量问题
复制代码
1. 测量误差和数据收集错误
2. 噪声和伪像   

噪声:常可用信号或图像技术降低
伪像:确定性的失真,一组照片中同一个位置出现条纹
3. 精度,偏倚,准确率
精度:重复测量值之间的接近程度 通常用标准差度量
偏倚:测量值与被测量间的偏差
准确率:测量值与实际值间的接近度

复制代码
4. 离群点:异常,异常值。注意与噪声的区分,噪声无意义,离群点可以是合法的数据对象或值
5. 遗漏值:如选填的表格   

处理:1. 直接删除(慎重);2. 估计,插值,如连续的,最近邻的平均值;3. 忽略

复制代码
6. 不一致的值

7. 重复数据:区分重复是否合法,从而去重

2-3 数据预处理

分为聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变化等

抽样:

简单抽样:有放回和无放回;分层抽样
抽样的样本容量的确定:渐进抽样,事先不确定,容量上升准确率趋于稳定。

维归约:

通过创建新的属性,将一些旧属性合并在一起来降低维度。通过选择旧属性的子集得到新的属性,这种维归约叫特征子集的选择或特征选择。

维灾难:维度增加,数据会越来越稀疏,分析困难

维归约常用线性代数的技术:主成分分析PCA(待看),奇异值分解SVD

特征子集的选择:

降低维度的一种方法
冗余特征(重复),不相关特征(无关)

处理冗余特征和不相关特征的方法:

  • 数据少:将所有可能的特征子集作为输入,选结果最好的
  • 一般情况:嵌入,过滤,包装

嵌入 embedded approach: 与具体算法有关,如构造决策树分类器算法
过滤 filter approach和包装 wrapper approach两者唯一不同在于特征选择过程中使用不同的特征子集的评估方法
特征选择过程:
- 子集评估度量:试图预测实际数据挖掘算法在给定的属性集上执行的效果
- 控制新特征子集产生的搜索策略
- 停止搜索的判断
- 验证过程:特征子集产生的结果是否比所有特征产生的更好或至少一样好

全部评论 (0)

还没有任何评论哟~