《数据挖掘导论》笔记:Chapter 2-- Data
第二章讨论的主要内容:
- 数据类别(data category)
 - 数据水平(data quality level)
 - 数据预处理方法(approaches to preprocess data for analysis)
 - 分析变量间关联(analyzing interconnections between variables)
 
=============================================================================
2.1 数据类型(the type of data)
数据集合(data set):多个数据对象的聚集,并且由一系列属性定义的数据对象(data object)
属性定义:
- 属性定义1:一个描述对象的特征,这个特征可以随着对象不同 而不同或者随着时间变化 而不同
 - 属性定义2:度量标度(a measurement scale):将数值型或者标志型数据(numerical or symbolic value)和数据对象的属性关联起来
属性类型 :
属性的值往往有如下几种性质: 
具体来说,
- 相异性的度量指标等于或不等于某个值;
 - 顺序关系可表示为小于或等于和大于或等于;
 - 加减运算通常用于处理数值间的增减变化;
 - 乘除操作常用于计算比例或缩放数值;
具体来说, - 变量可分为四类:
- 定类(nominal)变量
 - 定序(ordinal)变量
 - 定距(interval)变量
 - 定比(ratio)变量
 
 
| 属性类型 | 描述 | 例子 | 统计应用 | 
|---|---|---|---|
| 定类 | 只是用来区别不同对象的 | 邮政编码、学号 | 众数(mode) 、熵(entropy)、列联相关(contingency correlation)、χ2检验(χ2 test) | 
| 定序 | 可以确定对象的顺序 | 治疗效果、矿石硬度 | 中值、百分位数、秩相关(rank correlation)、连检检验(run test)、等级检验(sign test) | 
| 定距 | 区间属性之间的差有意义,即有测量单位 | 日历日期、摄氏度等 | 均值、标准差、皮尔逊相关、t和F检验 | 
| 定比 | 比率属性的差与比值都有意义 | 绝对温度、质量、长度 | 几何平均(geometric mean)、调和平均(harmonic mean)、百分比变差 | 
其中主要涉及分为两类:一类是分类属性/定性属性另一类则是数值型属性/定量属性
属性类型可以通过保留其基本特征的方式进行描述,并定义为允许的变换(permissible transformation)。
| 属性类型 | 描述 | 例子 | 
|---|---|---|
| 定类 | 任何一对一的变换 | |
| 定序 | 值的保序变换,NewValue = f(OldValue),其中f为单调函数 | 如用{1,2,3}来表示好中坏 | 
| 定距 | NewValue = a∗OldValue+b,a,b为常数 | 比如温度测量的变换 | 
| 定比 | NewValue = a∗OldValue | 
上面的变化,最终的统计应用的结果都是一致的
用数值数据来描述属性 :
- 离散属性具有特殊性质,并被称为二元(binary)特征。
- 连续性数据通常用于表示范围或度量。
 - 非对称特征仅在数值不为零时才有意义;例如,在课程选择中...
- 如果某个学生选择了特定课程,则该课程标记为1;
 - 否则标记为0;
 - 一般情况下选0的情况更多;
 - 如果研究关注选课情况,则所有学生都会显示相似特征;
 - 只有当数值不为零时才具有意义;
 
 - 不对称的离散变量与连续变量同样适用于这种情况。
 
 
2.1.2 Types of Data Sets
主要包含三类:
- 记录型数据(record-type data)
 - 图形形式的数据(graph-based data)
 - 有顺序的数据(ordered data)
 - 无记录型数据(non-record type):采用Record-oriented techniques进行特征提取并构建一系列的对象
 
数据集的一般特征 :
- 维度(dimensionality):特征数量需警惕维数灾难通常会对高维数据实施降维处理
 - 稀疏性 (sparsity):与不对称的属性相关
 - 分辨率 (resolution):即分辨能力
 
_分类记录类型(classify record types) _:
包含以下四种类型:
(a): 基本类型的记录信息
(b): 交易序列或市场篮子数据–可被视为由具有不对称属性组成的交易序列
(c): 数据矩阵结构—可被视为一个m×n的矩阵结构(其中m代表行数、n代表列数),该矩阵包含了各类属性信息
(d): 稀疏矩阵类型通常由单一类型且具有不对称属性的文档-术语矩阵构成

依据图形结构的数据

有序数据(ordered data):
- 序列数据 (sequential data)
 - 序列数据 (sequence data)—不涉及时间因素
 - 时间序列数据 (time series data)—需关注时间自相关
 - 空间数据 (spatial data)—需关注空间自相关
 

2.2 数据质量(Data Quality)
数据挖掘的核心在于能够容忍低质量数据的数据处理方法。
首要环节是完成数据清洗工作。
第2.2.1节:数据测量与采集问题
主要有以下几点:
第一种情况是测度误差,
具体表现为噪声(noise)、伪像(artifacts)、偏差(bias)、精度(precision)、准确率(accuracy)等指标。
第二种情况涉及测度与采集过程中的质量问题,
包括离群点(outliers)、遗漏值(missing)、不一致值(inconsistent values)、重复值(duplicate data)等现象。
此外,
还存在测度错误与收集错误两大类问题,
它们都可能源于系统性误差或随机性误差。
测度错误指的是在测度过程中产生的误判,
而收集错误则指因遗失导致的数据缺失。
这两种错误类型都可能出现于不同的情境中。
其中,
噪声与伪像通常指代测度过程中产生的不可逆性现象,
其中噪声特指测度过程中出现的随机性影响因素,
可能导致数值发生扭曲或产生虚假对象信息;
伪像则源于更为确定性的现象变化,
会导致测得的数据出现不合理的偏差。
精度、偏差和准确率(precision,bias,accuracy)
精度(precision): 表示样本分布的密集程度,在衡量两个独立样本之间差异程度时起重要作用;其数值等同于标准差这一统计指标。
偏差(bias): 在测量系统中指出了实际数值与理论期望之间的偏差;计算公式为 u 减去 E(x) 的结果即为此指标的具体体现。
准确率(accuracy): 这一指标综合考虑了偏差与精度的影响,在综合评估被测量结果与真实值之间差异的基础上得出结论;其计算方法是将被测量结果与实际数值之间的偏离程度进行量化分析。
离群点(outliers):
- 在该数据集中与其他数据对象的特征存在显著差异
- 属性值出现异常情况
很重要:明确区分噪声点与离群点的本质区别
离群点是具有重要价值的数据对象及其对应的数值信息,在数据分析中需要予以重点关注;而这些则不具备这样的意义 。 
 - 属性值出现异常情况
 
遗漏值(missing values):
处理遗漏值的策略:
- 去除数据对象或属性:该方法能够有效去除数据对象或属性。
 - 预估缺失值的方法:可用插值法、基于最近邻的平均属性值以及基于最近邻最常出现的属性值等技术进行缺失值预测。
 - 排除分析中的缺失值:在分析过程中应避免包含缺失值。
 
不一致值(inconsistent values):
检测到不一致值时,可以对数据进行纠正
重复值(duplicate data):
- 两个数据对象实际上代表同一个实体,并且它们所代表的同一个实体拥有不同的属性信息。
- 必须谨慎防止将看似相近但并非完全相同的个体进行整合处理,例如两个具有相同名称但属于不同个体的情况。
 
 
2.2.2 关于应用的问题
- 时效性
在数据分析中掌握数据的相关性和质量至关重要。
- - 相关性
高质量的数据集确保了分析结果的可靠性。 - 关于数据的知识: 在数据分析中掌握数据的相关性和质量至关重要。
- 高质量的数据集确保了分析结果的可靠性。
 - 当文档说明多个属性值高度相关时,在不影响分析的前提下选择其中一个作为主要指标。
 
 
