数据挖掘学习笔记(四)
第二章 数据
- 数据预处理工作是开展数据挖掘过程的核心环节,在深入分析研究对象的基本特征基础上才可能对其后续分析与挖掘奠定基础。
- 研究对象的基本特征:
- 数值类型特征
- 分布特征
- 可视化表现形式
- 相似度特征及其对比关系
- 研究对象的基本特征:
数据的属性
1.数据对象
-
数据集可视为由多个数据对象构成。
-
每个数据对象对应于单一实体。
-
例如:
- 在销售数据库中涉及的主要实体包括顾客(客户)、商品和服务以及与销售相关的记录。
- 医疗数据库中的核心实体涵盖患者信息、医务人员及其职责,并记录诊断与治疗过程。
- 针对大学生数据库而言,则包括学生个体的数据记录;教授作为教学主体的信息;以及课程安排的具体描述。
-
数据对象又被称作样本或实例等其他形式的对象。
-
数据对象通常被用其属性来进行描述。
-
在此表格中每一行都对应于一个特定的数据对象(即实例),而每一列则表示各个属性。
2.属性(Attributes)
- 属性即为由数据字段构成的元组, 它们描述了数据对象的某个特性.
- 属性类型如下:
- 类别型 (categorical): 不区分顺序
- 二元型 (binary): 只有两种可能取值
- 有序型 (ordinal): 存在明确顺序
- 数值型 (numeric): 具有数值大小意义
- 区间缩放型 (interval-scaled): 具有绝对零点
- 比率缩放型 (ratio-scaled)
3.属性类型
-
标称属性(nominal attribute):类别或分类的形式化表达方式。
-
每个变量值代表某种类别、编码或状态。
-
这些值本身并不具备顺序关系或其他内在联系,在本质上是一种枚举形式。
-
例如:头发颜色={赤褐色、黑色、金色、棕色、褐色、灰色、白色及红色}
-
婚姻状况包括未婚者(0)、已婚者(1)、离异者(2)等
-
职业类型有教师(0)、医生(1)、工程师(2)等
-
ID号则采用唯一编号的形式
-
邮政编码由特定字符组合构成
-
在某些情况下也可以用数值来标识这些符号或名称
-
二元属性(binary attribute):该术语通常被译为"boolean variable"。
- 该分类变量仅包含两个类别,并分别对应数值0和1。
- 对称的(symmetric)即"balance"型变量,在这类情况下两种可能取值赋予相同的重要性并被赋予相同权重;例如,在性别分类中。
- 非对称的(asymmetric),即"不平衡"型变量,则不同类别的结果具有不同的重要性;例如,在体检报告中可能出现阴性和阳性两种结果;惯例是将关键指标的结果以数值形式标记出来——通常会使用1来表示正向结果;例如,在HIV检测中,“阳性”会被编码为1。
-
序数属性(ordinal attribute)
-
其可能取值间存在有意义的排序或等级评定机制(ranking),但相邻取值之间的差距不可知
-
尺寸可取小、中、大三种等级;此外还包括军衔和职称两个维度
-
可用于评估服务质量和顾客满意度等主观指标
例如:
0表示"很不满意",
1表示"不太满意",
2表示"基本满意",
3表示"满意",
4表示"非常满意"
这些数值均为整数值 -
这三类属性均为定性特征
-
定量属性(quantitative attribute):通过整数或实数值实现量化。
-
区间测度(interval measurement)属性:
- 采用等距尺度进行测量。
- 数值具有顺序性,在比较时可计算差额但无法计算倍率关系。
- 缺乏绝对零点特征(例如,在摄氏温标和华氏温标中)
-
比率标度(ratio-scaled)属性
- 具有固定零点的数值属性。
- 值之间存在顺序关系,并且能够计算各值之间的差异程度。
- 能够确定一个值与另一个值的比例关系。
- 例如:开式温标(K)、重量、高度、速度等。
- 具有固定零点的数值属性。
-
离散属性VS连续属性
- 离散属性(discretized attribute)
- 包含有限个或可数无穷多个可能取值
- 例如,在邮政编码、职业分类以及文本库中均可见到
- 通常以整数值的形式表示
- 注意:二元属性作为离散属性的一种典型代表
- 离散属性(discretized attribute)
-
连续属性(continuous attribute)
-
属性值域是实数集R
-
例如,在实际应用中常见的参数如温度、高度或重量。
-
实际上,在工程实践中真实值通常受限于有限精度的表示能力
-
一般以浮点型变量存储
