数据挖掘:概念与技术第二章
文章目录
- 第二章:认识数据
-
-
2.1 数据对象与属性类型
-
- 2.1.1 什么是属性
- 2.1.2 标称属性
- 2.1.3 二元属性
- 2.1.4 序数属性
- 2.1.5 数值属性
- 2.1.6 离散属性与连续属性
-
2.2 数据的基本统计描述
-
- 2.2.1 中新趋势度量:均值、中位数和众数
- 2.2.2 度量数据散步:极差、四分位数、方差、标准差和四分位数极差
-
2.3 数据可视化
-
- 2.3.1 基于像素的可视化技术
- 2.3.2 几何投影可视化技术
- 2.3.3 基于图幅的可视化技术
- 2.3.4 层次可视化技术
- 2.3.5 可视化复杂对象和关系
-
2.4 度量数据的相似性和相异性
-
- 2.4.1 数据矩阵与相异性矩阵
- 2.4.2 标称属性的邻近性度量
- 2.4.3 二元属性的邻近性度量
- 2.4.4 数值属性的相异性:闵可夫斯基距离
- 2.4.5 序数属性的邻近性度量
- 2.4.6 混合类型属性的相异性
- 2.4.7 余弦相似性
-
第二章:认识数据
2.1 数据对象与属性类型
数据集由数据对象组成。一个数据对象代表一个实体。
数据对象用属性描述。
数据对象又称样本、实例、数据点或对象 。
2.1.1 什么是属性
属性 是一个数据字段,表示数据对象的一个特征。属性、维、特征和变量 可以互换地使用。
2.1.2 标称属性
标称属性 的值是一些符号或事务的名称。
- 例2.1.2 假设发色和婚姻状况是两个描述人的属性。发色可能是黑色、棕色、绿色、红色和白色。婚姻状况可能是单身、已婚、离异和丧偶。 发色和婚姻状况都是标称属性 。
考察标称属性最有意义的就是分析其众数(出现最多的值) ,这可以看出一种中心趋势。根据这种中心趋势 ,可以得出一些结论。如这个地方的人的头发颜色一般都是黑色,大部分人的职业都是工人等等。
2.1.3 二元属性
二元属性 是一种标称属性,只有两个类别或状态:0或1,二元属性又称布尔 属性。
2.1.4 序数属性
序数属性 是一种属性,其可能得之间具有有意义的序或秩评定,对于记录不能客观度量的主管质量评估,序数属性是有用的。
2.1.5 数值属性
数值属性 是定量的。
2.1.6 离散属性与连续属性
机器学习领域开发的分类算法通常把属性分成离散的 或连续的 。
2.2 数据的基本统计描述
对于成功的数据预处理而言,把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。
有三类基本统计描述。
2.2.1 中新趋势度量:均值、中位数和众数
-
数据集“中心”的度量最常用、最有效的数值度量是(算术)均值。令 x1,x2,…,xN 为某数值属性X的N个观测值或观测。该值集合的均值(mean)为:
-
有时,对于i=1,2,…,N,每一个值xi可以与一个权重wi相关联,权重反应它们所依附的对应值的意义、重要性或者出现的频率。在这种情况下,我们可以计算:
这称做加权算术均值或加权平均。
为了抵消少数极端值的影响,我们可以使用截尾均值(trimmed mean):丢弃高低极端值后的均值。 -
对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据值的中间值:一定是排序后的数列。它是把数据较高一半与较低一半分开的值。
-
众数是另一种中心趋势的度量。数据集中众数是集合中出现最频繁的值。
-
中列数(midrange)也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值得平均值。
2.2.2 度量数据散步:极差、四分位数、方差、标准差和四分位数极差
-
极差、四分位数和四分位数极差
设x1, x2, …, xN 是某数值属性X上的观测的集合。该集合的**极差(range)**是最大值(max())与最小值(min())之差。
分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
四分位数:把数据分布划分成4个相等的部分。
百分位数:把数据分布划分成100个大小相等的连贯集。
第一个四分位数记作Q1,是第25个百分位数,它砍掉数据最低的25%。第三个四分位数记作Q3,是第75个百分位数,他砍掉数据最高的25%。
四分位数极差(IQR) = Q3 - Q1 -
五数概括
五数概括(five-number summary)由中位数(Q2)、四分位数(Q1) 和 (Q3)、最大最小观测值组成,按次序Minimum,Q1,Median,Q2,Maximum写出。 -
方差和标准差
方差和标准差都是反映了一组数据偏离平均值的程度(离散程度) 。低标准差意味着数据观测趋于非常靠近均值,而高标准差表示数据散布在一个大的值域中。
2.3 数据可视化
数据可视化通过图形表示清晰有效地表达数据。
2.3.1 基于像素的可视化技术
基于像素的可视化技术,是一种可视化一维值的简单方法。
2.3.2 几何投影可视化技术
几何投影技术帮助用户发现多维数据集的有趣投影。主要挑战是设法解决如何在二维显示上可视化高维空间。
2.3.3 基于图幅的可视化技术
基于图符的可视化技术使用少量图符表示多维数据值。
2.3.4 层次可视化技术
层次可视化技术:对于大型高维数据集,很难同时对所有维可视化,层次可视化技术把所有维划分成子集,这些子空间按层次可视化。
2.3.5 可视化复杂对象和关系
标签云是用户产生标签统计量的可视化,在标签云中,标签通常按字母次序或用户指定的次序列举。
2.4 度量数据的相似性和相异性
评估对象之间相互比较的相似或不相似程度。簇 是数据对象的集合,使得同一个簇中对象相互相似,而与其他簇中的对象相异。离群点分析也使用基于聚类技术,把可能的离群点看做与其他对象高度相异的对象。对象的相似性可以使用最近邻分类,对给定的对象基于它与模型中其他对象的相似性赋予一个类标号。
相似性与相异性都称邻近性(proximity),典型的,如果两个对象i和j不相似,则它们的相似性度量将返回0,相似性值越高,对象之间的相似性越大。
2.4.1 数据矩阵与相异性矩阵
本节讨论的对象被多个属性度量。假设我们有n个对象(如人、商品或课程),每个对象被p个属性(又称维或特征)刻画。这些对象是 x_1=(x_{11},x_{12},...,x_{1p}),x_2=(x_{21},x_{22},...,x_{2p}),等等,其中x_{ij}是对象x_i的第 j 个属性值。为简单计,以后我们称对象xi为对象i。
数据矩阵 (data matrix)或称对象-属性结构,这种数据结构用关系表的形式n p(n个对象 p个属性)矩阵存放n个数据对象。
每一行对应一个对象:
\begin{bmatrix} x_{11}&...&x_{1f}&...&x_{1p}\\ ...&...&...&...&...\\ x_{i1}&...&x_{if}&...&x_{ip}\\ ...&...&...&...&...\\ x_{n1}&...&x_{nf}&...&x_{np} \end{bmatrix}
相异性矩阵 (dissimilarity matrix)或称对象-对象结构:存放n个对象两两之间邻近度,通常使用一个n*n矩阵表示:
\begin{bmatrix} 0& & & & \\ d(2, 1)&0& & & \\ d(3, 1)&d(3, 2)&0& & \\ ...&...&...&0& \\ d(n, 1)&d(n, 2)&...&...&0 \end{bmatrix}
其中d(i, j)是对象i 和对象j 之间的相异性或差别的度量。一般而言d(i, j)是一个非负数的数值,对象i 和j 彼此高度相似或接近时,其值接近于0;越不接近,该值越大。
sim(i,j)是对象i和j之间的相似性,sim(i,j)=1-d(i,j)。
2.4.2 标称属性的邻近性度量
标称属性可以取两个或者多个状态。例如map_color是一个标称属性,它可以有5种状态:红、黄、绿、粉红和蓝。设标称属性的状态数目是M。这些状态可以使用字母、符号或者一组整数来表示。
两个对象i和j之间的相异性可以根据不匹配率来计算:d(i,j) = \frac{p-m}{p},其中m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。
2.4.3 二元属性的邻近性度量
使用对称与非对称的二元属性刻画对象间的相异性与相似性。如何计算二元属性的相异性?如果所有的二元都被看做具有相同的权重,则我们得到一个两行两列的列联表如下图所示:
| 对 | 象 | j | ||
|---|---|---|---|---|
| 对 | 1 | 0 | sum | |
| 象 | 1 | q | s | q + r |
| i | 0 | s | t | s + t |
| sum | q + s | r + t | p |
其中q是对象i和j相同属性中同时取1的属性数,r是对象i取1、对象j中取0的属性数,s是对象i取0、对象j中取1的属性数,而t是对象i和j都取0的属性数。属性总数是p,其中p = q + r + t + s。
- 对于对称的二元属性,每个状态同等重要。基于对称二元属性的相异性称作对称的二元属性相异性。如果对象i和j都使用对称的二元属性刻画,则i和j的相异性为: d(i, j) = (r + s) / (q + r + s +t)
- 对于非对称的二元属性,两个状态不是同等重要。基于这种属性相异性的被称为非对称二元相异性,其中负匹配t被认为是不重要的,因此在计算时可以被忽略: d(i, j) = (r + s) / (q + r + s)
- 互补的,我们称基于相似性而不是基于相异性来度量的两个二元属性的差别。对象i和j之间的非对称二元相似性可以使用以下公式:sum(i, j) = q / (q + r + s) = 1 - d(i, j)。系数sim(i, j)被称作Jaccard系数。
2.4.4 数值属性的相异性:闵可夫斯基距离
用来度量数值属性的相异性的指标是距离。具体包括欧几里得距离、曼哈顿距离、闵可夫斯基距离。
2.4.5 序数属性的邻近性度量
区间标度的属性temperature(摄氏温度)可以组成如下状态:-30 ~ -10,-10 ~ 10,10 ~30,分别代表cold temperature,moderate temperature,warm temperature。令序列属性可能的状态数为M。这些有序的状态定义了一个排位1,...,M_f。
2.4.6 混合类型属性的相异性
一种方法是将每种类型的属性分成一组,对每种类型分别进行数据挖掘分析(例如,聚类分析)。
一种更可取的办法是将所有属性类型一起处理,只做一次分析。
2.4.7 余弦相似性
文档用数以千计的属性表示,每一个属性记录文档中一个特定词或短语的频度。这样每个文档都被一个所谓的词频向量(term-frequency vector)表示。
词频向量通常很长,并且是稀疏的 。
余弦相似性 是一种度量,它用来比较文档,或针对给定的查询词向量对文档排序。
参考文章:
数据挖掘概念与技术 第2章 认识数据, 作者:GeekWill
数据挖掘:概念与技术(第三版)之第二章的学习记录,作者:張清扬
