数据挖掘--数据篇(学习心得)
在这一过程中被视为一种技术手段 数据挖掘整合了传统数据分析方法与处理海量数据所需的复杂算法 并在大型数据库环境中 能够自动化地识别出有价值的信息 并具备对未来观测结果进行预测的能力 在这一过程中 其核心目标就是从大量散乱的数据中提取有用的信息;离开了这些关键的数据资源 任何分析工作都将无法开展 为了进一步巩固相关知识内容 在此整理出一份学习笔记
一、数据类型。
数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体。
1、属性与度量
属性是对象的性质或特性,因对象而异,或随时间而变化。
测量标度是将数值或符号与对象的属性相关联的规则。
属性可分为四个主要类型:标称型、序数型、区间型与比率型。其中标称型与序数型都属于分类数据(即定性数据),而区间型与比率型则属于定量数据(即数值数据)。
2、数据集的类型
数据集有三个重要的特性:维度、稀疏性、分辨率。
数据集有以下的类型:
*记录数据,包括:事务数据或购物篮数据、数据矩阵、稀疏数据矩阵。
*基于图形的数据,包括:带有对象之间联系的数据、具有图形对象的数据。
*有序数据,包括:时序数据、序列数据、时间序列数据、空间数据。
二、数据质量
1。测量和数据收集问题
测量误差和数据收集错误:
噪声和伪像:其中伪像是确定性失真,如一组照片同一地方上的条纹。
Precision, bias, and accuracy are indicators. Precision typically measures the standard deviation of a value set, whereas bias measures the difference between the mean of a value set and a known reference value.
离群点:指那些在某些方面与数据集中绝大多数对象表现出显著差异的数据元素;它们可能是由于特定原因产生的异常观测值;通常被称为异常值或离群值。
缺失值是指在一个数据集中某一个或多个属性的数据信息未能被完整获取。常见的处理方法包括删除数据记录;通过估算填补缺失的数据;以及在分析过程中选择性地排除包含缺失值的数据。
重复数据:数据集中可能包含重复或者几乎重复的数据对象。
2。关于应用的问题
在应用过程中,数据除了需注意质量问题之外,还应包括时效性和相关性这两个特性。
三、数据预处理
1、聚集
聚集是将两个或多个对象合并成单个对象。
2、抽样
抽样是一种选择数据子集进行分析的常见做法,在数据分析中被广泛应用的一种方法。其理论基础在于:若样本具有代表性,则从该样本中获得的数据结果与其从总体中获得的结果基本相同。
抽样有如下几个方法:无放回抽样、有放回抽样、分层抽样、渐进抽样。
3、维归约
维归约与数据聚类不同,在于后者主要针对对象进行组合以减少数量,而前者的重点在于通过缩减属性数量来实现数据维度的降低。具体而言,在维归约过程中会创建新的属性,并将原有属性进行整合汇总,从而实现对数据集整体维度的有效缩减。
维灾难:指的是当数据的维度不断增加时的一种极其困难的现象。
用于维归约的线性代数技术:主成分分析(PCA)、奇异值分解(SVD)。
4、特征子集选择
另外一种途径是仅采用一个特征子集来替代原有的属性集合,并且这种方法不仅能够有效地捕捉到数据中的关键信息。其中主要的三种特征选择策略包括嵌入式、过滤式以及包裹式方法。
特征赋予权重:在这一机制下,在这一机制下,在这一机制下,在这一机制下,在这一机制下,在这一机制下,在这一机制下,在这一机制下,在这一机制下的情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下
5、离散化和二元化
在数据挖掘的过程中,默认情况下会遇到对连续型变量进行处理的需求(即所谓的离散化),这一过程通常会生成一个以上的二元特征(Binaryization)。然而,在实际应用中还需要考虑原始数据中可能存在的一些特殊性质以及潜在的复杂关系等因素的影响
6、变量变换
变量转换是指针对变量所有可能取值的一种转换方式;这也即属性转换的一种实现途径。其主要类别包括线性函数以及规范化方法等。
四、相似性和相异性度量
相似性和相异性的高层次定义是术语邻近性;此外, 相似度衡量的是两个对象之间的相似程度, 并通过数值来量化这种程度. 相异度(通常称为距离)则表示两个对象之间差异的程度.
2、数据对象之间的相异度
比较经典的是欧几里德距离(欧式距离)。
3、数据对象之间的相似性
二元变量间的相似测度亦称相似系数。通常采用以下方法进行测度:首先计算简单匹配系数(SMC),其公式为值匹配数量除以属性总数;其次计算Jaccard系数(J),其公式为共享属性数量除以所有非零属性的数量。
余弦相似度是一种广泛应用的向量间相似性度量方法,在信息处理与数据挖掘领域中被用来评估网页之间的相关程度
Extended Jaccard coefficient (Tanimoto coefficient): Extends the Jaccard coefficient and can be applied to document data.
4、邻近度计算问题
计算不同种类属性间的相似性程度:能够分别计算出各个属性间的相似程度,并通过一种将结果限定在0到1之间的方法将各 attribute 的 similarity 进行综合评估。当遇到 asymmetric attributes 时,请采用以下措施:当两个对象在其 asymmetric attributes 的取值均为零时,在 computer 中这种情况下它们的 similarity 可以被忽略不计
