数据挖掘概念与技术 第一章 引论
本文讲解数据挖掘中的基本概念:
一、数据挖掘:
数据挖掘(KDD,knowledge discovery in database):数据库中发现知识。
- 数据清理:去除噪音并剔除异常记录。
- 数据集成:整合多种来源的数据。
- 数据选择:从数据库中获取与分析目标相关联的数据项。
- 数据变换:通过聚合操作将数据进行处理并规范化。
- 数据挖掘:作为数据分析的基本步骤,在此过程中使用智能算法提取潜在模式。
- 模式评估:基于预设的标准衡量指标,在此阶段识别出具有价值的知识模式。
- 知识表示:采用可视化技术和知识表示方法,在此过程中向用户提供分析结果。
步骤1-4是数据预处理的不同形式,为挖掘准备数据。
二、数据类型:
数据的最基本形式是数据库数据、数据仓库数据和事务数据。
- 数据库数据:数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权访问,确保存储的信息的一致性和安全性。关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系数据模型。
- 数据仓库:是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。通常。数据仓库用称做数据立方体的多维数据建模。其中每个维度对应于模式中的一个或者一组属性,而每个单元存放某种聚集度量值。
- 事务数据:一般来说,事务数据库的每个记录代表一个事务,通常,一个事务包含一个唯一的事务标识号(trans_ID),以及一组事务的项的列表(如,交易中购买的橡商品)。
| trans_ID | 商品的ID列表 |
|---|---|
| T100 | I1,I3,I8,I16 |
| T200 | I2,I8 |
| ..... | ....... |
三、挖掘的模式类型:
该功能旨在识别并分析指定的数据挖掘任务所涉及的模式。通常情况下,这类任务主要可分为两类:描述性和预测性两种类型。描述性的数据 mining task 主要揭示出目标 data 所具有的普遍特征与内在规律,而 predictive data mining 则基于现有信息进行分析推导,并据此对未来事件作出推测
- 类/概念描述:特征化与区分。 数据可以与类或者概念相关联,例如在商店中,销售的商品类包括计算机和打印机。使用汇总的、简洁的、精确的表示方式描述每个类是有用的。这种类或概念的描述称为类/概念的描述。这种描述可以通过下述方法得到:(1)、数据特征化,一般地汇总所研究类(目标类)的数据;(2)、数据区分,将目标类与一个或者多个可比较类(通常称为对比类)进行比较。(3)、数据特征化与区分。 数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。数据区分(data discrimination)是将目标类数据对象的一般特性与一个或者多个对比类对象的一般特性进行比较。
- 挖掘频繁模式、关联和相关性:频繁模式frequent pattern是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合,如小卖部中被顾客频繁一起购买的牛奶和面包。频繁出现的子序列,如顾客倾向于先购买便携机,在购买数码机,然后购买内存卡这样的模式就是一个序列模式。关联分析:一个例子 buys(X,"computer")---》buys(X,"software")[support = 1% , confidence= 50%],其中X是变量代表客户。50%的置信度或确信性意味,如果一位顾客购买计算机,则购买软件的可能性50%。1%的支持度意味,所分析的所有事物的1%显示计算机和软件一起被购买。这个关联规则涉及单个重复的属性或者谓词(即buys)。包含单个谓词的关联规则被称为单维关联规则(single-dimensional association rule)。去掉谓词符号,上面的规则可以简化为"computer→software[1%,50%]"。
通过数据挖掘技术,我们能够识别出以下形式的关联规则:age(X,"20..29") ∧ income(X,"40K..49K") → buys(X,"laptop") ,其中支持度为 2% ,置信度为 60% 。这一关联涉及多个属性或谓词(如 age、income 和 buys)之间的联系。从多维数据库的角度来看待术语时,在这种情况下我们称每个属性为一个维度(dimension),而上述关联规则则被称为多维关联规则(multidimensional association rule)。
一般情况下而言,在关联式挖掘过程中生成的一个关联式规则通常会被视为不具有吸引力并予以排除。只有当它同时满足最低支持度指标和最低置信度标准时才会被保留。
- 预测分析中的分类与回归:分类是一个建立用于区分数据类别或概念的模型(或函数)的过程。通过分析训练数据集(即类标号已知的对象),从这些数据中提取出模型。该提取出的模型则用于预测那些类标号未知的对象的类标号。回归分析则是基于训练数据集来建立连续值函数模型的过程。这种函数关系被用来预测缺失数值或难以获取的数据点数值,并非像分类那样用于预测(离散且无序)的类标号结果。回归分析(regression analysis)是一种最常用的数值型预测统计方法。
4. 聚类分析:用于对数据对象进行分类处理,并未关注类别标签。能够生成带标签的数据群组。基于最大化内部相似性和最小化外部相似性的原则对物体进行分组或分类。每个簇(Cluster)通过最大化内部相似性和最小化外部相似性来定义其特征与边界。这样形成的每一个簇可被视为一个独立的对象类别
5. 离群点分析:在数据分析过程中,我们可能会识别出一些不符合预期的数据对象.这些异常数据即为离群点:outlier.
遵循X→Y形式的关联规则,在数据挖掘领域中被用作量化评估的一种标准方法。其支持度(Support)是一种衡量标准,具体而言,支持度表示在事务数据库中满足该关联规则的事务数量占总事务的比例.计算出的概率P(X|Y),即条件概率.
