Advertisement

数据挖掘 概念与技术 笔记(Data Mining concepts and Techniques Third Edition Notebook)

阅读量:

第1章 引论

1.1 什么是数据挖掘?

数据挖掘是一个跨学科分支,在数据分析领域具有广泛的应用性。其本质上等同于知识发现(KDD),这一术语在学术界已得到普遍认可。然而,在某些观点中,数据挖掘更多地被视作数据分析流程中的一个基础环节。
具体步骤:

  1. 数据预处理

  2. 数据可视化

  3. 数据分析

  4. 模型构建与评估

  5. 结果解释与应用

  6. 数据清洗

  7. 数据集成

  8. 数据选择

  9. 数据变换

  10. 数据挖掘

  11. 模式评估

  12. 知识表示

1.2 什么类型数据可以挖掘?

数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。在应用中,数据最基本形式就是**(1)数据库数据(2)数据仓库数据(3)事务数据**。本书提供的概念和技术集中考虑这类数据。当然数据挖掘也可以用于其他类型数据(例如:数据流、有序/序列数据、图和网络数据、空间数据、文本数据、多媒体数据和万维网)
1)数据库数据
数据库系统,也称之为数据库管理系统(DBMS),由一组内部相关的数据(称之为数据库)和一组管理和存取数据的软件程序组成。当数据挖掘用于关系数据库时,可以进一步搜索趋势和数据模式。关系数据库时数据挖掘最常见、最丰富的信息源,因此数据库数据是数据挖掘研究的一种主要数据形式。
2)数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
数据仓库也称之为数据立方体(data cube)的多位数据结构建模。多位数据挖掘(又称探索式多位数据挖掘)以OLAP风格在多位空间进行数据挖掘。
OLAP是联机分析处理,是一种分析技术。

3)事务数据

1.3 什么类型的模式可以挖掘?

该系统具备丰富的数据挖掘功能包
括但不限于:
1)特征化与区分
2)频繁模式
3)关联与相关性挖掘
4)分类与回归
5)聚类分析
6)离群点分析

1.4 使用什么技术

作为应用驱动的重要领域,在整合大数据分析与人工智能技术的基础上

全部评论 (0)

还没有任何评论哟~