数据挖掘导论 笔记
引论
1.1为什么进行数据挖掘?
信息时代的来临不贴切,我们的时代其实是数据时代,还没有真正步入信息时代,现在数据爆炸增长,需要将数据转化为知识。
1.2什么是数据挖掘?
即KDD,数据中的数据发现
知识发现的迭代步骤为:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)模式评估7)知识表示
广义的数据挖掘可表述为:从大量数据中挖掘有趣模式和知识的过程。
1.3可以挖掘什么类型的数据?
1)数据库数据
一些概念如:
数据库系统(有一组内部相关的数据和一组管理和存取数据的软件程序组成)
关系数据库(表的汇集,实体-联系数据模型,将数据库表示成一组实体和他们之间的联系)
数据库查询(连接、选择、投影、优化,提取数据的一个指定的问题)
2)数据仓库
一个从多个数据源收集的信息存储库,存放在一直的模式下,并且通常驻留在单个结点上,通常是汇总的
一些概念:
数据立方体(多维数据结构建模,每个维对于一个或一组属性,每个单元存放某种度量)
OLAP操作(联机分析处理,包括下钻,上卷,数据立方体的每一个单元都可下钻为另一个数据立方体,上卷也可)
3)事务数据
每个记录代表一个事务,可能有一些与之相关联的附加表。
4)其他
1.4可以挖掘什么类型的模式
一般可分为描述性、预测性
1)类/概念描述:特征化与区分
面向属性的归纳技术,用来进行泛化和特征化
数据特征化的输出形式:饼图、条图、曲线、多维数据立方体、多维表
数据区分:用户指定目标类和对比类
2)挖掘频繁模式、关联和相关性
频繁模式分为频繁项集、频繁子序列、频繁子结构等
关联分析:置信度、支持度
单维关联规则、多维关联规则
3)用于预测分析的分类与回归
分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。导出模型为对数据集的分析。
如何提供到处的模型:决策树、神经网络
回归:建立连续值函数模型,预测缺失的或难以获得的数值数据值。相关分析:需要在分类和回归之前进行,试图识别与分类和回归过程中显著相关的属性。
4)聚类分析
最大化类内相似性、最小化类间相似性
5)离群点分析
大部分被视为噪声或异常而丢弃
某些情况,罕见的事件可能比正常出现的事件更令人感兴趣。(离群点分析、异常挖掘)
6)所有模式都是有趣的吗?
什么模式是有趣的:易于被人理解、对新的或检验数据是有效的、潜在有用的、新颖的
有趣的度量:支持度、置信度、(准确率、覆盖率)
主观兴趣度度量:基于用户对数据的信念
DM能产生所有有趣的模式吗:涉及数据挖掘算法的完全性
DM仅产生有趣的模式吗:优化问题
1.5使用什么技术
统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和其它
对于分类和聚类任务,机器学习通常关注模型的准确率,数据挖掘非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法。
1.6面向什么类型的应用
1)商务智能
2)web搜索引擎
1.7数据挖掘的主要问题
挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会
