数据挖掘基本概念
数据挖掘的基本任务:分类,回归,聚类,总结概括,关联建模,变化和偏差检查。
数据挖掘重点起源于:统计学和机器学习。
系统识别:结构识别和参数识别
数据挖掘过程:
1.陈述问题,阐明假设
2.收集数据
3.预处理数据:异常数据处理,比例缩放,编码和特征选择
4.模型评估
5.解释模型,得出结论
数据仓库最重要的是两个方面:
第一:对数据库中的存储数据按照其特定类型进行分门别类地划分以满足管理需求;第二:如何将原始数据经过适当的转换使其成为更便于决策的形式
依赖时间的数据源可以如下分类:
(1)过去的细节数据
(2)当前的细节数据(新)
(3)轻度综合数据
(4)高度综合数据
(5)元数据(数据目录或向导)
为准备这些基本数据,就有一些数据转换方法,数据转换形式主要有四种:
简单转换被视为更为复杂的转换方式的基础支撑点,在数据处理过程中每次仅处理单个字段的数据信息,并无需关注关联字段的内容;例如将字段的数据类型进行更改,如将字段的编码形式转化为解码格式,则可实现相应的数据更新需求
(2)清洁与规范:遵循统一的规范对相关数据进行整理与校准(此过程可用于检验某项数据的有效性及其合法性)
(3)集成:从一个或多个数据源中获取操作型数据,并将每个字段依次被映射至数据仓库的新数据结构上。
从操作环境中提取出的数据实例被映射到数据仓库中较少数量的具体实例中。在数据分析过程中,总结通常表现为一维或多维数据值的累加运算(例如将每日销售额汇总为月度总销售额).而聚合则涉及多个不同的商业维度数值进行总量计算的结果(如将产品类别的日均销售额与咨询量指标累加生成总的季度销售指标).
数据仓库的开发过程分为3个阶段:
(1)建模--(商业过程,过程中的信息需求)
(2)明确识别所需工具的功能定位,并将其与目标商业过程所需的决策支持类型对应起来。构建用于细化信息需求的详细数据架构方案;将问题拆解为具体的字段规范与实际存储结构设计的基础上形成数据集市或建立数据仓库
(3)部署
引入数据挖掘项目必须满足以下条件:
1.必须有一个明确的定义的问题。
2.数据必须是可用的。
3.数据必须是相关的,适当的,干净的。
4.应不能仅通过一般的查询或OLAP工具来解决问题。
5.结果必须是可以操作的。
