数据挖掘的基本概念
1、数据挖掘的基本概念
20年前无法获取所需的数据是因为数据量不足;如今无法获取数据的原因是数据量过剩。
数据挖掘也被认为是数据库中进行知识发现的过程。
数据挖掘自动化地分析企业数据,并进行归纳推理,在其中发现了潜在模式后帮助决策者调整市场策略并作出正确的决策。
数据挖掘的特征:
• 数据来源真实可靠且具有丰富性;
• 系统能够提取出用户关注的知识领域;
• 所获得的知识既易于接受又具备实用性;
• 无需广泛传播一般知识,主要关注特定领域的深入研究。
数据挖掘相关技术:
数据整合与分析技术涵盖以下核心领域:包括基于人工智能的机器学习算法研究(ML),以及基于模式识别的技术开发(PR)。此外还包括商业智能系统(BI)应用研究、知识发现方法(KD)创新以及决策支持系统的构建与优化等。
2、数据挖掘技术
常用数据挖掘技术:包括类ifying techniques、regression analysis、clustering methods、association rules、feature extraction以及analysis of variance(ANOVA)。此外还包括Web data mining等技术。
(1)分类
• 识别数据对象的本质属性;
• 按照类型将数据进行分类;
• 将数据分配至预设类别。
(2)回归分析
• 回归分析能够揭示事务在时间上的特征,并发现事务之间的依赖关系。
• 研究的核心问题是:数据序列的变化趋势特征、数据序列的预测以及数据之间相互关联等问题。
• 应用领域包括市场营销的各个方面。具体而言包括客户需求预测、产品生命周期分析、销售趋势预测以及针对性促销活动等多个方面的问题分析和决策支持。
(3)聚类分析
• 将一组个体划分为若干类别,并根据它们之间的相似程度进行分组。
• 主要目标在于使同类数据间的相似程度最大化,并尽量减少不同类数据之间的相似程度。
• 聚类分析有助于揭示同类事物之间的共性和不同类事物之间的差异。
(4)关联分析
• 多个变量的取值之间存在某种规律性被称为关联。
• 关联类型: 简单关联、时序关联以及因果关联等类别。
• 目的:旨在发掘数据中潜在的关系网络。
• 应用:涵盖产品定位策略制定、定制型客户群体构建、细致客户细分以及营销风险评估等多个方面,并延伸至欺诈预测等关键领域。
(5)特征分析
• 从一组数据中提取出这些数据的特征。
(6)偏差分析
• 数据有时会包含一些异常记录,并不符合某些特定规则的情况。
• 目的是为了找出观察结果与参照量之间具有显著差异的部分。
(7)决策树
• 决策树在应对分类与预测任务方面展现出卓越的能力。
• 根节点位于顶端位置。分支延伸至下部区域。通过层层分割形成独立的数据群组。每个数据群组内部遵循简单明确的规则。
3、数据挖掘过程
数据挖掘流程:
商业理解,数据准备,模型建立,数据挖掘,结果评估,应用部署。

