数据挖掘导论(一):数据挖掘的定义,方法,用途
发布时间
阅读量:
阅读量
什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。
(一)发现先前未知的有用模式
(二)预测未来的观测结果
知识发现:数据挖掘在数据库中扮演着重要组成部分的角色。而知识发现是一个涉及对未加工数据进行系统工程式的加工处理以获取有价值信息的过程。

知识发现(KDD)过程
数据挖掘要解决的问题
- 可伸缩性要求具备应对海量数据的能力。
- 高维性要求能够有效解决维度灾难的问题。
- 针对异种数据和复杂多样性的需求。
- 基于多因素动态评估体系的分析方法是非传统的特征。
- 在保障安全性和提高计算效率的基础上实现多元数据分析的目标是必要的。
数据挖掘的起源
数据挖掘的方法来自机器学习或AI,模式识别,统计学与数据库系统

数据挖掘任务(两大类)
1.预测任务
根据其他属性的值,预测特定属性的值
被预测变量通常被称为目标变量(因变量)
做预测变量通常被称为明变量(自变量)
2.描述任务
导出概括数据中潜在联系的模式
包括相关、趋势、聚类、轨迹、异常。
四种主要数据挖掘任务
预测建模 (两种)
| 分类 | 回归 | |
|---|---|---|
| 目标变量 | 离散 | 连续 |
| 举例 | 是否买书 | 股票价格 |
| 共同点 | 训练模型, 减小误差 |
例证:通过考察顾客对产品促销活动的反应情况;考察顾客对产品促销活动的反馈机制;通过调查顾客对产品促销活动的感受来判定顾客对此类促销活动的态度;依据顾客对产品促销活动的意见来分析顾客对此类营销策略的认知水平等。

关联分析 :用来发现描述数据中强关联特征的模式。
- 所发现的现象通常常用隐含关联规则或特征子集来描述
- 由于搜索空间呈指数增长,在关联分析中我们的目标是能够有效地提取结果
举例:找出具有相关功能的基因组,识别用户一起访问的Web页面等。

聚类分析: 旨在发现紧密相关的观测值组群
通过与其他簇中的观测体进行比较,在同一簇内的样本之间具有较高的相似度
举例:对相关顾客进行分组,主题分组。

异常检测:通过发现与其他数据相比有明显差异的观测值来识别它们被称为异常点或离群点
该算法旨在识别出真实的异常数据点,并以防止将正常物品误判为异常的方式减少误判风险。一个有效的异常检测系统应该具备高的识别准确率和低的误报频率。
举例:检测欺诈,网络攻击。
全部评论 (0)
还没有任何评论哟~
