Advertisement

数据挖掘学习笔记1:引论

阅读量:

参考自王灿的数据挖掘课程

数据挖掘的发展动力

数据爆炸

自动数据收集工具及成熟的数据库技术使大量数据得以收集、存于数据库里、数据仓库或其他信息库中以便分析

有丰富的数据但缺乏有用的信息

解决办法

  • 数据存储结构
    • 多维分析技术
    • 知识发现系统

数据库技术的演化

文件系统与数据库系统的区别

数据库系统的特点

  • 数据存储(文件系统有)
  • 查询处理(sql)
  • 事务处理和并发访问的控制

文件系统

  • 数据存储
  • 数据访问

什么是数据挖掘

数据挖掘

  • 从海量数据中筛选出具有吸引力、有益、潜在价值以及前人已知的知识进行深入分析。
    • 对其进行筛选不仅仅是为了获取信息(因为'数据分析'这一术语不够精准;'知识发现'与'知识提取'更为恰当)。
      注意:对信息而非直接对 knowledge 进行提取!

数据挖掘的替换词

改写说明

并非所有东西都是”数据挖掘”

数据挖掘的应用

数据分析和决策支持,风险管理等等

数据来源

信用卡交易,会员卡,商家的优惠券,投诉电话,公众生活方式研究

目标市场

构建多个具有共同特性的客户群体模型;这些人群由一致属性组成:包括兴趣爱好与消费行为、经济状况以及等其他因素。

交叉市场分析

联系和相关性分析, 以及基于这种联系上的预测

顾客分析

那类顾客购买哪种商品(聚类分析分类)

客户需求分析

  • 确定适合不同顾客的最佳商品
  • 预测何种因素能够吸引新顾客

提供概要信息

  • 多维度的综合报告
  • 统计概要信息(数据集中趋势和变化)

财务计划

  • 现金流转分析和预测
  • 交叉区域分析和时间序列分析

资源计划

总结和比较资源和花费

竞争

  • 实时追踪行业动态与竞争对手情况
  • 依据客户价值 tier 进行细分并采用同质化定价策略
  • 将其应用至更具竞争力的市场领域

欺诈行为检测

利用聚类和建模并进行孤立点分析

这里写图片描述

知识挖掘的步骤

  • 掌握应用场景
  • 其核心环节在于选择高质量原始数据
  • 通常占据整个流程约60%的时间与精力
  • 其主要作用包括提取有价值的信息特征以及去除无意义的变量表示
  • 数据总结
  • 分类模型的数据挖掘
  • 回归分析的应用
  • 关联规则挖掘的技术
  • 决定采用哪种挖掘技术
  • 通过数据挖掘提取潜在的模式和关联
  • 模式识别与分析(包括视觉呈现、数据形态转换以及去除非必要信息的步骤)
  • 利用获取的知识进行后续应用

典型的数据挖掘系统体系

这里写图片描述
  • 服务器负责处理存储、查询以及更新等具体操作。
    - 通过数据算法获取相应的模式。
    - 在评估过程中获得的模式中寻找感兴趣的部分时,请问是否需要借助知识库将这些模式与已有的知识库进行对比以筛选出有实用价值的模式?
    - 将数据进行图形化展示。

可以在何种数据上进行挖掘

理论上讲, 任意数据均可进行挖掘;然而,在实际应用中, 部分复杂的数据结构难以实现有效的挖掘。
- 关系型 databases
- 数据仓库
- 事务 databases
- 高级 databases 系统和信息库
空间 databases (DBMS), 时间序列 databases,
流式数据分析: 相较于传统 databases 技术而言,在存储效率、查询性能以及实时处理能力等方面存在显著差异。

多媒体 type,
对象 type,
object-relational type,
异构 type,
文本 type,
WWW(万维网)type。

数据挖掘主要方法

  • 概念/类描述: 特征化区分
    归结,总结对比数据的特性.

该技术旨在揭示数据间的关联模式,在此过程中我们观察到,在给定的数据集中某些属性表现出高度的一致性。这种规律表明,在给定的数据集中某些属性表现出高度的一致性或频繁出现的情况被系统识别出来作为条件集合的一部分。这种发现被广泛应用于 basket analysis 或 transactional data analysis 中。

  • 分类和预测

利用模型或函数建立区分类别的工具, 用于预测未知类型的标志. 例如:根据气候对国家进行分类;按照汽油消耗定额对汽车进行分类.

  1. 生成模型的表现: 包括判定点数量、分类机制以及所使用的神经网络架构。
  2. 该模型可用于推断缺失或不可知的数据点中的数值。

聚类分析

  1. 将具有相同特性的数据进行分类处理,并建立一个新的类别
  2. 通过最大化同一类别内部成员的相似性以及最小化不同类别之间成员的相似性来优化分类效果

孤立点分析

  1. 离群点是指那些与数据常规模式不一致的个别样本。
  2. 在传统应用中, 离群点常被视为'噪声'或异常值而被剔除; 然而在欺诈检测等复杂场景中, 则可以通过对罕见事件进行深入分析来识别潜在风险。

趋势和演变的分析

  • 描述行为随时间变化的对象的发展规律或趋势

    1. 趋势或偏差: 回归分析
    2. 序列模式匹配: 周期性分析
    3. 基于类似性的分析

其他定向模式或统计分析

所有模式都是有趣的吗

  • 数据挖掘可能会生成大量模式或规则, 其中大部分并不具有吸引力 */

有趣的模式的特征

  1. 这种方法易于被理解。
  2. 在一定程度上, 该方法针对新数据和测试数据具有有效性。
  3. 该方法具有潜在有用性。
  4. 这种方法独特性高。
  5. 该方法与用户的预期相符。

模式兴趣度(有用程度)的客观和主观度量

  • 客观度量: 基于发现模式的结构及其统计信息, 例如: 支持度, 置信度等指标.
  • 主观度量: 依据用户的判断, 包括如意外出现的结果, 新奇且引人注目的结果, 具有行动性的结果等.

数据挖掘:多个学科的融合

这里写图片描述

全部评论 (0)

还没有任何评论哟~