Advertisement

【笔记】数据挖掘导论(持续更新)

阅读量:

第一章 绪论

数据分析技术的应用: 商务、医学、科学与工程

数据挖掘:在海量数据资源中通过自动化手段提取有价值的信息这一过程。相比信息检索而言,在处理复杂性和规模上存在显著差异。KDD:基于数据库的知识探索技术,在数据库内进行的知识探索活动被称为知识发现(Knowledge Discovery)。

KDD过程

1.2 数据挖掘要解决的问题

  • 可伸缩
  • 高维性
  • 一种数据与复杂数据
  • 数据的所有权与分布
  • 非传统的分析

1.3 数据挖掘的起源
统计方法中的抽样估计与假设检验;
基于人工智能的方法进行模式识别与机器学习时所采用的搜索算法以及构建模型与学习理论;
数据库系统的技术架构包括分布式计算与并行处理方案;
来自多个领域的核心思想包括最优化方法的应用以及进化计算理论等技术基础。

1.4 数据挖掘任务

  • 预测任务:基于其他属性值(明变量 explanatory variable)涉及特定属性值(目标变量 target variable)。
    • 描述任务:全面总结数据中潜在联系的模式(包括相关性、趋势性、群体特征以及轨迹特征)。本质上属于分层式的探索分析流程,并通常依赖后续处理方法来验证结果并提供深入分析。
主要数据挖掘任务
复制代码
* 预测建模
* 关联分析
* 聚类分析
* 异常检测

第二章 数据

涉及的数据类型特征、关注的数据质量以及进行预处理以提升挖掘效率的过程

基于数据分析关联性进行深入分析

涉及的数据类型特征、关注的数据质量以及进行预处理以提升挖掘效率的过程

2.1 数据类型

属性与度量:
属性: 物体所具有的特性是其本质特征的表现。这些特性通常会因为物体的不同或者时间的变化而导致差异。
测度规则: 通过规则将数字或其他符号表示与其对应的物体特性联系起来的方法(即函数)。

  • 性别分类是基本的人类行为之一;
  • 在庆典会议室里确定椅子的数量是否能满足所有参会者的座位需求。(???)

P16

全部评论 (0)

还没有任何评论哟~