Advertisement

《数据挖掘》技术与概念(第3章 数据预处理)

阅读量:

《数据挖掘》技术与概念

  • 第3章 数据预处理

    • 3.1 数据预处理:概述

      • 3.1.1 why
      • 3.1.2 数据预处理的主要任务
    • 3.2 数据清理

      • 3.2.1 缺失值
      • 3.2.2 噪声数据
      • 3.2.3 数据处理作为一个过程
  • 5 节 数据集成

    • 第 5 节 * 数据整合
复制代码
* 第 5 节 .1 实体识别相关的挑战
* 第 5 节 .2 冗余与相关性分析
* 第 5 节 .3 元组重复性问题
* 第 5 节 .4 检测与处理数据值冲突的技术
  • 3.4 数据规约
    • 3.4.1 数据规约概述
    • 3.4.2 小波转换技术:一种用于数据压缩的技术
    • 3.4.3 主成分分析法:一种通过降维提取关键特征的方法
    • 3.4.4 属性子集筛选:通过排除冗余特征优化数据质量
    • 3.4.5 回归模型与对数线性模型:一种基于参数化方法的数据缩减手段
    • 3.4.6 直方图构建:一种通过可视化展示数据分布的方式
    • 3.4.7 聚类分析:一种通过分组发现数据内在模式的技术
    • 3.4.8 抽样方法:一种基于随机选取样本代表总体的策略
    • 3.4.9 数据立方体缩减:一种通过聚合多维数据提升管理效率的方法
    • 3.5 数据变换与数据离散化

第3章 数据预处理

3.1 数据预处理:概述

3.1.1 why

现实世界中的数据库容易受到噪声数据、真实值数据以及不一致数据的影响

3.1.2 数据预处理的主要任务

  • 数据清洗
    • 整合来自不同数据库的数据源(可能存在冗余或不一致性)

    • 缩减规模的数据集不影响数据分析结果的前提条件

      • 分为维度缩减数值压缩两种方法
        • 维度缩减:采用编码技术以减少空间占用
        • 数值压缩:通过参数化模型进一步优化存储效率
    • 数据变换

3.2 数据清理

3.2.1 缺失值

  1. 选择忽略该元组
  2. 手动处理缺失值
  3. 通过全局常量填补缺失值
  4. 根据属性中心趋势指标(如中位数或平均数)填补缺失值
  5. 根据同类样本的属性均值或中位数进行填补;若数据分布偏斜,则选用中位数值更为合适。

采用最可能的数值进行缺失值填充;其中涉及的方法包括回归分析与贝叶斯形式化方法,并基于推理逻辑构建模型;通过构建决策树来进行分类预测。

(3)-(6)使数据由偏,填的值可能不正确,(6)最流行

3.2.2 噪声数据

噪声 是被测量的变量的随机误差或方差。去掉噪声光滑数据的方法:

  • 分箱
    均值光滑
    中位数光滑
    箱边界光滑

  • 回归 regression
    可以用函数拟合数据来光滑数据

  • 离群点分析
    可以通过如聚类来检测离群点

  • 其他:数据离散化数据归约

3.2.3 数据处理作为一个过程

  1. 第一步:偏差检测

3.3 数据集成

3.3.1 实体识别问题

3.3.2 冗余和相关分析

  1. 标称数据的卡方分布相关检验
在这里插入图片描述
在这里插入图片描述
  1. 数值数据的相关系数
    相关度为:
在这里插入图片描述
在这里插入图片描述
  1. 数值数据的协方差
在这里插入图片描述

可以简化计算为:

在这里插入图片描述

3.3.3 元组重复

去规范表

3.3.4 数据值冲突的检测与处理

  • 数据的单位不同
  • 数据属性在抽象层中不同

3.4 数据规约

3.4.1 数据规约概述

  • 维度规约是一种缩减相关变量与属性数量的技术。
    • 包括小波变换、主成分分析以及属性子集等方法。
    • 数量规约则通过替代表示形式使数据更为紧凑。

3.4.2 小波变换

3.4.3 主成分分析

3.4.4 属性子集选择

3.4.5 回归和对数线性模型:参数化数据规约

3.4.6 直方图

3.4.7 聚类

3.4.8 抽样

3.4.9 数据立方体聚集

3.5 数据变换与数据离散化

全部评论 (0)

还没有任何评论哟~