《数据挖掘》技术与概念(第3章 数据预处理)
发布时间
阅读量:
阅读量
《数据挖掘》技术与概念
-
第3章 数据预处理
-
-
3.1 数据预处理:概述
-
- 3.1.1 why
- 3.1.2 数据预处理的主要任务
-
3.2 数据清理
-
- 3.2.1 缺失值
- 3.2.2 噪声数据
- 3.2.3 数据处理作为一个过程
-
-
5 节 数据集成
-
- 第 5 节 * 数据整合
* 第 5 节 .1 实体识别相关的挑战
* 第 5 节 .2 冗余与相关性分析
* 第 5 节 .3 元组重复性问题
* 第 5 节 .4 检测与处理数据值冲突的技术
- 3.4 数据规约
-
- 3.4.1 数据规约概述
- 3.4.2 小波转换技术:一种用于数据压缩的技术
- 3.4.3 主成分分析法:一种通过降维提取关键特征的方法
- 3.4.4 属性子集筛选:通过排除冗余特征优化数据质量
- 3.4.5 回归模型与对数线性模型:一种基于参数化方法的数据缩减手段
- 3.4.6 直方图构建:一种通过可视化展示数据分布的方式
- 3.4.7 聚类分析:一种通过分组发现数据内在模式的技术
- 3.4.8 抽样方法:一种基于随机选取样本代表总体的策略
- 3.4.9 数据立方体缩减:一种通过聚合多维数据提升管理效率的方法
-
- 3.5 数据变换与数据离散化
第3章 数据预处理
3.1 数据预处理:概述
3.1.1 why
现实世界中的数据库容易受到噪声数据、真实值数据以及不一致数据的影响
3.1.2 数据预处理的主要任务
- 数据清洗
-
整合来自不同数据库的数据源(可能存在冗余或不一致性)
-
缩减规模的数据集不影响数据分析结果的前提条件
- 分为维度缩减与数值压缩两种方法
- 维度缩减:采用编码技术以减少空间占用
- 数值压缩:通过参数化模型进一步优化存储效率
- 分为维度缩减与数值压缩两种方法
-
数据变换
-
3.2 数据清理
3.2.1 缺失值
- 选择忽略该元组
- 手动处理缺失值
- 通过全局常量填补缺失值
- 根据属性中心趋势指标(如中位数或平均数)填补缺失值
- 根据同类样本的属性均值或中位数进行填补;若数据分布偏斜,则选用中位数值更为合适。
采用最可能的数值进行缺失值填充;其中涉及的方法包括回归分析与贝叶斯形式化方法,并基于推理逻辑构建模型;通过构建决策树来进行分类预测。
(3)-(6)使数据由偏,填的值可能不正确,(6)最流行
3.2.2 噪声数据
噪声 是被测量的变量的随机误差或方差。去掉噪声光滑数据的方法:
-
分箱
均值光滑
中位数光滑
箱边界光滑 -
回归 regression
可以用函数拟合数据来光滑数据 -
离群点分析
可以通过如聚类来检测离群点 -
其他:数据离散化 和数据归约
3.2.3 数据处理作为一个过程
- 第一步:偏差检测
3.3 数据集成
3.3.1 实体识别问题
3.3.2 冗余和相关分析
- 标称数据的卡方分布相关检验


- 数值数据的相关系数
相关度为:


- 数值数据的协方差

可以简化计算为:

3.3.3 元组重复
去规范表
3.3.4 数据值冲突的检测与处理
- 数据的单位不同
- 数据属性在抽象层中不同
3.4 数据规约
3.4.1 数据规约概述
- 维度规约是一种缩减相关变量与属性数量的技术。
- 包括小波变换、主成分分析以及属性子集等方法。
- 数量规约则通过替代表示形式使数据更为紧凑。
3.4.2 小波变换
3.4.3 主成分分析
3.4.4 属性子集选择
3.4.5 回归和对数线性模型:参数化数据规约
3.4.6 直方图
3.4.7 聚类
3.4.8 抽样
3.4.9 数据立方体聚集
3.5 数据变换与数据离散化
全部评论 (0)
还没有任何评论哟~
