数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)
《数据挖掘导论》Pang-Ning Tan ,Michael Steinbach,Vipin Kumar
读书笔记,
第一章 绪论
数据挖掘任务
预测任务
描述任务
分类任务
回归任务
聚类分析
关联分析
异常检测
- 章节导读
数据挖掘
数据处理
第2章
第3章
分类
第4章
决策树
过拟合
性能评估等
第5章
最邻近分类\贝叶斯分类器\人工神经网络\支持向量机\组合分类器
关联分析
第6章
第7章
聚类分析
第8章
第9章
异常检验
第10章
第二章 数据
第二章数据
2.1 数据类型
2.2数据质量
2.3数据预处理
2.4相似性和相异性的度量
2.1数据类型
2.1.1属性与度量
1.属性和度量的定义
2.属性的类型
标称
序数
区间
比率
2.1.2数据集的类型
1.记录数据
2.基于图形的数据
3.有序的数据
2.2数据质量
2..2.1测量与数据收集问题
1.测量误差和数据手机错误
2.噪声和伪像
3.精度,偏倚和准确率
4.离群点
5.遗漏值
6.不一致的值
7.重复数据
2.2.2关于应用的问题
时效性
相关性
2.3数据预处理
2.3.1聚集
例子,从365天压缩到12个月
2.3.2抽样
1.简单随机抽样
无放回抽样
有放回抽样
2.分层抽样
3.j渐进抽样
2.3.3维归约
PCA,SVD
2.3.4特征子集选择
嵌入方法
过滤方法
包装方法
2.3.5特征创建
1.特征提取
2.映射数据到新的空间
3.特征构造
2.3.6离散化和二元化
2.3.7变量变换
1.简单函数
2.规范化,标准化
2.4相似性和相异性的度量
2.4.1基础
2.4.2数据对象之间的相异度
1.距离
2.4.3数据对象之间的相似度
2.4.4l临近性度量的例子
1.二元数据的相似性度量
简单匹配系数 SMC
Jaccard系数
2.余玄相似度
3.广义Jaccard系数/Tanimoto系数
4.相关性
2.4.5临近度计算问题
1.距离度量的标准化和相关性
mahalanobis距离
2.组合异种属性的相似度
3.使用权重
第三章 探索数据
第三章探索数据
1.汇总统计
频率和众数
百分位数
位置度量:均值和中位数
散步度量:极差和方差
多元汇总统计
协方差矩阵
相关矩阵
2.可视化
1.少量属性的可视化
茎叶图
直方图
盒状图
饼图
散布图
2.可视化空间时间数据
等高线
曲面图
适量场图
