《数据挖掘》技术与概念
 发布时间 
 阅读量: 
 阅读量 
数据挖掘
- 
1 引论
 - 
- 什么是数据挖掘
 - 
- 数据挖掘的过程
 - 1.3 可以挖掘什么类型的数据
 
 
 - 
2 数据认知
- 2.1 数据对象及其属性类型
- 
2.1.1 属性类型
- 2.1.2 标称型 attribute nominal
 - 2.1.3 二元型 attribute binary
 - 2.1.4 有序型 attribute ordinal
 - 2.1.5 数值型 attribute numeric
 - 2.1.6 离散型与连续型 attribute discrete and continuous
 
 - 
2.2 数据的基本统计描述
 - 
- 2.2.3 数据的基本统计描述的图形表示
 
 
 - 
 
 - 2.1 数据对象及其属性类型
 - 
2.3 数据展示
 - 
2.4 分析数据间的相似性与异质性
 - 
- 2.4.1 基于矩阵的数据表示及其差异计算
 
 - 
- 2.4.2 标称型变量的近邻度评估
 
 - 
- 2.4.3 二元变量的距离量化分析
 
 - 
- 2.4.4 数值变量的距离量化分析
 
 - 
- 2.4.5 序数变量的等级相似性测度
 
 - 
- 2.4.6 混合变量类型的相似性评估方法
 
 - 
- 余弦相似性的应用与计算方法
 
 
1 引论
什么是数据挖掘

数据挖掘的过程
- 数据清理(占60%的工作量)
 - 数据整合(整合来自多个数据源的数据)
 - 数据筛选(提取与任务相关的关键数据)
 - 数据转换(转换为更适合数据分析的形式)
 - 数据挖掘
 - 模式评估(采用质量标准进行评估)
 - 知识呈现(通过可视化方式展示分析结果)
 
1.3 可以挖掘什么类型的数据
- 数据库中的信息
 - 数据存储库(主要采用层次化模型构建:三维矩阵)
 - 事务记录(每个条目代表一个交易行为)
 - 等等。
 
2 认识数据
2.1 数据对象与属性类型
数据集 由数据对象组成
一个数据对象 代表一个实体
2.1.1 属性
属性 是一个数据字段,表示数据对象的一个特征
2.1.2 标称属性 nominal
值是一些符号或事务的名称。枚举的
2.1.3 二元属性 binary
对称:两种状态具有相同价值并且相同权重。
非对称:这种状态的结果在重要性上存在差异。
2.1.4 序数属性
取值之间有意义的序或秩评定,但是相继值之间的差是未知的
2.1.5 数值属性
- 该种测量采用一致的单位尺度进行评估,例如使用温度计。
- 这种属性具有绝对零点的数值特征,并以绝对温标为例。
 
 
2.1.6 离散属性与连续属性
2.2 数据的基本统计描述
数据的中心趋势度量:
- 平均数 average (weighted average, trimmed average: remove portions from the extremes)
 - median is the middle value in a dataset
 - mode与average之间的差距等于3倍的(average减去median)
 - mid-range是最高与最低数值的平均.若mode小于mid-range则表示正偏态
 

数据的散布:
- 范围 range
 - 四分位数值 quartiles
 - 四分位间距 interquartile range (IQR)
 - 五点统计 summary of five points (包括最小值、第一四分位数、中位数、第二四分位数和最大值)
 - 箱线图 box plot
 

- 方差和标准差
 
2.2.3 数据的基本统计描述的图形表示
- 直方图
 - 分位数图 quantile plot
 - 分位数-分位数图
 - 散点图 scatter plot
 
2.3 数据可视化
2.4 度量数据的相似性和相异性
2.4.1 数据矩阵和相异矩阵
- 数据矩阵:对象-属性矩阵
 

- 相异矩阵:对象-对象矩阵,存放n个对象两两之间的临近度
 

d(i, j) = d(j, i)
sim(i, j) = 1 - d(i, j)
数据矩阵是二模矩阵,相异矩阵是单模矩阵
2.4.2 标称属性的邻近性度量
不匹配率:d(i, j) = 1 - m / p
2.4.3 二元属性的邻近性度量
- 对称的二元相异性 (10)+(01) / 所有
 - 非对称的二元相异性 (分母无00)
 
2.4.4 数值属性的邻近性度量


2.4.5 序数属性的邻近性度量

2.4.6 混合属性的邻近性度量

2.4.7 余弦相似性
cos(d1, d2) = (d1  d2) / ||d1|| ||d2||

全部评论 (0)
 还没有任何评论哟~ 
