Advertisement

《数据挖掘》技术与概念

阅读量:

数据挖掘

  • 1 引论

    • 什么是数据挖掘
      • 数据挖掘的过程
      • 1.3 可以挖掘什么类型的数据
  • 2 数据认知

    • 2.1 数据对象及其属性类型
      • 2.1.1 属性类型

        • 2.1.2 标称型 attribute nominal
        • 2.1.3 二元型 attribute binary
        • 2.1.4 有序型 attribute ordinal
        • 2.1.5 数值型 attribute numeric
        • 2.1.6 离散型与连续型 attribute discrete and continuous
      • 2.2 数据的基本统计描述

        • 2.2.3 数据的基本统计描述的图形表示
  • 2.3 数据展示

  • 2.4 分析数据间的相似性与异质性

    • 2.4.1 基于矩阵的数据表示及其差异计算
    • 2.4.2 标称型变量的近邻度评估
    • 2.4.3 二元变量的距离量化分析
    • 2.4.4 数值变量的距离量化分析
    • 2.4.5 序数变量的等级相似性测度
    • 2.4.6 混合变量类型的相似性评估方法
    • 余弦相似性的应用与计算方法

1 引论

什么是数据挖掘

在这里插入图片描述

数据挖掘的过程

  1. 数据清理(占60%的工作量)
  2. 数据整合(整合来自多个数据源的数据)
  3. 数据筛选(提取与任务相关的关键数据)
  4. 数据转换(转换为更适合数据分析的形式)
  5. 数据挖掘
  6. 模式评估(采用质量标准进行评估)
  7. 知识呈现(通过可视化方式展示分析结果)

1.3 可以挖掘什么类型的数据

  • 数据库中的信息
  • 数据存储库(主要采用层次化模型构建:三维矩阵)
  • 事务记录(每个条目代表一个交易行为)
  • 等等。

2 认识数据

2.1 数据对象与属性类型

数据集 由数据对象组成
一个数据对象 代表一个实体

2.1.1 属性

属性 是一个数据字段,表示数据对象的一个特征

2.1.2 标称属性 nominal

值是一些符号或事务的名称。枚举的

2.1.3 二元属性 binary

对称:两种状态具有相同价值并且相同权重。
非对称:这种状态的结果在重要性上存在差异。

2.1.4 序数属性

取值之间有意义的序或秩评定,但是相继值之间的差是未知的

2.1.5 数值属性

  • 该种测量采用一致的单位尺度进行评估,例如使用温度计。
    • 这种属性具有绝对零点的数值特征,并以绝对温标为例。

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

数据的中心趋势度量:

  • 平均数 average (weighted average, trimmed average: remove portions from the extremes)
  • median is the middle value in a dataset
  • mode与average之间的差距等于3倍的(average减去median)
  • mid-range是最高与最低数值的平均.若mode小于mid-range则表示正偏态
在这里插入图片描述

数据的散布:

  • 范围 range
  • 四分位数值 quartiles
  • 四分位间距 interquartile range (IQR)
  • 五点统计 summary of five points (包括最小值、第一四分位数、中位数、第二四分位数和最大值)
  • 箱线图 box plot
在这里插入图片描述
  • 方差和标准差

2.2.3 数据的基本统计描述的图形表示

  • 直方图
  • 分位数图 quantile plot
  • 分位数-分位数图
  • 散点图 scatter plot

2.3 数据可视化

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵和相异矩阵

  • 数据矩阵:对象-属性矩阵
在这里插入图片描述
  • 相异矩阵:对象-对象矩阵,存放n个对象两两之间的临近度
在这里插入图片描述

d(i, j) = d(j, i)
sim(i, j) = 1 - d(i, j)
数据矩阵是二模矩阵,相异矩阵是单模矩阵

2.4.2 标称属性的邻近性度量

不匹配率:d(i, j) = 1 - m / p

2.4.3 二元属性的邻近性度量

  • 对称的二元相异性 (10)+(01) / 所有
  • 非对称的二元相异性 (分母无00)

2.4.4 数值属性的邻近性度量

在这里插入图片描述
- L1范数(曼哈顿距离)

2.4.5 序数属性的邻近性度量

在这里插入图片描述

2.4.6 混合属性的邻近性度量

在这里插入图片描述

2.4.7 余弦相似性

cos(d1, d2) = (d1  d2) / ||d1|| ||d2||

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~