Advertisement

【数据挖掘】壹 · 数据度量及预处理

阅读量:

目录

  1. 区间标度变量
  2. 二元变量
  3. 标称变量
  4. 序数型变量
  5. 比例标度变量
  6. 混合类型变量

1 区间标度变量

区间标度变量是一个粗略线性标度的连续度量,一般有单位描述。

数据规范化
有以下几种方法:

  • 最小-最大规范化 ,又称离散标准化,是对原始数据进行线性变换。这种方法保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。
    假设将一组数据xx映射到[a, b][a, ~b]范围里:x∗=x−MinMax−Min⋅(b−a)+ax^{}=\frac{x-Min}{Max-Min}·(b-a)+a其中Min、MaxMin、Max为数据xx的最小值和最大值。当a=0,b=1a=0,b=1时,将数据映射到区间[0, 1][0,~1]内:x∗=x−MinMax−Minx^{}=\frac{x-Min}{Max-Min}

  • 小数定标规范化 :通过移动属性的小数点位置规范化属性范围,属性A的规范化计算方法为:x∗=x10Tx{*}=\frac{x}{10T}其中,T的取值约束为:max(∣Zif∣)<1max(|Z_{if}|)<1的最小整数。
    目的:将属性值缩到小的特定区间[−1,1][-1,1]之间。

  • Z-score规范化 (最常用):x∗=(x−μ)/δx^{*}=(x- μ)/δ其中μμ为均值,δδ为标准差。

对象间相异度
对象间相异度一般来说是基于距离的度量,常见的距离计算公式有:

  • 欧几里得距离 :d12=(x1−x2)2+(y1−y2)2d_{12}=\sqrt{(x_1-x_2)2+(y_1-y_2)2}
  • 曼哈顿距离 :d12=∣x1−x2∣+∣y1−y2∣d_{12}=|x_1-x_2|+|y_1-y_2|
  • 切比雪夫距离 :d12=max(∣x1−x2∣, ∣y1−y2∣)d_{12}=max(|x_1-x_2|,~|y_1-y_2|)
  • 汉明距离 :相同位上字符不同的个数。(例如:aaaa和bbba之间的距离为3)

2 二元变量

计算机中一个二元变量有两种状态:0或1。一个对象可以包含多个二元变量。
在这里插入图片描述

对称二元变量
对于两个状态具有同等价值并且携带相同的权重 ,对称二元变量的相似度称为恒定的相似度。
评估相异度:简单匹配系数 :d12=b+ca+b+c+dd_{12}=\frac{b+c}{a+b+c+d}

非对称二元变量
对于两个状态具有不同等价值并或携带不同的权重,或者说偏爱某个状态 ,非对称二元变量的相似度称为非恒定的相似度。
评估相异度:Jaccard距离
d12=b+ca+b+cd_{12}=\frac{b+c}{a+b+c}

3 标称变量

标称变量是二元变量的推广,它可以具有多于两个的状态值。必须:红、黄、蓝、绿。(值之间的排列顺序不重要)

4 序数型变量

序数型变量可以使连续的,也可以是离散的。
序数型变量的值之间是有顺序关系的,比如:讲师、副教授、教授。

5 比例标度变量

总是取正的度量值,有一个非线性的标度,近似的遵循指数标度,比如 AeBt or Ae−BtAe{Bt}~or~Ae{-Bt}。
比例标度变量的比值是有意义的。

6 混合类型的变量

现实世界中,数据对象不是被一种类型的度量所描述,而是被多种类型混合的度量所描述。(上面那几种混合起来)

全部评论 (0)

还没有任何评论哟~