Advertisement

《数据挖掘导论》学习笔记-离散化

阅读量:

什么是离散化:

将连续属性的数据范围按照一定规则划分为多个区间段;接着使用特定符号或整数来标识落在每个区间的属性值

为什么要离散化

将连续属性转化为离散形式以简化其结构是其主要目的之一。该技术有助于降低连续属性值的数量,并在实际应用中常被用作数据分析处理的方法。通常情况下认为连续变量服从正态分布,在这种假设下可能需要使用特定的数据分析方法。然而通过离散化处理减少了对变量分布情况的前提假设,并且在某些情况下这种转换能带来更好的分析效果。

离散化的技术

基于数据是否包含类别信息可以把它们划分为 有监督的数据无监督的数据 。在进行离散化处理时,有监督的方法会考虑到数据中的类别信息(即分类标签),而无监督的方法则无需考虑这一点。

1、非监督离散化

在进行无监督离散化处理时,并未考虑数据中的类别信息特征;其输入数据集仅包含待分类属性的具体取值信息。采用等频率法、等间距法以及K均值法属于无监督型的主要方法;其中采用等频率和K均值算法的方案更为科学合理。

等宽离散化

如图是一个原始的数据分布图:

使用等宽离散化对数据进行划分的话如下图:

但是值得注意的是 在5至10的数据区间内呈现的数据频次显著高于其后10至15区间的频次 因此可以得出结论 等宽算法作为最基础且无需人工干预的离散化技术方案 它通过设定参数K 在数值属性值域Xmin至Xmax范围内均匀划分为K个子区域 每个子区域宽度相等 即其宽度则统一确定为整个范围长度与K的比例 (Xmax - Xmin)/K 这种方法能够确保每个子区域之间的间距一致 从而简化了后续的数据处理流程 但在面对数据分布呈现高度不均匀性或存在极端异常值的情况下 避免直接应用默认采用等宽划分策略可能会导致信息丢失或模型性能下降

等频率离散化

使用等频率离散化对数据进行划分的话如下图:

我们可以发现510区间上数据出现的频率与1015区间上的出现频率大致相等。

K均值离散化

K-means clustering is a widely applied data clustering algorithm. Once the user specifies the number of intervals K generated by discretization, the K-means algorithm initially selects K data points from the dataset as the centroids of the initial intervals. Based on Euclidean distances from these centroids, all objects are to be clustered: if data point x is closest to centroid Gi, then it is assigned to the interval represented by Gi. After assigning all objects, new centroids are calculated for each interval and used to re-cluster all samples. This process repeats until there are no more changes in centroids across iterations.

K均值离散化划分数据的图如下:

2、监督离散化

非监督离散化的效果优于不离散化的方案,在数据中包含类别信息(类标号)时会表现出更优的效果。其中,** 基于熵** 的方法是最具前景的离散化方案之一。

首先阐述熵的概念:令k代表不同类别的总数(即数据类型数量),而m_i则表示划分为n个子集中实例的数量。具体而言,在第i个子集中标记为j的不同类别实例的数量记作m_{i,j}。每个子集所对应的熵计算公式为:

其中p[i,j]=m[i,j ]/m[i]表示第i个区间中数据种类为j的值出现的概率(值的比例)。

而划分的总熵e是每个区间熵的加权平均:

w[i]是第i个区间的值占所有区间中值的比例,n是区间的总个数。

我们来举个例子,如图:

在上图中,数据种类有两种(实心、空心),数据分布区间有三个。

在第一个公式中:其中k=2代表两种不同的数据类型。p[1,1]具体表现为在第一区间内出现"空心类型"实例的概率值;而e[1]则具体表现为第一区间内的熵的具体数值。

在第二个公式中进行分析时发现:当n等于3时(即存在三个区间)。其中w₁代表第一个区间涵盖的所有数值与总共有多少个数值之间的关系。

参考文章:https://stat.skku.ac.kr/myhuh/homepage/specialLectures/SDULecture(Chinese).pdf

全部评论 (0)

还没有任何评论哟~