Advertisement

数据挖掘之数据准备

阅读量:

主要包含数值型与分类型的两类数据特征。其中数值特征主要由实数型变量与整数型变量构成,并且其取值范围具有明确的顺序关系以及间距关系。例如年龄、速度以及长度等指标都属于此类特征的表现形式。

  1. 离散型变数也被称作定性变数;这类变数采用两种非度量化的方法:名义方法和顺序方法。
    其中一种是非序列测度——即名义测度;它本身是没有顺序的;它通过符号、字符和数字标识被调查项目的不同且互不关联的状态。
    另一种则是序列测度——即顺序测度;这种测度则遵循一定的规律和分层结构。
    这些变数具有明确的方向性(大于/小于/相等),但无法测量两者之间的间隔程度。

在离散型变量中存在一类特殊的类型被称为周期变量其显著特征在于具有时间间隔的关系而非顺序排列的关系,并可列举如星期月份等实例

  1. 另一种数据分类维度是基于数据和时间相关的行为特性,一些数据不随时间的变化而变化,称为静态数据,也有随时间变化而变化的属性值,称为动态数据或时间数据,大多数数据挖掘方法更适合于静态数据,挖掘动态数据是,常常需要特殊的考虑和预处理
  2. 产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征,此外,这些样本往往是高纬度的,这就意味着他们有一朵的可测量特征
    7.高维数据的4个重要特性会影响输入数据和数据挖掘结果的解释
    A: 若数据集在n维空间中生成相同密度的数据点,则该数据集的大小随维数呈指数增长
    B: 在高维空间中,需要更大的半径才能放入一小部分数据点
    C: 在高维空间中,几乎每个点都比其他样本点更接近某一边界
    D: 几乎每个点都是异常点,当输入空间的维度增加时,预测点到分类点中心的距离也在增长
    8.原始数据的特性
    数据丢失有很多原因,有时候是因为测量或记录会出错,但是很多情况下,都无法获得数据的值,在数据挖掘过程中要处理这个问题,必须能根据已有的数据甚至是丢失的数据来建模
    是真数据、方法上错误的步骤选择、滥用数据挖掘工具、模型过于理想化、未考虑数据中各种不确定性和模糊性的模型,都可能导致数据挖掘过程中方向的错误

-1,1

  1. 数据平整
    数值型的特征y 可能包括许多不同的值,有时跟训练案例数一样多,多余许多的数据挖掘技术来说,这些值之间的微小区别并不重要,但可能会降低挖掘方法的性能,影响最终结果,很多简单的平整方法可以计算类似测量值的平均值,例如,如果数据值是有几位小数的实数,则把这些值圆整的为给定的精度就是应用于大量样本的一种简单平整算法
    11.差值和比率
    即使是对特征很小的改变,也能显著的提高数据挖掘的性能,对输入输出特征进行较小的转换,对数据挖掘目标的描述来说尤其重要
    在一个应用中,目标是改动对生产过程的控制,以获得最佳的设置,,不是优化输出s(t+1)的绝对值,而是设定从当前值到最终优化的相对改动量s(t+1)-s(t),
    比率是第二种简单的目标或输出特征转换方法,用s(t+1)/s(t)作为数据挖掘过程中的输出,意味着特征值的增减量也能提高整个数据挖掘过程的性能
    12.丢失数据
    对数据挖掘而言,即使数据量很大,具有完整数据的案例子集可能相对较小,可用的样本和将来的时间都可能有丢失值,一些挖掘方法可以接受丢失值,但是有的不能,最简单的解决方法时减小数据集,去除包含丢失值的所有样本,第二种方法是用一些常量自动替换丢失值,,比如用一个全局变量替换所有的丢失值、用特征平均值替换丢失值、用给定种类的特征平均值替换丢失值,第三种方法是数据挖掘者和领域内专家可手动检查缺值样本,再根据经验加入一个合理的、可能的、预期的值, 第四种方法是数据挖掘者可以生成一个预测模型,来预测丢失值
    13.时间相关数据
    实际的数据挖掘应用范围包括时间强相关、时间弱相关和时间无关问题,现实中的时间相关问题需要特殊的数据准备和数据转换,时间相关的案例通过目标和时延或大小为m的窗口来指定,汇总数据集的特征时,一种方法是取平均,得出“移动平均数”(MA),另一种平均数是指数移动平均数(EMA),它对最近的时间周期进行更大的加权,总之,时间序列的特征概括下来,主要成分包括A:当前值B:应用MA平整得到的值C:导出走向、差值和比率
    单变量的时间序列可以简单的延伸为多变量,尽管一些数据挖掘问题可以用单个时间序列来表示,但是现实问题中更常见的是混合使用序列和不依赖时间的特征,这种情况下,需要执行时间相关转换和属性概括的标准程序
    14.一些数据集并未明确包含时间成分,但是整个分析在时间域内(一般是基于被描述实体的几个日期属性)进行,这列数据及中有一种非常重要的数据,叫做幸存数据,幸存数据描述了某个时间需要多长时间才会发生
    15.幸存率函数:是幸存时间比t大的概率 故障率函数:是在t时刻之前机器零件故障没有出现故障,在t时刻故障发生的可能性
    16.异常点分析
    在大型的数据集中,通常有一些样本不符合数据模型的一般规则,这些样本和数据集中的其他数据有很大的不同或不一致,叫做异常点,异常点可能是由测量误差造成的,也可能是因为数据的固有可变性造成的
    许多数据挖掘算法师徒将异常点对最终模型的影响减到最小,或者在数据预处理阶段去除他们,异常点的检测方法可以检测出数据中的异常观察值,并在适当时去除它们,出现异常点的原因有机械故障、系统行为的改变、欺诈行为、人为错误、仪器错误或者样本总体的自然偏差
    异常点的检测主要包含两个步骤:1.找出“正常”行为的规律2.使用“正常”的规律来检测异常点
    异常点的检测方案主要类型有:A:图形或可视化技术 B:基于统计的技术 C:基于距离的技术 D: 基于模型的技术
    可视化方法在一到三维的异常点检测中很有用,但在多维数据中其作用就差多了
    基于统计的异常点探测方法可以分为一元方法和多元方法
    最简单的一元异常点探测方法都依赖一个假设:数据的基本分布是已知的、相同的、独立的,而且探测一元异常点的许多不太一致的检验进一步假定,分布参数和异常点的期望类型也是已知的
    阈值=均值+-2 * 标准差
    另一个以为方法是格拉布斯法(极度学生化偏差),计算属性的均值和分析值之差,然后除以属性的标准差,作为Z值,如果Z参数大于阈值,Z值就与表示异常点的1%或5%显著性水平相比较
    多元异常点探测的统计方法常常能指出远离数据分布中心的样本,可以使用几个距离度量值来完成
    基于距离的异常点检测方法,它去除统计方法的一些局限性,两者最重要的区别这种方法可用于多维样本,而大多数统计描述分析仅分析以为样本,即使分析几维样本,也是单独分析每一维
    维数增加时,数据点会散布在更大的空间中,其密度会减小,这样凸包就更难识别,称为维数灾
    基于模型的技术是第三种异常值检测方法,它定义样本集的基本特征,所有背离这些特征的样本都是异常样本,序列异常技术是一种基于相异度函数的可行方法,
    大多数异常点检测技术都只考虑连续的数值数据属性,而几乎不考虑分类数据,大多数方法都需要基数,或者至少是有序数据,才能计算向量距离,不能处理没有隐含顺序的分类数据

全部评论 (0)

还没有任何评论哟~