Advertisement

《数据挖掘导论》学习笔记-特征创建

阅读量:

基于现有的属性数据,我们可以生成一个新的属性集合。通常情况下,这个新集合中的元素数量可能会少于原有数据集中的特征数目。即实现降维目标。

创建新的属性的方法有三种:特征提取、映射数据到新的空间、特征构造

1、特征提取

定义:根据原有的数据自己创建新的属性集。

某些数据集包含了大量的属性信息,并且现有的特征提取技术通常专门针对特定领域的问题而设计,并不具备普遍性。因此在数据分析过程中需要进行高层次的抽象与概括,并以更高层次的方式提取和定义属性特征。例如,在图像分类任务中,我们可以通过分析图像中的人脸区域来提高分类算法的效果。

2、映射数据到新的空间

下图的时间序列是包含了3个时间序列的,

而3个时间序列中包含的其中2个时间序列如下图,他们频率分别是7HZ和17HZ,

第三个时间序列则是随机噪声。

对于第一个图中包含三个时间序列的数据而言,直接对其进行分析是无法实现的。为此建议我们对原始数据执行傅里叶变换,并计算其相应的功率频谱。例如,在图中展示了这一过程的结果。

图中的两个尖峰对于包含7HZ和17HZ的时间序列周期。

对于时间序列和其他类型的数据,小波变换也是有用的。

3、特征构造

在某些情况下,原有数据的特征无法直接应用到数据挖掘算法中.这时可以通过原有数据的特征生成新的特征指标.

以...为例,在此研究中存在一个数据集用于表示人工制品其属性包括人工制品的质量和体积。研究目标在于依据制造材料将这些人工制品进行分类在这一过程中我们可以关注(质量、体积)与密度之间的关系即基于(质量、体积)与密度的关系利用物体密度即可实现对此类物体的分类

全部评论 (0)

还没有任何评论哟~