Advertisement

数据挖掘学习------------------4-分类方法-1-基本概念

阅读量:

4.1基本概念

1、数据挖掘中的分类的目的

该系统旨在生成一个分类器,能够将数据库中的数据项对应至预设的类别之一。

例如:可将其分为上涨和下跌两种类型。从而能够选择属于上涨类别的股票进行交易。

2、分类描述

①训练数据(训练集)通常由一个个独立的存储单元构成。

②每个记录中包含多个属性值,并形成一个特征向量。

③每个训练样本都对应一个明确的目标类别。

④这些目标类别信息作为系统输入被接收。

⑤具体而言,在数学表达式中,则是一个样本被定义为向量形式:(v₁, v₂, ..., vₙ;c),其中每个变量vᵢ代表各个字段的具体数值取值...

3、分类的目的:

①解析输入数据以提取其在训练集中体现出来的特征属性,并为每个类别构建一个精确描述或模型。

②基于生成的类别描述对未来的测试样本进行分类判断。

③由于未来测试样本的真实类别标签尚未明确确定,
因此可以通过上述方法推断其所属类别,
特别指出这种推断过程并非绝对确定。

4、分类定义:

从现有数据中提取特征并建立相应的模型或规则体系,在此过程中将每个属性集x对应到预先设定的类别标签y上。

目标函数或规则也称为分类模型,它有两个主要内容。

①一个是描述性建模,即作为解释性工具,用于区别不同类中的对象。

②另一个是预测性建模,即用于预测未知记录的类标号。

5、分类的原理

必须有一个训练集包含已知类别标记的记录。
通过该训练集可以构建分类模型。
应用于检验数据集中样本具有未知类别标记。

6、训练模型分类

①分类规则形式

②决策树形式或数学公式形式。

例如:以顾客信用信息数据库为例,在经过学习后获得的分类规则可用于判断其 credit状况属于良好类别或一般类别。

7、构造模型的过程

两个阶段:①训练、②测试

在构造模型之前,要求将数据集随机地分为训练数据和测试数据。

(1)在训练阶段

①首先利用训练数据集进行分析,在基于属性描述的数据库元组上构建模型。假设每个元组被归类于预定义的一组类别中的某一个,并且其分类依据是由称为类标签属性的一个特定属性决定。

在训练数据集中,单个元组也可称为训练样本。其形式可表示为(u₁, u₂, …, uₙ;c),其中每个ui代表属性值,而c代表类别标签。

③由于提供了每个训练样本的类标号,该阶段也称有指导的学习。

④模型以分类规则、判定树或数学公式的形式提供。

(2)在测试阶段

①使用测试数据集来评估模型的分类准确率。

②如果认为模型的准确率可以接受,就可以用该模型对其他数据进行分类。

③一般测试阶段的代价远远低于训练阶段。

8、预处理

在分类之前,对数据进行预处理:

0,1

9、常用的分类方法

常用的共7种:

①K-紧邻(KNN)

②贝叶斯分类

③神经网络

④逻辑斯谛(Logistic)

⑤判别分析

⑥支持向量机(SVM)

⑦决策树

后面章节一一介绍。

全部评论 (0)

还没有任何评论哟~