数据挖掘学习------------------4-分类方法-1-基本概念
4.1基本概念
1、数据挖掘中的分类的目的
该系统旨在生成一个分类器,能够将数据库中的数据项对应至预设的类别之一。
例如:可将其分为上涨和下跌两种类型。从而能够选择属于上涨类别的股票进行交易。
2、分类描述
①训练数据(训练集)通常由一个个独立的存储单元构成。
②每个记录中包含多个属性值,并形成一个特征向量。
③每个训练样本都对应一个明确的目标类别。
④这些目标类别信息作为系统输入被接收。
⑤具体而言,在数学表达式中,则是一个样本被定义为向量形式:(v₁, v₂, ..., vₙ;c),其中每个变量vᵢ代表各个字段的具体数值取值...
3、分类的目的:
①解析输入数据以提取其在训练集中体现出来的特征属性,并为每个类别构建一个精确描述或模型。
②基于生成的类别描述对未来的测试样本进行分类判断。
③由于未来测试样本的真实类别标签尚未明确确定,
因此可以通过上述方法推断其所属类别,
特别指出这种推断过程并非绝对确定。
4、分类定义:
从现有数据中提取特征并建立相应的模型或规则体系,在此过程中将每个属性集x对应到预先设定的类别标签y上。
目标函数或规则也称为分类模型,它有两个主要内容。
①一个是描述性建模,即作为解释性工具,用于区别不同类中的对象。
②另一个是预测性建模,即用于预测未知记录的类标号。
5、分类的原理
必须有一个训练集包含已知类别标记的记录。
通过该训练集可以构建分类模型。
应用于检验数据集中样本具有未知类别标记。

6、训练模型分类
①分类规则形式
②决策树形式或数学公式形式。
例如:以顾客信用信息数据库为例,在经过学习后获得的分类规则可用于判断其 credit状况属于良好类别或一般类别。
7、构造模型的过程
两个阶段:①训练、②测试
在构造模型之前,要求将数据集随机地分为训练数据和测试数据。
(1)在训练阶段
①首先利用训练数据集进行分析,在基于属性描述的数据库元组上构建模型。假设每个元组被归类于预定义的一组类别中的某一个,并且其分类依据是由称为类标签属性的一个特定属性决定。
在训练数据集中,单个元组也可称为训练样本。其形式可表示为(u₁, u₂, …, uₙ;c),其中每个ui代表属性值,而c代表类别标签。
③由于提供了每个训练样本的类标号,该阶段也称有指导的学习。
④模型以分类规则、判定树或数学公式的形式提供。
(2)在测试阶段
①使用测试数据集来评估模型的分类准确率。
②如果认为模型的准确率可以接受,就可以用该模型对其他数据进行分类。
③一般测试阶段的代价远远低于训练阶段。
8、预处理
在分类之前,对数据进行预处理:
0,1
9、常用的分类方法
常用的共7种:
①K-紧邻(KNN)
②贝叶斯分类
③神经网络
④逻辑斯谛(Logistic)
⑤判别分析
⑥支持向量机(SVM)
⑦决策树
后面章节一一介绍。
