Advertisement

文本数据挖掘----初识数据挖掘

阅读量:

一、数据挖掘的内容

1、关联规则挖掘

(1)关联规则挖掘工作内容

关联规则挖掘是一种用于识别数据源中有趣关联的技术。它旨在从大量数据中发现频繁出现的相关模式,并揭示这些模式之间的关系

识);可以帮助许多决策的制定。

2、非监督式机器学习-聚类

(1)处理数据的类型

处理的是没有事先标记分类的数据。

(2)常见的五种聚类算法

①K-means;

②Hierarchical;

③GMM;

④DBSCAN(基于密度的聚类算法);

⑤基于网格Grid的聚类算法;

3、监督式机器学习

(1)监督式机器学习解释

可以由训练数据中学习或构建一个模板函数 / learning model),并据此模型推断出新的结果

例。此例中,训练资料包含输入物件(多为向量形式)及预期输出。该函数输出表现为一个连续的值。

被称作回归分析;也可以用于预测一个分类标签也被称作分类任务

(2)监督式机器学习工作内容

①离散标签预测——标签分类;

②连续标签预测­——数值预测;

4、回归

(1)回归解释

回归分析是一种用于预测所有连续数值属性的监督机器学习技术。该技术有助于任何业务组织进行数据分析。

目标变量和预测变量的关系。

二、认识数据

1、数据类型和统计

(1)数据对象

每个数据对象对应于一个实体;这些数据对象共同构成了若干个完整的数据集。

(2)属性的类型

①标称型数据(具有可列举状态的数据),如类别变量与状态变量等。在特殊情况下涉及二元数据的情形。

(常见的仅包含两种状态的数据),其中二元型数据又被划分为对称二元型数据(其两种状态的数量)

规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);

②序数类型数据:通常有一个有意义的顺序;

③区间标注属性:通常没有零点,所以它的倍数没有意义;

比率量纲属性:具有绝对零点的数量属性,在顺序上可排列且可进行比例运算;例如长度、重量等。

2、数据统计汇总

(1)中性化趋势度量

均值、中位数和众数;

(2)分布趋势度量

三、数据可视化

1、箱线图分析

(1)箱线图功能

箱线图能够分析多个属性数据的分布差异性。

(2)箱线图例

2、直方图分析

(1)直方图的功能

用来分析单个属性在各个区间的变化分布。

(2)直方图例

3、散点图分析

(1)散点图的功能

用来显示两组数据的相关性分析(正相关和负相关以及不相关)。

(2)散点图例

四、数据相似性

1、度量数据的相似性和相异性

(1)数据矩阵

N个数据,p个维度;

(2)相异矩阵

N个数据点,记录两点之间的距离,是三角矩阵;

(3)度量数据的三个特性描述

2、标称属性的邻近性度量

(1)标称属性描述

标称属性可以取两个或者多个状态;

方法:简单匹配;

(2)邻近性度量的计算方法

d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;

例:

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

3、二值属性的邻近性度量

该变量q代表两人的测试(即后续六项)均为阳性(以Y或P标记)的数量是多少;

(2)这里的r就是表示其中Jack是Y或P,而Marry是N的有多少;

(3)这里的s表示Jack是N,而Marry是Y或者P的有多少;

(4)t表示两个都是N的有多少个;

4、几个重要的距离描述

(1)闵可夫斯基距离

(2)曼哈顿距离

(3)欧氏距离

(4) 上确界距离

全部评论 (0)

还没有任何评论哟~