文本数据挖掘----初识数据挖掘
一、数据挖掘的内容
1、关联规则挖掘
(1)关联规则挖掘工作内容
关联规则挖掘是一种用于识别数据源中有趣关联的技术。它旨在从大量数据中发现频繁出现的相关模式,并揭示这些模式之间的关系
识);可以帮助许多决策的制定。
2、非监督式机器学习-聚类
(1)处理数据的类型
处理的是没有事先标记分类的数据。
(2)常见的五种聚类算法
①K-means;
②Hierarchical;
③GMM;
④DBSCAN(基于密度的聚类算法);
⑤基于网格Grid的聚类算法;
3、监督式机器学习
(1)监督式机器学习解释
可以由训练数据中学习或构建一个模板(函数 / learning model),并据此模型推断出新的结果
例。此例中,训练资料包含输入物件(多为向量形式)及预期输出。该函数输出表现为一个连续的值。
被称作回归分析;也可以用于预测一个分类标签也被称作分类任务
(2)监督式机器学习工作内容
①离散标签预测——标签分类;
②连续标签预测——数值预测;
4、回归
(1)回归解释
回归分析是一种用于预测所有连续数值属性的监督机器学习技术。该技术有助于任何业务组织进行数据分析。
目标变量和预测变量的关系。
二、认识数据
1、数据类型和统计
(1)数据对象
每个数据对象对应于一个实体;这些数据对象共同构成了若干个完整的数据集。
(2)属性的类型
①标称型数据(具有可列举状态的数据),如类别变量与状态变量等。在特殊情况下涉及二元数据的情形。
(常见的仅包含两种状态的数据),其中二元型数据又被划分为对称二元型数据(其两种状态的数量)
规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);
②序数类型数据:通常有一个有意义的顺序;
③区间标注属性:通常没有零点,所以它的倍数没有意义;
比率量纲属性:具有绝对零点的数量属性,在顺序上可排列且可进行比例运算;例如长度、重量等。
2、数据统计汇总
(1)中性化趋势度量
均值、中位数和众数;

(2)分布趋势度量

三、数据可视化
1、箱线图分析
(1)箱线图功能
箱线图能够分析多个属性数据的分布差异性。
(2)箱线图例

2、直方图分析
(1)直方图的功能
用来分析单个属性在各个区间的变化分布。
(2)直方图例

3、散点图分析
(1)散点图的功能
用来显示两组数据的相关性分析(正相关和负相关以及不相关)。
(2)散点图例

四、数据相似性
1、度量数据的相似性和相异性
(1)数据矩阵
N个数据,p个维度;
(2)相异矩阵
N个数据点,记录两点之间的距离,是三角矩阵;
(3)度量数据的三个特性描述

2、标称属性的邻近性度量
(1)标称属性描述
标称属性可以取两个或者多个状态;
方法:简单匹配;
(2)邻近性度量的计算方法
d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;
例:


3、二值属性的邻近性度量

该变量q代表两人的测试(即后续六项)均为阳性(以Y或P标记)的数量是多少;
(2)这里的r就是表示其中Jack是Y或P,而Marry是N的有多少;
(3)这里的s表示Jack是N,而Marry是Y或者P的有多少;
(4)t表示两个都是N的有多少个;
4、几个重要的距离描述
(1)闵可夫斯基距离

(2)曼哈顿距离

(3)欧氏距离


(4) 上确界距离


