机器学习与数据挖掘学习笔记（3）聚类

阅读量：

目录

一、聚类的定义

二、模型的性能度量

三、常见的聚类算法

四、K-means

五、层次聚类法

六、基于密度的聚类方法

一、聚类的定义

聚类其本质是通过分析和组织处理庞大的数量未知标注的数据集合,依据其固有的特征将其分组为若干个类别.这种分类方法的核心目的是实现同类内部样本高度相似化以及不同类别之间的样本显著差异化,从而提高数据分析的有效性和准确性.

在我们之前的课程中学习过，在这些有监督的学习任务中涉及到了分类和回归两种技术；相比之下，在无监督学习场景下进行的数据分析则被称为聚类分析。其提供的训练数据集中的每个样本都有对应的标签信息；而其提供的数据集中每个样本都没有预设或指定的目标标签。

二、模型的性能度量

为了辨别不同聚类模型之间的优劣差异, 建立一套科学合理的评估标准是必要的.

聚类性能指标一般有如下指标：

1、准确率

Acc=rac{N_{cor}}{N}

其中

N_{cor}

代表正确聚类的数据个数，N代表数据的总个数

2、纯度

Purity=rac{1}{N}um_kathop{athbb{ax}}imits_{j}|mega_kap c_j|

其中N代表数据的总个数，

mega_k

代表第k个聚类簇，

C=c_1,c_2,...,c_N

是数据集合，

c_j

代表第j个数据

3、归一化互信息

互信息是至两个变量的关联程度，计算公式如下：

egin{align} I&=um_kum_jPlograc{P}{PP} onumber I&=um_kum_jrac{|w_kap c_j|}{N}log rac{N|w_kap c_j|}{|w_k||c_j|} onumber nd{align}

标准互信息是将互信息归一化，通常是除以最大熵

egin{align} NMI&=rac{I}{+H/2} onumber H&=-um_k PlogP onumber &=um_k rac{|w_k|}{N}lograc{|w_k|}{N} onumber nd{align}

4、兰德指数

RI=rac{TP+TN}{TP+FP+TF+FN}=rac{TP+TN}{C_N^2}

其中TP、TN、FP、FN的含义如下表所示：

真实值	预测值
正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

5、精准率、召回率、F-messure

精准率：

Precision=rac{TP}{TP+FP}

召回率：

Recall=rac{TP}{TP+FN}

F-messure：

F-messure=rac{2imes Precisionimes Recall}{Precision+Recall}

三、常见的聚类算法

k-means
层次聚类
密度聚类

四、K-means

K均值算法是一种非常常见的聚类算法。

其核心思路在于最初随机选择k个样本作为簇心，并通过迭代过程逐步优化这些簇心的位置以实现数据聚类的目标。具体而言，在每一轮迭代中首先计算每个待分类样本与所有现有簇心之间的距离，并将其归入与其最近的簇心所属的类别中；接着重新确定每个簇类的新中心位置；并根据新确定的位置更新各簇心坐标值，并重复以上步骤直至算法收敛为止。

算法的原理非常简单，实现起来非常容易，需要给定的参数只有k的值。

但是难以准确确定k值的选择，在处理具有空间信息的结构性样本时效果欠佳；而这些初始选定的k值对聚类结果会产生显著影响。

五、层次聚类法

层次聚类的方法不是预先将其划分为 $K$ 个簇，并不是让每个样本都单独成一个簇

然后计算各个簇之间的距离，将最近的两个簇合并为一个新的簇。

然后重新计算各个簇之间的距离，直到最后合并只剩下一个簇。

其聚类效果如下图所示：

六、基于密度的聚类方法

该方法基于数据样本集合在其空间分布密度上的分析实现聚类过程，在无需预先指定簇的数量的前提下可自动确定簇的形态和数量。这些算法通过分析数据的空间特征自动确定簇的数量，并且能够有效处理噪声点和非凸形状的数据集。

首先介绍一些基本概念：

arepsilon

邻域：以给定对象为圆心，半径为

arepsilon

的邻域为该对象的

arepsilon

邻域。

核心对象：若

arepsilon

如果某个区域包含至少MinPts个对象，则该区域被称为核心区域。

直接密度可达：如果存在一条由多个点组成的链路。

p_1,p_2,...,p_n,p_1=q,p_n=p

，对于

p_in D

，

p_{i+1}

是

p_i

从关于

arepsilon

和MinPts直接密度可达的，则对象p是从对象q关于

arepsilon

和MinPts直接密度可达的。

密度可达：如果存在对象

on D

，使得对象p和q都是从

关于

arepsilon

和MinPts密度可达的，那么对象p到q是关于

arepsilon

和MinPts密度可达的。

DBSCAN算法的基本步骤如下：

主要依赖于数据本身的分布情况，并无需预先设定类别数量；此外，在处理结构性的空间信息数据方面表现出色；同时能够有效地应对噪声数据。

但是主要缺陷是高度依赖基于距离计算规则的选择，在面对高维数据的情形下可能会受到无关维度的影响。

全部评论 (0)

还没有任何评论哟~

机器学习与数据挖掘学习笔记（3）聚类

目录一、聚类的定义二、模型的性能度量三、常见的聚类算法四、Kmeans 五、层次聚类法六、基于密度的聚类方法一、聚类的定义聚类就是将大量未知标注的数据集按照数据本身的特点将数据集划分为多...

机器学习与数据挖掘学习笔记（1）分类

数据挖掘即研究如何从大量数据或者数据库中提取有用信息。而机器学习则是数据挖掘的一种方法，是研究计算机如何模仿人类的思维方式进行学习。一个非常有名的例子详细大家都听说过，就是沃尔玛在分析研究人们购物...

机器学习与数据挖掘学习笔记（5）关联挖掘

目录一、关联挖掘的定义二、关联规则 2.1规则的定义 2.2评估规则的度量三、频繁项集 3.1项集 3.2支持度计数 3.3支持度 3.4频繁项集四、频繁项集产生算法 4.1Apriori算法...

数据挖掘/机器学习之聚类

聚类：对点集进行考察并按照某种距离测度将他们聚成多个簇的过程，目标是使得同一个簇内的点之间距离比较短，不同簇中点的距离较大一般是从给定的数据中发现簇，尤其是大数据量及高维空间或非欧空间点集是一种适...

机器学习与数据挖掘笔记

机器学习与数据挖掘复习笔记绪论（Introduction）什么是机器学习? “机器学习是对能通过经验自动改进的计算机算法的研究”。为什么研究机器学习？设计更好的计算系统认知科学（Cognit...

数据挖掘学习笔记(3)

常见的数据融合方法有：静态的融合方法，如加权最小平方等；动态的融合方法，如递归加权最小平方、卡尔曼滤波、小波变换的分布式滤波等；基于统计的融合方法，如马尔可夫随机场、最大似然法、贝叶斯值等；基于信息论...

数据挖掘学习笔记--聚类分析（一）

聚类（clustering）是将物理或抽象对象的集合分成相似的对象类或簇的过程，是无监督学习【unsupervisedlearning】。 \基于划分 kmeans基本K均值方法方法： 1.选择K个...

【数据挖掘学习笔记】8.聚类基础

一、聚类分析基础什么是聚类分析？ –将物理或抽象对象的集合分成相似的对象类的过程称为聚类 –在同一个聚类（簇）中的对象彼此相似 –不同簇中的对象则相异聚类分析的作用 –分类是人类认知世界的重要活动...

机器学习与数据挖掘学习笔记（2）回归

目录一、回归定义二、回归的评估指标三、回归模型的常用方法四、线性模型五、神经网络 5.1MP神经元模型 5.2单层感知机 5.3多层前馈神经网络 5.4深度神经网络六、最近邻学习一、回归...

数据挖掘与机器学习实验：聚类算法

实验六：聚类算法一、实验名称实验：聚类算法二、实验目的 1.了解聚类算法理论基础 2.平台实现算法 3.编程实现聚类算法三、实验原理聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很...