k均值聚类算法优缺点_K-均值聚类算法(K-Means)

阅读量：

一种无监督学习方法称为k均值聚类（k-means），它专门用于分析未预先分组的数据集（即没有被指定类别或群组标识的数据）。k均值算法的主要目标是识别出数据中具有代表性的k个群组（其中k是一个预先设定的参数）。为了实现这一目标，该算法通过反复利用提供的特征信息来进行迭代优化，在每一步都将每个样本分配至这k个簇中的某一个。根据样本之间的相似度特性来进行分组。最终得到的k均值聚类结果是：

1.K簇的质心，可用于标记新数据

2.训练数据的标签（每个数据点分配给一个集群）

一、k-means简述

1、聚类

"类别"是指具有相似特征的群组；"聚类"则是指将待处理的数据按照某种标准划分为若干类别；使得同一类别内的数据尽可能地相似；而不同类别之间的数据差异较大；这样的过程属于无监督学习范畴；而"聚类分析"则是一种基于相似性度量的方法；它旨在使同类别的对象在属性空间中具有较高的相似度；而异类别的对象则呈现出较大的差异性。

2、K-Means

对样本集D = {x1,x2,…,xm}.K-Means算法就是针对聚类划分C = {C1,C2,…,Ck}最小化平方误差；

其中

$μ_{i}$ 表示的是数据集中的第 $i$ 个簇 $C_{i}$ 的所有样本点的均值向量。通过分析下面所述的公式（1），可以看出该公式反映了数据点在围绕其所在簇中心（即均值向量）分布的情况。其中 $J(C_{i}, μ_{i})$ 的具体计算方法如式（1）所示： $J(C_{i}, μ_{i}) = \frac{1}{|C_{i}|} \sum\limits_{x∈C_i} ||x - μ_i||^2$ 当 $J(C_{i}, μ_{i})$ 较小时，则表明同一簇中的样本之间具有较高的相似性。

基于最小二乘法和拉格朗日乘数法原理的基础上，在每个类别中取所有数据点的算术平均作为各类别聚类中心的位置参数，并以确保算法收敛为目标，在迭代过程中要求最终确定的各类别聚类中心保持稳定不变

三、工作流程

随机选取K个样本作为聚类中心；

计算各样本与各个聚类中心的距离；

将各样本回归于与之距离最近的聚类中心；

求各个类的样本的均值，作为新的聚类中心；

当类中心不再变化或达到预设迭代次数时，则算法终止；否则返回第二步

四、k-means算法的描述如下

每当某一点的聚类分配结果发生变化时，在整个数据集中依次针对每个质心计算其与对应数据点之间的距离，并根据这些距离将该数据点重新分配到最近的那个簇中；接着在每一个新的簇中重新计算其成员的所有平均位置，并将此平均位置作为新的质心位置

二、wine数据集的红酒K-Means聚类

导入数据

数据预处理

数据聚类

（1）对比真实标签和聚类标签求取FMI

（2）在聚类数目为2~10类时，确定最优聚类数目

数据越接近1更好所以由上图可得聚类最优为3类，与k-means聚类结果相同

全部评论 (0)

还没有任何评论哟~

k均值聚类算法优缺点_K-均值聚类算法(K-Means)

Kmeans是一种无监督学习，对未标记的数据（即没有定义类别或组的数据）进行分类。该算法的目标是在数据中找到由变量K标记的组。该算法迭代地工作基于所提供的特征，将每个数据点分配给K个组中的一个。基于特...

k均值聚类算法优缺点_六、K-means（均值聚类）

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。它有点像全自动分类。聚类与分类的最大不同在于，分类的目标事先已知，而聚类则不一样。因为其产生的结果与分类相同，而只是类别没有预先定义。聚类方法几乎...

Python实现k均值聚类算法_K-Means聚类算法

Python实现k均值聚类算法KMeans聚类算法若想快速了解k均值聚类算法KMeans聚类算法，可参考这位大佬的文章，通俗易懂：k均值聚类算法考试例题KMeans聚类算法，作者：weixin397...

k均值聚类算法优缺点_聚类（二）：k-means、GMM与EM算法

上一篇聚类（一）中我们探究了度量相似性的不同方式，了解不同的相似性定义会引导我们得到不同的聚类结果，那么具体是怎么引导的，不同的相似性是怎么发挥作用的呢，这就是我们这里要探究的聚类算法。

k均值聚类算法优缺点_机器学习实战项目- K-Means（K-均值）聚类算法

KMeans算法聚类是一种无监督的学习,它将相似的对象归到一个簇中,将不相似对象归到不同簇中. 相似这一概念取决于所选择的相似度计算方法. KMeans是发现给定数据集的K个簇的聚类算法,之所以称之...

K-均值聚类（K-means）算法

聚类算法，是一种无监督的学习方法，他将相似的对象归到统一簇中，簇内的对象越相似，聚类效果也就越好，我们用簇识别表示给出聚类结果的含义。他有点像全自动分类，假定有一些数据，现在将相似数据归到一起，簇识别...

k均值聚类算法考试例题_K-means 聚类算法

1\.Kmeans聚类算法的基本原理 Kmeans是无监督学习的代表，没有所谓的Y。主要目的是分类，分类的依据就是样本之间的距离。比如要分为K类。步骤是： 1.随机选取K个点。 2.计算每个点到K个质...

k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题)

?算法：第一步：选K个初始聚类中心，z11,z21，…，zK1，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个. k均值聚类：一种硬聚类算法，隶属度只...

k-均值聚类算法_聚类算法-K-均值算法

k均值聚类算法聚类算法K均值算法ClusteringAlgorithmsKmeansAlgorithm KMeans算法简介IntroductiontoKMeansAlgorithm Kmeansc...

算法——K-均值聚类K-Means Clustering

K均值聚类KMeansClustering是一种经典的无监督学习算法，用于将数据集分成K个不同的簇。其核心思想是将数据点根据距离的远近分配到不同的簇中，使得簇内的点尽可能相似，簇间的点尽可能不同。

是否确定退出登录?

k均值聚类算法优缺点_K-均值聚类算法(K-Means)

全部评论 (0)

相关文章推荐

k均值聚类算法优缺点_K-均值聚类算法(K-Means)

k均值聚类算法优缺点_六、K-means（均值聚类）

Python实现k均值聚类算法_K-Means聚类算法

k均值聚类算法优缺点_聚类（二）：k-means、GMM与EM算法

k均值聚类算法优缺点_机器学习实战项目- K-Means（K-均值）聚类算法

K-均值聚类（K-means）算法

k均值聚类算法考试例题_K-means 聚类算法

k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题)

k-均值聚类算法_聚类算法-K-均值算法

算法——K-均值聚类K-Means Clustering