mean shift聚类算法分析

阅读量：

最近看一个车道线识别的算法LaneNet，其中用到了mean shift进行聚类，然后研究了一下这个聚类算法，主要是从代码中了解的，简单记录一下自己的理解，防止以后忘记。meanshift code

使用mean shift聚类我们不用预先知道数据需要聚集为几类，算法会自动找出几个cluster。

随机数据

在开始使用mean shift算法之前先随机生成几蔟数据，方便后面验证聚类效果。

复制代码

 from sklearn.datasets import make_blobs

    
 data, label = make_blobs(n_samples=500, centers=5, cluster_std=1.2, random_state=5)

这样就生成500个数据，有5个类别，使用不同颜色显示出来，可以看到有两组数据很接近，后面可以看到算法的聚类效果。

mean shift聚类

1.首先找出可能是中心点的一些坐标，做法就是把所有的数据通过np.round规整为几十类，然后把这几十类中属于每个类的点的个数大于3的保留下来，这样筛选出来大概28组可能的中心点。其实还可以用其他的方法选择中心点，或者把每个数据都当做中心点也可以。

复制代码

   def get_seeds(self, data):

    
     if self.bin_seeding:
    
       binsize = self.band_width
    
     else:
    
       binsize = 1
    
     seed_list = []
    
     seeds_fre = defaultdict(int)
    
     for sample in data:
    
       seed = tuple(np.round(sample / binsize))
    
       seeds_fre[seed] += 1
    
     for seed, fre in seeds_fre.items():
    
       if fre >= self.min_fre:
    
     seed_list.append(np.array(seed))
    
     if not seed_list:
    
       raise ValueError('the bin size and min_fre are not proper')
    
     return seed_list
    
    
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-15/ndXs1cb4h7LkS9pJf3ZwHtvTUYl8.png)

2.对这些中心点一个一个进行聚类操作。

复制代码

    for seed in seed_list:

其他所有的数据中，找出所有与这个中心点的距离小于某个阀值的点的个数记为tmp_center_score，并且将所有的点以这个中心点为原点进行向量求和，从而得到新的中心点坐标，就是mean shift。
- 然后用更新后的坐标与更新前的坐标比较，如果他们之间的距离小于一个阀值，就表示已经达到了中心点而不用进一步移动了。

上面两个步骤重复进行，直到不用移动中心点为止

复制代码

 # 对每个中心坐标重复进行

    
       while True:
    
     next_center = self.shift_center(current_center, data, tmp_center_score)
    
     delta_dis = np.linalg.norm(next_center - current_center, 2)
    
     if delta_dis < self.epsilon:
    
       break
    
     current_center = next_center
    
  
    
 # 偏移的计算方法
    
   def shift_center(self, current_center, data, tmp_center_score):
    
     denominator = 0
    
     numerator = np.zeros_like(current_center)
    
     for ind, sample in enumerate(data):
    
       dis2 = self.euclidean_dis2(current_center, sample)
    
       if dis2 <= self.radius2:
    
     tmp_center_score += 1
    
       d = self.gaussian_kel(dis2)
    
       denominator += d
    
       numerator += d * sample
    
     return numerator / denominator
    
    
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-15/YbOqD6BF5gVptXT1Gl87Iam4wnAu.png)

通过高斯核函数来计算中心点的偏移，高斯核函数的公式如下，其中h就是band_width：

复制代码

   def gaussian_kel(self, dis2):

    
     return 1.0 / self.band_width * (2 * math.pi) ** (-1.0 / 2) * math.exp(-dis2 / (2 * self.band_width ** 2))

3.当中心点偏移好了后，跟已经做好了偏移的中心点进行比较，如果现在这个中心点的距离与之前已经偏移好的某个中心点的距离小于一个阀值band_width，然后判断这两个中心点谁的tmp_center_score更大，如果新的中心点的center score更大，就用新的中心点的信息替换旧的中心点信息。

复制代码

       for i in range(len(self.centers)):

    
     print(i)
    
     if np.linalg.norm(current_center - self.centers[i], 2) < self.band_width:
    
       if tmp_center_score > self.center_score[i]:
    
         self.centers[i] = current_center
    
         self.center_score[i] = tmp_center_score
    
       break
    
       else:
    
     self.centers.append(current_center)
    
     self.center_score.append(tmp_center_score)
    
    
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-15/SmpZU86YqXwTy7WD30rId1nNBVGx.png)

4.通过以上步骤就找到了所有中心点，然后对中心点进行聚类，每个点与某个中心点距离最小就属于这一类。

复制代码

   def classify(self, data):

    
     center_arr = np.array(self.centers)
    
     for i in range(self.N):
    
       delta = center_arr - data[i]
    
       dis2 = np.sum(delta * delta, axis=1)
    
       self.labels[i] = np.argmin(dis2)
    
     return

最后的结果如下：

从聚类结果可以看到效果还不错，重叠的那一类是无法分辨的，这个很正常，因为我们自己也无法分辨重叠的那两类的区别。

感觉上面的计算过程应该还可以优化，因为里面多次多数据进行了遍历，会导致效率不高。不过这个代码主要是为了理解mean shift聚类的过程，项目过程中我们更多会使用sklearn中的mean shift算法。

全部评论 (0)

还没有任何评论哟~

mean shift聚类算法分析

最近看一个车道线识别的算法LaneNet，其中用到了meanshift进行聚类，然后研究了一下这个聚类算法，主要是从代码中了解的，简单记录一下自己的理解，防止以后忘记。meanshiftcode 使用...

Mean Shift 聚类算法

MeanShift聚类算法一、meanshift算法理论 Meanshift算法是基于核密度估计的爬山算法，可用于聚类、图像分割、跟踪等，因为最近搞一个项目，涉及到这个算法的图像聚类实现，因此这里做...

图解Mean-Shift聚类算法

前期回顾 KMeans聚类算法—算法原理、质心计算、距离度量、聚类效果评价及优缺点与KMeans算法不一样的是，MeanShift算法可以自动决定类别的数目。与KMeans算法一样的是，两者都用集合...

Mean Shift+聚类

MeanShift+聚类 sklearn.cluster.MeanShift fromsklearn.clusterimportMeanShift importnumpyasnp X=np.array...

【聚类算法解析系列06】进阶聚类算法——谱聚类与Mean Shift

【聚类算法解析系列06】进阶聚类算法——谱聚类与MeanShift 引言：算法如何看见隐形结构当Facebook分析30亿用户的社交网络时，当达芬奇手术机器人分割肿瘤组织时，当Waymo自动驾驶汽车...

数据聚类：Mean-Shift和EM算法

目录 1\.高斯混合分布 2\.MeanShift算法 3\.EM算法 4\.数据聚类 5\.源码地址 1\.高斯混合分布在高斯混合分布中，我们假设数据是由多个高斯分布组合而成的。每个高斯分布被称为...

scikit-learn之聚类算法之Mean Shift

MeanShift算法通过更新质心的候选位置为所选定区域的偏移均值。然后，这些候选者在后处理阶段被过滤以消除近似重复，从而形成最终质心集合。算法流程 1、在指定的区域内计算偏移均值如下图的黄色的圈；...

聚类算法的缺点_深入剖析Mean Shift聚类算法原理

MeanShift均值漂移是基于密度的非参数聚类算法，其算法思想是假设不同簇类的数据集符合不同的概率密度分布，找到任一样本点密度增大的最快方向最快方向的含义就是MeanShift，样本密度高的区域对应...

机器学习中的聚类算法（2）：Mean Shift算法

引言： MeanShift算法与之前的Kmeans算法是有共同点的。 1、MeanShift算法原理 1.1核心思想：他是一个基于密度的算法。里面有一个值叫半径。需要计算一个漂移向量。刚开始也是随机...

Mean Shift 均值漂移聚类

MeanShift简介白话版 MeanShift算法可以看作是使多个随机中心点向着密度最大的方向移动，最终得到多个最大密度中心。可以看成初始有多个随机初始中心，每个中心都有一个半径为bandwidt...

是否确定退出登录?

mean shift聚类算法分析

随机数据

mean shift聚类

全部评论 (0)

相关文章推荐

mean shift聚类算法分析

Mean Shift 聚类算法

图解Mean-Shift聚类算法

Mean Shift+聚类

【聚类算法解析系列06】进阶聚类算法——谱聚类与Mean Shift

数据聚类：Mean-Shift和EM算法

scikit-learn之聚类算法之Mean Shift

聚类算法的缺点_深入剖析Mean Shift聚类算法原理

机器学习中的聚类算法（2）：Mean Shift算法

Mean Shift 均值漂移聚类