数据挖掘之聚类算法K-Means总结

阅读量：

序

由于项目需要，需要对数据进行处理，故而又要滚回来看看paper,做点小功课，这篇文章只是简单的总结一下基础的Ｋmeans算法思想以及实现；

正文：

1.基础Kmeans算法.

Kmeans算法的属于基础的聚类算法，它的核心思想是：从初始的数据点集合，不断纳入新的点，然后再从新计算集合的“中心”，再以改点为初始点重新纳入新的点到集合，在计算”中心”，依次往复，直到这些集合不再都不能再纳入新的数据为止.

图解：

假如我们在坐标轴中存在如下Ａ,B,C,D,E一共五个点，然后我们初始化（或者更贴切的说指定）两个特征点（意思就是将五个点分成两个类），采用欧式距离计算距离.

注意的点：

１．中心计算方式不固定，常用的有使用距离（欧式距离，马式距离，曼哈顿距离，明考斯距离）的中点，还有重量的质心，还有属性值的均值等等，虽然计算方式不同，但是整体上Kmeans求解的思路相同.

２．初始化的特征点（选取的Ｋ个特征数据）会对整个收据聚类产生影响.所以为了得到需要的结果，需要预设指定的凸显的特征点，然后再用Kmeans进行聚类.

代码实现：

复制代码

      1package com.data.algorithm;
      2  3import java.util.ArrayList;
      4import java.util.List;
      5  6/**  7 * *********************************************************
      8 * <p/>
      9 * Author:     XiJun.Gong
     10 * Date:       2017-01-17 15:57
     11 * Version:    default 1.0.0
     12 * Class description：
     13 * <p/>
     14 * *********************************************************
     15*/ 16publicclass Kmeans {
     17privatefinaldouble;
     18 19private topk;
     20 21public getTopk() {
     22return topk;
     23    }
     24 25publicvoid topk) {
     26this topk;
     27    }
     28 29class KMeanData {
     30 31privatefloat//x坐标 32privatefloat//y坐标 33privateint//隶属于哪一个簇 34 35publicint getFlag() {
     36return flag;
     37        }
     38 39publicvoidint flag) {
     40this flag;
     41        }
     42 43publicfloat getX() {
     44return x;
     45        }
     46 47publicvoidfloat x) {
     48this x;
     49        }
     50 51publicfloat getY() {
     52return y;
     53        }
     54 55publicvoidfloat y) {
     56this y;
     57        }
     58    }
     59 60publicbooleanfloatfloat b) {
     61returntruefalse;
     62    }
     63 64publicfloat distance(KMeanData a, KMeanData b) {
     65 66returnfloat)
     67));
     68    }
     69 70publicboolean Kequal(KMeanData a, KMeanData b) {
     71if exp)
     72returntrue;
     73returnfalse;
     74    }
     75 76publicintint range) {
     77new KMeanData[size];
     78forint) {
     79new KMeanData();
     80float range));
     81float range));
     82);
     83        }
     84return kmData;
     85    }
     86 87publicvoidfinalint k) {
     88forint) {
     89thisthis);
     90forint) {
     91if i) {
     92);
     93                }
     94            }
     95);
     96        }
     97    }
     98 99publicfinalint k) {
    100ifnull) {
    101);
    102returnnull;
    103        }
    104if data.length) {
    105 data.length);
    106returnnull;
    107        }
    108/*随机选取k个点*/109new();
    110int k;
    111//均值步长取k的初始簇112forint stride) {
    113);
    114            topk.add(data[i]);
    115        }
    116//聚合117whiletrue) {
    118forint) {
    119floatfloat) 1e9, dist;
    120int;
    121for (KMeanData kter : topk) {
    122if distance(data[i], kter))) {
    123 dist;
    124 i;
    125                    }
    126                }
    127);
    128            }
    129//重新计算质心130new];
    131intnewint];
    132forint) {
    133;
    134new KMeanData();
    135 data[i].getX());
    136 data[i].getY());
    137            }
    138forint) {
    139 kcnt[i]);
    140            }
    141//判断一下是否是已经收敛了142booleanfalse;
    143forint) {
    144if])) {
    145true;
    146]);
    147                }
    148            }
    149ifbreak;
    150        }
    151return data;
    152    }
    153

View Code

复制代码

     1package com.data.algorithm;
     2 3 4/** 5 * *********************************************************
     6 * <p/>
     7 * Author:     XiJun.Gong
     8 * Date:       2017-01-17 17:57
     9 * Version:    default 1.0.0
    10 * Class description：
    11 * <p/>
    12 * *********************************************************
    13*/14publicclass Main {
    15publicstaticvoid main(String args[]) {
    16new Kmeans();
    17);
    18    }
    19

View Code

复制代码

2. 改进的ＫMeans算法；

ＫMeans算法存在很多很多的改进版，比如有优化最开始的Ｋ个特征数据选取的，还有如何减少计算量的，这里就介绍一下最后一种变种.

2.1 Mini Batch K-Means；

Mini Batch K-Means思想核心：在求解稳定的聚类中心时，每次随机抽取一批数据，然后进行Ｋmean计算，然后直至中心点稳定之后，在将所有的数据依据这些中心点进行分类，从而达到和ＫMeans一样的效果，同时有大大的减少了中间的计算量.

应用的范围：在面对巨大的数据量时，可以考虑使用这种思路.

参考文献：

http://image.hanspub.org:8080/pdf/CSA20160900000_76874550.pdf

全部评论 (0)

还没有任何评论哟~

数据挖掘之聚类算法K-Means总结

序由于项目需要，需要对数据进行处理，故而又要滚回来看看paper,做点小功课，这篇文章只是简单的总结一下基础的Ｋmeans算法思想以及实现；正文： 1.基础Kmeans算法. Kmeans算法的属...

【数据挖掘】k-means聚类算法

KMeans聚类层次聚类给出了一个树作为结果，但是其不足之处：没有额外的工作，树形结构并不能真正将数据划分到独立的分组中，并且算法属于计算密集型任务。因为每个item之间的距离需要计算，且合并之后...

k means java_数据挖掘-聚类-K-means算法Java实现

KMeans算法是最古老也是应用最广泛的聚类算法，它使用质心定义原型，质心是一组点的均值，通常该算法用于n维连续空间中的对象。 KMeans算法流程 step1：选择K个点作为初始质心 step2：r...

挖掘建模之K-means聚类算法

定义 KMeans算法（K均值聚类）是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度越大。

大数据挖掘实践——K-Means聚类算法

大数据挖掘实践 KMeans聚类算法引言：有n个数据D=X1,X2,…,Xn，我们想把这些数据分成K个类。这个问题的关键在于K为多大时分类是合适的，并且我们也不好选择一个好的初始点。所以我们在这里...

数据挖掘k-means聚类算法JAVA模拟

一个用java实现的模拟数据挖掘算法kmeans的demo。因为老湿说期末如果能自己编写程序模拟课本中的任意算法，通过答辩就可以不用考试。对于我这种不规矩的学生，能不考试当然选择不考了。

数据挖掘十大算法(十)：K-means聚类算法

一，Kmeans算法原理基本算法 Kmeans算法是最常用的一种聚类算法。算法的输入为一个样本集（或者称为点集），通过该算法可以将样本进行聚类，具有相似特征的样本聚为一类。

【大数据分析与挖掘】K-Means聚类算法

介绍对于有监督的数据挖掘算法而已，数据集中需要包含标签变量即因变量y的值。但在有些场景下，并没有给定的y值，对于这类数据的建模，一般称为无监督的数据挖掘算法，最为典型的当属聚类算法。 KMeans聚...

数据挖掘算法之 K-means

一、什么是Kmeans kmeans是一种被广泛使用的直接聚类算法，给定一个对象的集合，把这些对象划分为多个组，使得组内之间比较相似而不同的组之间差异较大。

数据挖掘--聚类之K均值算法

1.聚类概念聚类是将物理或抽象对象的集合分成相似的对象类的过程。使得同一个簇中的对象之间具有较高的相似性，而不同簇中的对象具有较高的相异性。簇是数据对象的集合，这些对象与同一簇中的对象彼此相似，而与...

是否确定退出登录?

数据挖掘之聚类算法K-Means总结

序

正文：

代码实现：

全部评论 (0)

相关文章推荐

数据挖掘之聚类算法K-Means总结

【数据挖掘】k-means聚类算法

k means java_数据挖掘-聚类-K-means算法Java实现

挖掘建模之K-means聚类算法

大数据挖掘实践——K-Means聚类算法

数据挖掘k-means聚类算法JAVA模拟

数据挖掘十大算法(十)：K-means聚类算法

【大数据分析与挖掘】K-Means聚类算法

数据挖掘算法之 K-means

数据挖掘--聚类之K均值算法