数据挖掘-聚类算法
一、聚类算法思想
即物以类聚,将相似的物品聚为一类。
二、聚类算法
k-means、k-medoids、clarans、密度聚类、层次聚类等等
三、聚类算法详解
3.1 k-means
基本思想是对n个数据样本进行聚类分析,在仅有部分特征信息的情况下难以确定最优的分类数量。因此,在实际应用中通常会假设这些数据应分为k个类别,并以此为基础展开分析(这也是k-means算法的一个不足之处)。为了评估聚类效果的主要标准是:同一类别内的数据点彼此之间具有较高的相似性(即较低的距离),而不同类别之间的数据点则具有较低的相似性(即较高的距离)。若采用某种聚类度量来衡量这种差异程度,则等价于要求同类别的数据点间距较小且不同类别间的间距较大。
工作流程如下:首先,在n个样本中随机选取k个样本作为初始质心,并以这些质心为依据进行数据分组。
基于其他样本与其对应的簇中心之间的相似度进行分类
(3)重新计算簇中心,即每个簇中所有样本的均值。
(4)不断重复步骤(2)、(3),直至标准测度函数(如均方差)收敛。
评价指标包括簇内样本相似度与簇间样本相似度两个维度。其中,在处理数据时需要考虑以下几点:首先,在进行层次分析时需要明确目标层与其他层次的关系;其次,在构建模型的过程中需要注意各变量间的相互影响关系;最后,在模型求解过程中需要确保各参数设定符合实际应用场景需求
在模型构建过程中需要考虑以下几点:首先,在选择算法时需要结合具体应用场景的需求;其次,在参数设置方面要根据历史数据分析结果进行优化;最后,在模型验证阶段需要通过留出法等方法确保结果具有良好的泛化能力
当使用层次分析法确定权重时需要注意以下几点:第一,在构建判断矩阵时要确保所有指标之间具有足够的相关性;第二,在一致性检验阶段如果发现矩阵存在较大的不一致情况则需重新审视判断依据并进行调整;第三,在最终确定权重向量时应综合考虑各层次因素的影响程度
对于簇间样本相似度计算方法:计算簇中心距离。
算法缺点:对脏数据敏感
3.2 k-medoids
不同于 k-means算法,在每个簇中,采用计算所有样本与该簇中心之间距离最小的方式确定该簇中心。
工作过程:
(1)从n个样本中任意选择k个样本作为初始簇中心,采用簇中心代表一个簇。
(2)基于该样本与其他样本与目标簇中心之间的相似度进行比较和分析后,将待分类样例归并至与其最接近的目标簇。
(3)更新各簇的中心点,并在每个簇中选择与该簇中其他所有样本的距离之和最小的那个样本作为新的中心点。
(4)不断重复步骤(2)、(3),直至簇中心固定不变。
缺点:在选择簇中心时增加了计算量
3.3 密度聚类
之后补上,曾经做数学建模时,有一块用到密度聚类思想。
转载请注明出处:<>
小女不才,尚有小群,有意请加:
翻转世界IT:386707638
硕博交流群(仅限硕博):774547075
