数据挖掘算法--聚类分析
1. 聚类分析的提出
同类相随者往往不谋而合!志同者自然会倾向于与具有相似特质的人建立联系,并逐渐形成自己的群体
在现代零售行业中,客户群细分常被视为一种常见的业务需求,在一般情况下,则主要依据客户的性别、年龄、职业以及消费金额等单一变量进行分组分析;或者通过多个简单变量的交叉分组来实现客户群体的划分。然而这种传统的客户细分模式往往存在以下不足之处:首先,在单一维度的分析上显得不够充分;其次,在对客户的细微差异识别能力上也显得力不从心;最后还存在难以根据市场环境的变化及时调整策略的局限性
客户细分之前必须确定分类变量的过程通常涉及哪些具体变量?这些具体变量中哪些往往会受到较大的主观因素影响?
2)这些由人类主观设定的分类标准通常仅能反映出某个群体的部分特性,并无法全面描绘整个群体的本质面貌。
相较于而言, 聚类分析是一种重要的客户细分手段. 它能够在无需任何先验知识的情况下, 基于数据的固有特征, 根据样本间的亲疏程度进行自动分类. 这种分类方式能够使得同一类别内的样本之间尽可能接近, 而不同类别之间的样本相互之间距离较大.
此处所指的是,在没有先验知识的情况下,并不需要提前设定分类属性;亲疏程度通常以两个指标来衡量:相似度和差异度这两个方面。
2. 聚类算法分类
依照不同的分类标准,可以从不同角度对聚类算法进行划分:
(1)聚类结果角度
按照分类方式的不同, 聚类算法可以划分为完全覆盖的分类和不完全覆盖的分类. 完全覆盖的分类即任何一个个体都会属于至少一个类别, 即任何一个个体都会属于至少一个类别. 反之, 则属于不完全覆盖的分类方式.
该算法可划分为层次型与非层次型两种类型,在这种分类体系中存在一个类别被另一个类别所包含的情况被称为层次型聚类关系
该领域中的分类方法大致可分为确定性分类与不确定性分类两大类别。其中确定性分类的特点是各类之间互不相交且任何样本仅能归属于某一类别中的一者,并非此即彼的情形则被定义为不确定性分类
(2)聚类变量角度
从分类角度看,变量主要可分为数值型变量与分类型变量。同样地,在基于聚类变量的角度来看,聚类算法主要可分为数值型聚类算法、分类型聚类算法以及混合型聚类算法。
(3)聚类的原理角度
基于聚类理论的一般方法,通常可以将聚类算法划分为划分型聚类(Partitioning-type clustering)算法、层次型聚类(Hierarchical-type clustering)算法、密度型聚类(Density-type clustering)算法以及网格型聚-clustering算法等主要类型。
当前广泛采用的主流聚类方法包括K-means聚类方法、基于两步法的聚类技术以及Kohonen网络系统。
3. 常用聚类算法
3.1 K-Means聚类算法
K-Means聚类是一种基于区域划分的数值型聚类方法,在该算法生成的分类结果中,每个样本点仅归属一个类别。其特点在于聚类变量多为数值型特征,并采用基于距离评估法对样本间的亲疏远近进行分类处理。该方法涉及两个核心问题:(1)如何评估样本间的"相似性与差异性";(2)如何完成实际的分类操作。计算相似性通常采用皮尔逊相关系数或斯皮尔曼相关系数等统计指标;而衡量两样本间的差异程度通常使用距离度量方法。值得注意的是,在K-Means算法中,默认采用欧氏距离作为衡量亲疏程度的标准。
3.1.1 差异性度量方法
(1)数量型指标
K-Means一般采用欧式距离计算样本之间的距离,欧式距离公式如下:
除此之外,常用作计算数量型指标之间距离的方法有,
