Advertisement

r语言多重对应分析_R语言 | 聚类分析及R使用

阅读量:
1b5883fc30b012ae8de0e0f284becfdf.png

- 聚类分析概念 -

聚类分析法是研究“物类聚”的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析做分析研究。

聚类分析方法包括:系统聚类法和快速聚类法。

聚类分析类型包括:Q型聚类--对样本的聚类;R型聚类--对变量的聚类

聚类统计量:

距离:欧氏距离、马氏距离、兰氏距离

相关系数

距离矩阵计算函数dist的用法:

dist(X,method="euclidean",diag=FALSE,upper=FALSE,p=2)

X数据矩阵,数据框架

method包括 "euclidean", "maximum", "manhattan","canberra","binary"or"minkowski",默认为euclidean距离

diag是否包含对角线元素,默认为无对角线元素

upper是否需要上三角,默认为下三角矩阵

P默认为欧氏距离
55399407172c66f1f755f050c393285c.png

-系统聚类法 -
7a74fea798047a805570def183c05058.gif

先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。

主要包括:

最短距离法(single)

最长距离法(complete)

中间距离法(median)

类平均法(average)

重心法(centroid)

离差平均和法(ward)

特点:

综合性

形象性

客观性
4f6a0bd248e807ad3b2c679d0e57c132.png

系统聚类R语言步骤:

1、计算距离阵:dist

2、进行系统聚类:hclust

3、绘制聚类图:plot

4、画分类框:rect.hclust

5、确认分类结果:cutree

系统聚类函数hclust用法:

hclust(D,method="complete",···)

D相似矩阵,通常为距离矩阵

method包括“single","complete","average","mcquitty","median",or"centroid","ward",默认为”complete"。
55399407172c66f1f755f050c393285c.png

-快速聚类法 -

快速聚类法的基本思想是将每一个样品分配给最近中心(均值)的类中。

只有在类的均值被定义的情况下才能使用,对于“噪声”和孤立点是敏感的,这种数据对均值影响极大。

关于变量变换:

平移变换

稽查变换

标准差变换

主成分变换

对数变换

快速聚类函数kmeans的用法:

kmeans(X,centers,···)

X数据框或数据矩阵,centers聚数类或初始聚类中心
55399407172c66f1f755f050c393285c.png

01

-代码分析 -
fd310fd6624ad942da2a795f546a8773.png cd46257ae69440e203237f50e0f270b4.png 6b7ceb0e17ad4038c71e0578274c4b8d.png c5861c8630e7c98a59cea35b0a82d7c3.gif f7c2d1b6920d8ae93c1d2acbc9f326e7.gif c5861c8630e7c98a59cea35b0a82d7c3.gif

全部评论 (0)

还没有任何评论哟~