R语言聚类分析(系统聚类、K-均值聚类)
- 原始数据
选自巨潮网
下表为2018年34家上市公司的利润表,选取其中营业收入、营业成本、销售费用、营业利润、利润总额、净利润六个指标。(单位:千万)
| 序号 | 机构名称 | 营业收入 | 营业成本 | 销售费用 | 营业利润 | 利润总额 | 净利润 |
|---|---|---|---|---|---|---|---|
| 1 | 北京顺鑫 | 1207.44 | 724.96 | 122.38 | 106.28 | 105.94 | 72.81 |
| 2 | 深圳联得 | 66.36 | 43.64 | 4.21 | 9.15 | 9.45 | 8.53 |
| 3 | 深圳星源 | 58.35 | 30.19 | 2.89 | 12.40 | 24.89 | 20.27 |
| 4 | 安泰科技 | 505.41 | 416.36 | 13.17 | -20.78 | -31.45 | -33.15 |
| 5 | 北京利尔 | 319.69 | 207.43 | 37.35 | 42.79 | 41.26 | 33.37 |
| 6 | 嘉事堂 | 1795.99 | 1612.23 | 62.86 | 77.72 | 77.49 | 57.06 |
| 7 | 朗姿 | 266.15 | 111.92 | 95.65 | 23.95 | 22.75 | 20.43 |
| 8 | 北京三夫 | 42.03 | 24.02 | 10.44 | 0.66 | 0.65 | 0.47 |
| 9 | 舒泰神 | 80.61 | 7.48 | 48.34 | 14.97 | 15.10 | 13.41 |
| 10 | 华润双鹤 | 822.51 | 301.44 | 319.38 | 118.93 | 118.41 | 98.95 |
| 11 | 有研 | 476.79 | 445.72 | 5.31 | 9.27 | 10.00 | 8.25 |
| 12 | 用友 | 770.35 | 231.48 | 164.88 | 94.31 | 95.03 | 81.02 |
| 13 | 江河创建 | 1603.73 | 1307.75 | 17.98 | 86.59 | 86.86 | 73.86 |
| 14 | 北京昭衍 | 40.88 | 19.21 | 0.66 | 12.60 | 12.79 | 10.82 |
| 15 | 飞亚达 | 340.05 | 199.38 | 85.70 | 23.04 | 23.12 | 18.38 |
| 16 | 河北建投能源 | 1397.63 | 1172.12 | 6.15 | 88.70 | 88.22 | 66.16 |
| 17 | 天津天保基建 | 228.97 | 96.97 | 1.88 | 25.20 | 25.37 | 9.70 |
| 18 | 中体产业 | 144.99 | 110.10 | 5.67 | 13.76 | 13.79 | 9.15 |
| 19 | 天津环球磁卡 | 14.53 | 11.72 | 0.33 | 7.29 | 7.18 | 7.18 |
| 20 | 新奥生态 | 1363.25 | 1069.69 | 18.91 | 162.68 | 162.12 | 140.57 |
| 21 | 曙光信息 | 905.69 | 739.90 | 38.46 | 53.19 | 53.71 | 46.75 |
| 22 | 中航善达 | 665.56 | 534.84 | 11.10 | 121.98 | 122.53 | 82.40 |
| 23 | 天马微电子 | 2891.15 | 2451.97 | 48.07 | 98.35 | 101.92 | 98.39 |
| 24 | 华润三九 | 1342.77 | 416.04 | 646.86 | 170.35 | 171.89 | 147.49 |
| 25 | 深圳顺络 | 236.20 | 154.38 | 6.78 | 49.80 | 55.48 | 48.30 |
| 26 | 广东威华 | 252.37 | 217.38 | 7.23 | 15.17 | 15.81 | 15.34 |
| 27 | 深圳通产丽星 | 136.92 | 105.76 | 6.46 | 10.08 | 9.80 | 9.12 |
| 28 | 深圳信立泰 | 465.19 | 94.37 | 134.56 | 172.00 | 170.62 | 145.46 |
| 29 | 深圳英威腾电气 | 222.81 | 139.79 | 23.46 | 21.53 | 21.00 | 17.79 |
| 30 | 顺丰 | 9094.27 | 7464.22 | 182.58 | 581.81 | 586.75 | 446.43 |
| 31 | 天虹商场 | 1913.80 | 1392.19 | 362.69 | 116.29 | 116.88 | 90.46 |
| 32 | 深圳同兴达科技 | 409.54 | 375.23 | 3.75 | 8.85 | 11.36 | 9.81 |
| 33 | 深南电路 | 760.21 | 584.38 | 15.70 | 78.39 | 77.75 | 69.83 |
| 34 | 方大集团 | 304.87 | 233.79 | 4.98 | 297.00 | 296.98 | 224.62 |
二、使用R语言进行聚类分析
(1)系统聚类法(分成四类)
mydata<-read.table("D:\ 信息\ 数据.txt")
distance<-dist(mydata)#计算距离
hc1<-hclust(distance,"ward.D2")#使用离差平方和法,默认最长距离法
plclust(hc1,hang=0.1)#绘画系谱图
re1<-rect.hclust(hc1,k=4,border="red")#k表示分为几类
re1
for(i in 1:4){
print(paste("第",i,"类"))
print(mydata[re1[[i]],])
}



可以看出第30家公司自成一类,第6、13、16、20、23、31家公司为一类,第2、3、5、7、8、9、14、15、17、18、19、25、26、27、29家公司为一类,第1、4、10、11、12、21、22、24、28、32、33、34家公司为一类,第一类公司利润最高,第三类公司利润最低。
**(2)****K-**均值聚类(分成四类)
plot(mydata)
kc4<-kmeans(mydata,centers=4,nstart=1,trace=TRUE)#centers表示分成几类
kc4
指标变量间两两相关关系的散点图:

研究对象归为四类的结果:

由Clustering vector可知34家公司的分类情况:第2、3、4、5、7、8、9、11、14、15、17、18、19、25、26、27、28、29、32、34为一类,第6、13、23、31为一类,第30家为一类,第1、10、12、16、20、21、22、24、33为一类。第三类公司利润最高,第二类公司利润最低。与系统聚类的分类结果虽不太相同,但两种聚类结果中第30家都是自成一类。
