《多元统计分析与R语言》实验5【对应分析】
《多元统计分析与R语言》实验5【对应分析】
第一部分
教材P291页表格10-4中展示了基于包含1660名研究对象的样本数据进行分类整理的具体情况。根据心理健康的分类情况与经济水平的层次特征进行分类组合后得到若干个交叉单元格。这些单元格的具体分类结果可在表中查看。通过对应分析方法对数据进行深入剖析以揭示不同群体间的潜在关联性关系
| 高 | 中高 | 中 | 中低 | 低 | |
|---|---|---|---|---|---|
| 好 | 121 | 57 | 72 | 36 | 21 |
| 轻微症状 | 188 | 105 | 141 | 97 | 71 |
| 中等症状 | 112 | 65 | 77 | 54 | 54 |
| 受损 | 86 | 60 | 94 | 78 | 71 |
数据集文件名:data_5_1.csv,下载地址:
链接:https://pan.baidu.com/s/1EjVZdQpAHa-PHvyurjC-MA
提取码:ygtl
解:
在执行对应分析之前首先要弄清各要素之间是否存在关联或相互独立性。在这里关注的因素包括因变量A(心里健康状况)和因变量B(社会经济状况)之间的关系从而提出了检验问题:
- H_0:因素A和因素B是独立的
- H_1:因素A和因素B是不独立
然而,卡方独立性检验仅用于判断变量A与变量B是否存在相互独立关系。若变量A与变量B相互独立,则无需进行对应分析;相反地,若变量间存在关联,则可进一步利用对应分析探讨变量各个类别间的相关性
下面读取数据并对数据进行卡方检验
data1<-read.table("D:\ 大三下\ 多元统计分析与R语言建模实验\ 实验5\ data_5_1.csv",sep=',',head=T,row.names=1)
data1
chisq.test(data1)
代码解读

因为P值显著低于临界值而不支持零假设或无差异假设(记为H_0)。从而支持备择假设(记为H_1),表明因素A和B之间存在密切关联,并进一步分析
library(ca)
ca1=ca(data1)
summary(ca1)
代码解读

Error in library(ca) : 不存在叫‘ca’这个名字的程辑包解决办法
> install.packages('ca')
>
>
>
>
> 代码解读
由于两因子的累计贡献率达到99.8%,所以我们取两因子作对应分析图
plot(ca1)
代码解读

根据上图可以将样本点和变量分为三组:
-
第一组
- 变量:好
- 样本:高
-
第二组
- 变量:轻微症状、中等症状
- 样本:中高、中
-
第三组
- 变量:受损
- 样本:中低、低
在对不同分组进行分析时,我们能够明显观察到以下差异性:首先,在心理健康状态良好的一组别中人群的整体发展水平偏高;其次,在心理健康状态呈现轻度或中度问题的一组别中其社会经济发展水平多处处于中高及中等水平之间;最后,在出现心理受损症状的一组别内其社会经济状况普遍处于较为较低的区间范围之内。
第二部分
文件中包含《广东省2018年专利申请数据》。此表记录了各类 PAT 申请的授权情况,并对相关情况进行分析,请参考例题 10.1 和 10.2 进行解析。
| 地区 | 发明 | 实用新型 | 外观设计 |
|---|---|---|---|
| 深圳 | 69970 | 100992 | 57647 |
| 广州 | 50169 | 79598 | 43357 |
| 东莞 | 24674 | 56089 | 16267 |
| 佛山 | 29709 | 40723 | 18963 |
| 中山 | 8165 | 20914 | 19962 |
| 珠海 | 13139 | 15133 | 2895 |
| 惠州 | 5222 | 11755 | 4666 |
| 江门 | 4089 | 9648 | 6011 |
| 汕头 | 1341 | 4102 | 12506 |
| 肇庆 | 2146 | 4106 | 1654 |
| 潮州 | 517 | 1058 | 5917 |
| 韶关 | 916 | 3567 | 2857 |
| 揭阳 | 619 | 1735 | 4658 |
| 湛江 | 1052 | 3480 | 2173 |
| 茂名 | 787 | 2249 | 2629 |
| 清远 | 1325 | 3441 | 823 |
| 河源 | 945 | 3452 | 911 |
| 阳江 | 277 | 1108 | 2801 |
| 汕尾 | 756 | 1879 | 1084 |
| 梅州 | 338 | 1901 | 999 |
| 云浮 | 290 | 940 | 586 |
数据集文件名:data_5_2.csv,下载地址:
链接:https://pan.baidu.com/s/1EjVZdQpAHa-PHvyurjC-MA
提取码:ygtl
解:
这里省去独立性检验步骤,进行对应分析
data2<-read.table("D:\ 大三下\ 多元统计分析与R语言建模实验\ 实验5\ data_5_2.csv",sep=',',head=T,row.names=1)
ca2=ca(data2);ca2
代码解读

做对应分析图
plot(ca2)
代码解读

对应分析,根据上图可以将样本点和变量分为三类:
-
第一组
- 变量:发明
- 样本:珠海、佛山、深圳、广州
-
第二组
- 变量:实用新型
- 样本:肇州、惠州、东莞、清远、河源
第三组
在一类样本中(即珠海市等超一线城市及一线城市),这些地区的科技创新水平显著;因此其专利申请多为发明专利。在另一组样本中(如肇州市等),这些地区的工业化程度在全国处于领先地位;因此其专利多为实用新型类型。在第三组样本中(包括汕尾市等),这些地区的商业活跃度较高;因此其外观设计较为出色,并多采用外观设计方式。
结合2018年广东的发展实际情况,这样划分还是比较合理的,我们进一步考察ca2的基本统计信息:
summary(ca2)
代码解读

观察经过矩阵变换后的累积贡献率分布情况后发现, 其对应的特征值累积贡献率达到100%。其对应图表则是基于两个主因子及其载荷关系进行绘制, 因此分析结果较为合理
