Advertisement

《多元统计分析与R语言》实验5【对应分析】

阅读量:

《多元统计分析与R语言》实验5【对应分析】

第一部分

教材P291页表格10-4中展示了基于包含1660名研究对象的样本数据进行分类整理的具体情况。根据心理健康的分类情况经济水平的层次特征进行分类组合后得到若干个交叉单元格。这些单元格的具体分类结果可在表中查看。通过对应分析方法对数据进行深入剖析以揭示不同群体间的潜在关联性关系

中高 中低
121 57 72 36 21
轻微症状 188 105 141 97 71
中等症状 112 65 77 54 54
受损 86 60 94 78 71

数据集文件名:data_5_1.csv,下载地址:

链接:https://pan.baidu.com/s/1EjVZdQpAHa-PHvyurjC-MA
提取码:ygtl

解:

在执行对应分析之前首先要弄清各要素之间是否存在关联或相互独立性。在这里关注的因素包括因变量A(心里健康状况)和因变量B(社会经济状况)之间的关系从而提出了检验问题:

  • H_0:因素A和因素B是独立的
  • H_1:因素A和因素B是不独立

然而,卡方独立性检验仅用于判断变量A与变量B是否存在相互独立关系。若变量A与变量B相互独立,则无需进行对应分析;相反地,若变量间存在关联,则可进一步利用对应分析探讨变量各个类别间的相关性

下面读取数据并对数据进行卡方检验

复制代码
    data1<-read.table("D:\ 大三下\ 多元统计分析与R语言建模实验\ 实验5\ data_5_1.csv",sep=',',head=T,row.names=1)
    data1
    chisq.test(data1)
    
    
      
      
      
    
    代码解读
在这里插入图片描述

因为P值显著低于临界值而不支持零假设或无差异假设(记为H_0)。从而支持备择假设(记为H_1),表明因素A和B之间存在密切关联,并进一步分析

复制代码
    library(ca)
    ca1=ca(data1)
    summary(ca1)
    
    
      
      
      
    
    代码解读
在这里插入图片描述

Error in library(ca) : 不存在叫‘ca’这个名字的程辑包解决办法

复制代码
>     install.packages('ca')
>  
>  
>       
>  
>     代码解读

由于两因子的累计贡献率达到99.8%,所以我们取两因子作对应分析图

复制代码
    plot(ca1)
    
    
      
    
    代码解读
在这里插入图片描述

根据上图可以将样本点和变量分为三组:

  • 第一组

    • 变量:好
    • 样本:高
  • 第二组

    • 变量:轻微症状、中等症状
    • 样本:中高、中
  • 第三组

    • 变量:受损
    • 样本:中低、低

在对不同分组进行分析时,我们能够明显观察到以下差异性:首先,在心理健康状态良好的一组别中人群的整体发展水平偏高;其次,在心理健康状态呈现轻度或中度问题的一组别中其社会经济发展水平多处处于中高及中等水平之间;最后,在出现心理受损症状的一组别内其社会经济状况普遍处于较为较低的区间范围之内。

第二部分

文件中包含《广东省2018年专利申请数据》。此表记录了各类 PAT 申请的授权情况,并对相关情况进行分析,请参考例题 10.1 和 10.2 进行解析。

地区 发明 实用新型 外观设计
深圳 69970 100992 57647
广州 50169 79598 43357
东莞 24674 56089 16267
佛山 29709 40723 18963
中山 8165 20914 19962
珠海 13139 15133 2895
惠州 5222 11755 4666
江门 4089 9648 6011
汕头 1341 4102 12506
肇庆 2146 4106 1654
潮州 517 1058 5917
韶关 916 3567 2857
揭阳 619 1735 4658
湛江 1052 3480 2173
茂名 787 2249 2629
清远 1325 3441 823
河源 945 3452 911
阳江 277 1108 2801
汕尾 756 1879 1084
梅州 338 1901 999
云浮 290 940 586

数据集文件名:data_5_2.csv,下载地址:

链接:https://pan.baidu.com/s/1EjVZdQpAHa-PHvyurjC-MA
提取码:ygtl

解:

这里省去独立性检验步骤,进行对应分析

复制代码
    data2<-read.table("D:\ 大三下\ 多元统计分析与R语言建模实验\ 实验5\ data_5_2.csv",sep=',',head=T,row.names=1)
    ca2=ca(data2);ca2
    
    
      
      
    
    代码解读
在这里插入图片描述

做对应分析图

复制代码
    plot(ca2)
    
    
      
    
    代码解读
在这里插入图片描述

对应分析,根据上图可以将样本点和变量分为三类:

  • 第一组

    • 变量:发明
    • 样本:珠海、佛山、深圳、广州
  • 第二组

    • 变量:实用新型
    • 样本:肇州、惠州、东莞、清远、河源

第三组

在一类样本中(即珠海市等超一线城市及一线城市),这些地区的科技创新水平显著;因此其专利申请多为发明专利。在另一组样本中(如肇州市等),这些地区的工业化程度在全国处于领先地位;因此其专利多为实用新型类型。在第三组样本中(包括汕尾市等),这些地区的商业活跃度较高;因此其外观设计较为出色,并多采用外观设计方式。

结合2018年广东的发展实际情况,这样划分还是比较合理的,我们进一步考察ca2的基本统计信息:

复制代码
    summary(ca2)
    
    
      
    
    代码解读
在这里插入图片描述

观察经过矩阵变换后的累积贡献率分布情况后发现, 其对应的特征值累积贡献率达到100%。其对应图表则是基于两个主因子及其载荷关系进行绘制, 因此分析结果较为合理

全部评论 (0)

还没有任何评论哟~