Advertisement

r语言折线图_R语言:相关分析(R基础)

阅读量:

目 录

  • 前言

  • 导入数据

  • 散点图

  • 正态性检验

  • 相关分析

  • 常用相关性检验:

    • pearson相关性检验

    • spearman秩检验

    • kendall检验

  • cor.test()函数

  • End

前言

判断两个数值变量之间有无直线相关关系,并回答相关方向和相关程度时,可采用相关分析。相关分析是研究变量间相互关系, 测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法。 两个变量按照相关方向的不同, 可分为正相关、负相关和零相关 。若x,y同时增大或减小,变化趋势是同向的,称为正相关;若x,y之间呈反向变化,称为负相关;若x,y散点分布没有直线相关关系称为零相关。
980c8551f19c2c1d9560ec9947495073.png

正相关或负相关并不一定表示一个变量的改变是另一个变量变化的的原因,有可能同受另一个因素的影响,因此, 相关关系并不一定是因果关系 。 导入数据

复制代码
    library(readxl)test "test.xlsx")View(test)
    
9450999777b155f88112ec13d4e3f225.png

散点图

通过不同变量之间的散点图可以直观地了解它们之间的关系和相关程度。

复制代码
    plot(test)
    
392f84398fa79f4f0499643afbb6d5c8.png

从图上可以看出,数据点分布接近直线,可以推测x,y之间存在正相关关系。

注意 :如果图中有明显远离主体数据的观测值,称为离群值,注意对离群值的处理。

正态性检验

本公众号前面文章t检验中介绍了正态性检验的方法。

复制代码
    shapiro.test(test$x)shapiro.test(test$y)
    
9b69f030418fed28581c871487a8196c.png

从结果可以看出,两个p值都>0.05,说明两个变量都服从正态分布。

注意 :即使变量符合正态分布,但是当样本量过大时,也可以出现有统计学意义的结果,即变量不服从正态分布。因此,对于大样本量,可以作图来判断正态性。

相关分析

复制代码
    cor.test(~x+y,data = test)
    
59caf65d9836e6ccff11bcf823f7c31a.png

因为 p=2.154e-05 < 0.05, 故拒绝原假设, 从而认为变量x与y相关。

相关系数为0.90595%置信区间为 (0.705 ~ 0.971)

常用相关性检验:

pearson相关性检验

Pearson相关系数也称Pearson积差相关系数,用来反映了变量间的线性相关程度的大小。

Pearson相关要求:x,y 为两连续变量,并且服从双变量正态分布。

spearman秩检验

spearman相关系数又称秩相关系数,是对两变量的秩次大小作线性线性相关分析,对原始变量不做要求,属于非参数统计方法,适用范围更广些。

对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。

秋相关或等级相关适用下列资料:

  1. 不服从双变量正态分布;
  2. 总体分布类型未知;
  3. 原始数据是用等级表示。

kendall检验

用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。

对相关的有序变量进行非参数相关检验;取值范围在-1 ~ +1之间,此检验适合于正方形表格(即行与列的数量相同)。

cor.test()函数

复制代码
    cor.test(x, y,  # x,y为长度相同的数字向量         alternative = c("two.sided", "less", "greater"),  # alternative是备择假设, 默认“two.side”         method = c("pearson", "kendall", "spearman"),  # method是选择检验方法, 默认Pearson检验         exact = NULL,  # 逻辑词,是否计算精确p值,method为"kendall", "spearman"时使用;         conf.level = 0.95,  # coef.level是置信水平, 默认0.95.         continuity = FALSE, ...)  # 逻辑词,默认为FALSE。为TRUE, 则"kendall", "spearman"没有计算精确值时使用连续性校正。另一种调用方法:cor.test(formula, # 公式,形如‘u+v’,‘u’,‘v’, 必须是具有相同长度的数值向量;         data,  # 矩阵或数据框;         subset, # 可选择向量, 表示观察值的子集         na.action, ...)
    
复制代码
    "cor", "tau", "rho" 分别对应 "pearson","kendall","spearman"。
    

End

参考资料:

****1.《医学统计学》第4版 孙振球

2.《R语言与统计分析》 汤银才

往期回顾

数据处理

R语言统计与绘图:数据的读取

R语言统计与绘图:基础数据处理(二)

R语言统计与绘图:基础数据处理(三)

R语言统计与绘图:基础数据处理(四)

R语言统计与绘图:基础数据处理(五)

R语言统计与绘图:缺失值的处理

R语言统计与绘图:日期/时间数据的处理

统计分析 R语言统计与绘图:计量资料的基本统计描述 R语言统计与绘图:计数资料的基本统计描述 R语言统计绘图:t 检验怎么做?

R语言统计与绘图:临床论文中基线特征表1怎么做?

R语言统计与绘图:COX回归模型怎么建?

统计作图

R语言统计与绘图:R语言图形输出 R语言统计与绘图:基础图形参数整理 R语言统计与绘图:ggplot2图形参数—坐标轴 R语言统计与绘图:ggplot2图形参数—图例 R语言统计与绘图:ggplot2图形参数—注解 R语言统计与绘图:ggplot2图形参数—图形外观

R语言统计与绘图:KM曲线绘制

R语言统计与绘图:Kaplan-Meier生存曲线更新

R语言统计与绘图:Kaplan-Meier生存曲线的进阶画法

R语言与统计:ROC曲线怎么画?

R语言统计与绘图:ROC曲线怎么画?(二)

R语言统计与绘图:森林图(forestplot)怎么画?

R语言统计与绘图:ggplot2绘制簇状条形图

R语言统计与绘图:ggplot2绘制散点图

R语言统计与绘图:怎么画全国疫情趋势?(折线图)

全部评论 (0)

还没有任何评论哟~