r语言c5.0变量相关性,R语言之相关性分析(示例代码)
两个变量之间或两组变量之间的联系,在连续情况下被称为相关性,在分类情况下则被称为关联性。
一、连续变量间的相关性
常用命令及选项如下

使用方法如下:
1.计算相关系数及相关系数矩阵
cor(count,speed)
[1] 0.7237206
cor(count,speed,method = "spearman")
[1] 0.5269556
cor(mf)
Length Speed Algae NO3 BOD
Length 1.0000000 -0.34322968 0.7650757 0.45476093 -0.8055507
Speed -0.3432297 1.00000000 -0.1134416 0.02257931 0.1983412
Algae 0.7650757 -0.11344163 1.0000000 0.37706463 -0.8365705
NO3 0.4547609 0.02257931 0.3770646 1.00000000 -0.3751308
BOD -0.8055507 0.19834122 -0.8365705 -0.37513077 1.0000000
cor(mfLength,mf)可以通过指定显示某个变量的相关系数
Length Speed Algae NO3 BOD
[1,] 1 -0.3432297 0.7650757 0.4547609 -0.8055507
2.计算方差及协方差矩阵
cov(count,speed)
[1] 123
var(count,speed)
[1] 123
cov(mf)
Length Speed Algae NO3 BOD
Length 9.4900000 -4.95000000 45.858333 0.70683333 -111.55667
Speed -4.9500000 21.91666667 -10.333333 0.05333333 41.74167
Algae 45.8583333 -10.33333333 378.583333 3.70166667 -731.73333
NO3 0.7068333 0.05333333 3.701667 0.25456667 -8.50850
BOD -111.5566667 41.74166667 -731.733333 -8.50850000 2020.87333
cov2cor(cov(mf))
Length Speed Algae NO3 BOD
Length 1.0000000 -0.34322968 0.7650757 0.45476093 -0.8055507
Speed -0.3432297 1.00000000 -0.1134416 0.02257931 0.1983412
Algae 0.7650757 -0.11344163 1.0000000 0.37706463 -0.8365705
NO3 0.4547609 0.02257931 0.3770646 1.00000000 -0.3751308
BOD -0.8055507 0.19834122 -0.8365705 -0.37513077 1.0000000
3.相关系数的显著性检验
cor.test(count,speed)
Pearson‘s product-moment correlation
data: count and speed
t = 2.5689, df = 6, p-value = 0.0424
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.03887166 0.94596455
sample estimates:
cor
0.7237206
4.使用公式语法
cor.test(~count+speed,data=fw3,subset = cover%in%c("open","closed"))
对fw3数据框中的cover分类变量进行开放与关闭两类情况的相关性分析
============================================================
二、分类变量的关联性
基于分类变量之间的关联性分析通常采用卡方检验方法,在数据均为频数形式的情况下进行计算;卡方检验的具体命令及其相关选项如下所示:

分类变量根据类别的多少,会分为几种情况:
1.两变量均为多分类
此时通常被表述为探究变量间的相互关联性。这些数据一般呈现为二维表格格式的频数表。此方法可以直接通过调用chisq.test()函数来进行计算。
chisq.test(bird.df)
当频率分布表中存在零频数时,则会触发一个错误提示信息:卡方近似结果可能不可靠
2.两变量均为二分类
当前数据呈现2×2列联表结构,在执行chisq.test()函数时,默认会采用耶茨连续校正方法。通过设置corrct参数为TRUE可以关闭这种校正选项。实际上,该检验仅在处理2×2列联表时应用耶茨校正方法。如果选择采用蒙特卡洛方法,则该检验将不再应用耶茨连续性校正。
3.一个变量为二分类一个变量为多分类
在这样的情况下,在统计学中我们通常采用卡方拟合优度检验的方法来评估模型的拟合效果。为了稳妥起见,在实际应用中建议始终设置rescale.p参数为TRUE以避免潜在的计算问题。如果未指定P参数,则假设各期望概率相等的情形。
chisq.test(surveynew,p=surveyold,rescale.p = TRUE)
