计量经济学-多元回归-2022.11
注意事项
任务说明
要求说明
注:以上代码可直接运行以获取所需分析结果
y=c(12.2, 9.8, 11.3, 11.6, 12.4, 19.3, 9.1, 12.1, 9.6, 8.4, 9.3, 10.6, 8.4, 9.6, 10.9, 10.1, 14.8, 9.1, 10.8, 10.2, 13.6, 14.9, 16.0, 13.2, 20.0, 13.3, 10.4)
x1=c(5.68, 3.79, 6.02, 4.85, 4.60, 6.05, 4.90, 7.08, 3.85,4.65, 4.59, 4.29, 7.97, 6.19, 6.13, 5.71, 6.40,6.06, 5.09, 6.13, 5.78, 5.43, 6.50, 7.98, 11.54,5.84, 3.84)
x2=c(1.90, 1.64, 3.56, 1.07, 2.32, 0.64, 8.50, 3.00, 2.11, 0.63, 1.97, 1.97, 1.93, 1.18, 2.06, 1.78, 2.40, 3.67, 1.03, 1.71, 3.36, 1.13, 6.21, 7.92, 10.89, 0.92, 1.20)
x3=c(4.53, 7.32, 6.95, 5.88, 4.05, 1.42, 12.60, 6.75, 16.28, 6.59, 3.61, 6.61, 7.57, 1.42, 10.35, 8.53, 4.53,12.79, 2.53, 5.28, 2.96, 4.31, 3.47, 3.37, 1.20, 8.61, 6.45)
x4=c(8.2, 6.9, 10.8, 8.3, 7.5, 13.6, 8.5, 11.5, 7.9, 7.1, 8.7, 7.8, 9.9, 6.9, 10.5, 8.0, 10.3, 7.1, 8.9, 9.9, 8.0, 11.3, 12.3, 9.8, 10.5, 6.4, 9.6)
x5=c(72.1, 62.6, 46.5, 67.0, 68.3, 55.3, 70.3, 74.8, 61.8, 55.8, 62.9, 68.4, 70.2, 72.7, 63.5, 71.9, 78.4, 72.1, 76.4, 74.5, 76.2, 72.9, 72.7, 68.6, 82.2, 75.2, 74.1)
AI助手
】


甘油三酯与空腹血糖的散点图呈现明显的分散趋势,并可能存在明显异常值。根据分析结果表明,两者之间表现出负相关性。
- 构建空腹血糖与糖化血红蛋白之间的单变量回归模型,并以R语言实现这一目标时,请避免使用lm包中的函数来计算回归系数。(满分:10分)
空腹血糖y与糖化血红蛋白x4
lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n} #自定义函数
b = lxy(x4,y)/lxy(x4,x4)
a = mean(y)-b*mean(x4)
b
a
lines(y,a+b*y)
plot(x4,y)
lines(y,a+b*y)
AI助手

采用多元线性回归方法建立空腹血糖与其他指标(如血清总胆固醇、甘油三酯等)之间的关系模型,并基于R语言中的lm函数进行拟合。详细推导出回归方程,并明确标出各变量系数及其标准误差;并解释各变量系数的实际意义。

Estimate Std..Error
AI助手
(Intercept) 2.9581 5.3106
x1 0.2080 0.4074
x2 0.1943 0.2180
x3 -0.2862 0.1314
x4 0.6940 0.2720
x5 0.0376 0.0609
回归公式 y = 2.9581 + 0.2080 * x1 + 0.1943 * x2 -0.2862 * x3 + 0.6940 * x4 + 0.0376 * x5
4、讨论以上模型的拟合优度以及各个变量的显著性。(10分)
模型的拟合优度 是 0.5922,
评估P值时发现,在p<0.05的标准下筛选出的关键变量为x3和x4,并显示这两个指标均通过了统计学意义检验;而剩余指标如x1、x2及x5则未能达到显著水平
通过stepwise方法在R中实现最佳线性回归模型的搜索,并明确写出新模型的详细回归方程(公式如下:y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon),其中\beta_0为截距项,\beta_1, \beta_2, ..., \beta_n为各相应变量前的系数估计值;同时列出各个系数的标准误以反映其估计精度)。随后评估该模型整体的拟合优度指标(如R²值),并分析各变量在统计上具有显著影响的程度(即通过p值判断变量是否显著)。此任务要求完成时间为15分钟。
> library(MASS)
> model2 <- step(model)
Start: AIC=46.33
y ~ x1 + x2 + x3 + x4 + x5
Df Sum of Sq RSS AIC
- x1 1 1.1955 97.496 44.667
- x5 1 1.7495 98.050 44.820
- x2 1 3.6431 99.944 45.337
<none> 96.301 46.334
- x3 1 21.7737 118.074 49.838
- x4 1 29.8578 126.158 51.626
Step: AIC=44.67
y ~ x2 + x3 + x4 + x5
Df Sum of Sq RSS AIC
- x5 1 2.945 100.441 43.471
<none> 97.496 44.667
- x2 1 10.068 107.564 45.321
- x3 1 26.750 124.246 49.214
- x4 1 38.037 135.533 51.561
Step: AIC=43.47
y ~ x2 + x3 + x4
Df Sum of Sq RSS AIC
<none> 100.44 43.471
- x2 1 15.071 115.51 45.246
- x3 1 34.539 134.98 49.451
- x4 1 35.191 135.63 49.581
Call:
lm(formula = y ~ x2 + x3 + x4, data = df)
Coefficients:
(Intercept) x2 x3 x4
6.7576 0.3033 -0.3328 0.6926
AI助手

Estimate Std..Error
AI助手
(Intercept) 6.7576 2.5390
x2 0.3033 0.1632
x3 -0.3328 0.1183
x4 0.6926 0.2440
新模型的具体回归公式 y = 6.7576 + 0.3033 * x2 -0.3328 * x3 + 0.6926 * x4
拟合优度是0.5747,
考察P值的结果表明,在统计学意义上具有显著影响的因素包括变量X3和X4;而变量X2则未能达到显著水平。
Stepwise函数首先从第3个问题对应的模型出发,在其基础上剔除了若干关键变量参数后构建了新的第5个问题相关的模型。这种做法在统计上具有显著性吗?为了验证这一过程的有效性,请运用假设检验进行分析。(10分)
从统计学角度来看,去除X1和X5变量是可以接受的。ANOVA方法可用于评估包含两个嵌套模型的复杂性,其中嵌套模型指其中一个完全包含于另一个中的情况。此外,在使用线性回归模型时,我们还通过ANOVA检验来判断是否有必要引入这些变量。由于计算得到的p值为0.6427(大于显著性水平α=0.05),因此在当前分析中无需考虑加入这两个变量,并建议从模型中剔除它们

7、基于第5问的结果,绘制拟合值与残差的散点图,评论其意义。(10分)
其均值应为零且该误差需满足零均值与等方差特性。

请对第3个问题与第5个问题所建立的回归模型进行对比分析,并指出其中表现更为出色的模型。请从多维度对结果进行说明和评价。(15分)
第二个,因此可调节R2更高,AIC更低。
已知糖尿病人A的血液四项检测结果包括:血清总胆固醇为5.81、甘油三酯水平为2.84以及空腹胰岛素测值为6.15;其糖化血红蛋白水平为9.1;患者体重达80公斤。基于第五题建立的模型,请预测患者A的空腹血糖水平,并计算其95%置信区间的范围。(注意选择正确的置信区间类型)(共需评估得分为:满分10分)

预测A的空腹血糖指标是11.87
预测A的空腹血糖指标是11.04 12.70
