Advertisement

【计量经济学导论】02. 多元回归模型

阅读量:

文章目录

  • 多变量回归分析模型
    • 经典线性回归模型的基本假设包括:
      • 排除其他变量影响的方式:通过引入控制变量来区分自变量与因变量的影响
      • 证明估计量无偏性的过程:利用零条件期望假定确保误差项与自变量独立
      • 计算估计量方差的具体步骤:通过误差项的方差与设计矩阵的关系进行推导
      • 分解估计量方差构成的因素:包括随机误差项的影响以及样本数据的信息含量

多元回归模型

经典线性回归模型的假定

本节我们将逐步将单一变量回归模型扩展至包含多个变量的多元回归模型。多元回归分析通过构建一个包含多个可观测因素的数学框架,在控制其他潜在影响因素不变的情况下,系统地评估各个自变量对因变量的影响程度与作用机制。首先, 我们将明确阐述经典线性回归模型的基本假设条件, 探讨不同基本假设条件下的估计量性质及其统计特性。

MLR.1 线性于参数

在模型设定方面:
数学表达式如下:
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + u,
其中参数 \beta_0, \beta_1, \dots, \beta_k 为需要估计的未知数;误差项 u 则是不可观测的随机扰动因素。

上述方程代表了总体模型的标准表达方式,
此模型的重要特点在于它是参数 \beta_0,\beta_1,\dots,\beta_k 的线性组合,
在多元回归分析中也构成了基本假设。

MLR.2 随机抽样

有一个包含 n 次观测的随机样本 \{(x_{i1},x_{i2},\cdots,x_{ik},y_i):i=1,2,\cdots,n\} 来自总体模型。

对于某个特定观测 i 来说, 我们可以建立一个线性模型来描述其关系.

这里的 i 表示观测次数,x 的第二个下标表示变量的序号。

MLR.3 不存在完全共线性

在研究范围内,在没有任何一个解释变量保持不变的情况下,在自变量之间不存在严格的一一对应关系

该假设我们考虑的情况是允许解释变量之间存在一定的关联性(即它们可能存在某种程度的相关),但这种关联性不可以是完美的(即不存在完全的相关)。当遇到完全共线性时,在使用OLS方法时就无法实现预测目标。在讨论多重共线性的章节中会详细介绍这一点。

MLR.4 零条件均值

给定解释变量的任何值,误差的期望值为零,即
{\rm E}(u\ |\ x_1,x_2,\cdots,x_k)=0 \ .

该假设不成立的情况:

  • 因变量与其自变量之间的关系未能正确设定
  • 未包含任何与x_1, x_2, \dots, x_k中的任一自变量子关的外生变数
  • 存在某自变量子关与其有关(即存在内生性问题)

MLR.5 同方差性

对于任意解释变量的值来说,误差项满足等方差性;具体而言,

{\rm Var}(u\ | \ x_1,x_2,\cdots,x_k)=\sigma^2 \ .

该假设基于解释变量为条件设定,在任何解释变量组合的情况下都不会影响误差项 u 的方差保持不变。如果违反这一假设,则模型将呈现异方差性特征,在截面数据分析中这种情况会尤为显著

MLR.6 正态性

总体误差 u 与所有解释变量 x_1,x_2,\cdots,x_k 完全不相关,并且服从零均值、方差为 \sigma^2 的同方差正态分布:
u 是独立同分布(i.i.d.)随机误差项,并满足 u \sim N(0,\ \sigma^2)

在基于样本自变量取值的情况下,可知普通最小二乘法(OLS)估计量的抽样分布受其背后误差项u分布的影响。

定理总结

我们称范围内的假设分别为高斯-马尔科夫假定与经典线性回归模型的基本假设;在这些基本假设下成立的情况下,则可得出基于这些基本假设的普通最小二乘估计量具备许多优良统计特性

  • 基于假定 MLR.1 到 MLR.4 的前提下,在此条件下 OLS 估计量呈现无偏性质。
  • 基于假定 MLR.1 到 MLR.5 的前提下,在此条件下 OLS 估计量具备有效性特征。
  • 根据高斯-马尔可夫假设,在满足这些基本假设的情况下,
    OLS 估计量既是最佳线性无偏估计量(BLUE),也是最优的线性无偏估计工具。

为了推导上述定理,我们需要引入一种分析多元回归模型中各变量作用大小的方法。

排除其他变量影响的方法

为了更好地说明偏回归系数的计算过程及其意义,请阐述偏回归系数的估计方法,并探讨自变量 x_1 对因变量 y 的影响程度。同时,在此过程中需要能够消除其他变量对结果指标的影响因素分析能力。

step.1

将变量x₁对变量x₂,x₃,…,x_k进行回归分析,并将其残差定义为\hat{r}_{i1}。这种关系可表示为以下总体模型形式:

x₁ = γ₁ + γ₂ x₂ + … + γ_k x_k + r₁

该模型具有的统计特性包括:其期望值满足{\rm E}(r₁)=0;各变量与残差r₁之间存在零协方差关系;即对于j=2,3,…,k, 均有{\rm Cov}(x_j,\,r₁)=0.

该统计特性基于多元回归模型的零条件均值假定。根据这一特性,则可推导出下面所述的特性:

{\rm Cov}(x_1, r_1) = {\rm Var}(r_1^2)

基于一组观测样本我们可以用样本数据来体现这些特性:这一等式成立

\sum_{i=1}^n x_{ij}\hat{r}_{i1}=0\ ,\ \ \ \ j=2,3,\cdots,k \ ,

\sum_{i=1}^n x_{i1}\hat{r}_{i1}=\sum_{i=1}^n\hat{r}_{i1}^2 \ .

step.2

为了建立一个关于 \hat{r}_1y 的简单回归模型, 我们将 y\hat{r}_1 进行线性拟合, 其形式可表示为:

无偏性的证明

在排除了其他变量影响的基础上,在OLS估计框架下,我们通过严谨推导系统地论证了\hat{\beta}_1 的无偏性质得以体现。

然后将其样本形式代入该模型中的\hat{\beta}_1估计式:
其表达式为\hat{\beta}_1 = \frac{\displaystyle \sum_{i=1}^{n}\hat{r}_{(i, 23)}}{\displaystyle \sum_{j=35}} \cdot \mathbb{E}[Y] ,其中分子部分等于...

根据 step.1 中的样本性质得出以下推论:

  • 对于常数项 \beta_0\hat{r}_{i1} 的乘积和,

\displaystyle\sum_{i=1}^n\beta_0\hat{r}_{i1}=\beta_0\cdot\displaystyle\sum_{i=1}^n\hat{r}_{i1}=0 \ .

  • 对于偏效应 \beta_1\hat{r}_{i1} 的乘积和,

\displaystyle\sum_{i=1}^n β₁ x_{i1} \hat{r}_{i1} 的计算过程如下所示:该求和运算通过系数 β₁ 与相关变量相乘实现,并最终得到的结果等于 β₁ 与这些乘积之和;进一步地,在这种情况下其结果等同于 β₁ 与各残差项平方之和的形式表达

  • 对于被控制的其他偏效应和 \hat{r}_{i1} 的乘积和,

该种回归分析方法在实际应用中表现出较高的预测能力。

将前述三条推论代入\hat{\beta}_1的估计式中,则可得:

\hat{\beta}_1 = \frac{\beta_1 \cdot \sum_{i=1}^{n}\hat{r}_{i ₁ }² + \sum_{i= ₁ }^{n}\hat{r}_{ i ₁ } u_i}{ \sum_{ i = ₁ }^{ n }\ hat{ r } _ { i ₁ }² } = β₁ + \frac{ \sum _ { i = ₁ }^{ n }\ hat{ r } _ { i ₁ } u_i}{ sum _ { i = ₁ }^{ n }\ hat{ r } _ { i ₁ }² }

在这里,唯一的随机变量是总体回归模型中的随机误差项 u, 因此, 在等式两边取条件数学期望后有:

E ( \ hat{\ beta } _ { ¹ }) = β¹ + \frac{ sum _ { i = ₁ }^{ n }\ hat{ r } _ { i ¹ }(E(u_i))}{ sum _ { i = ¹ }^{ n }\ hat{ r}_{{ i¹ }}²} = β¹

由此便证明了 \hat\beta_1 是无偏估计量。

估计量的方差计算

对于每个变量 j=1,2,...,k ,都满足以下关系:

{\rm Var}(\hat\beta_j)=\frac{\sigma^2}{({\rm SST}_j)(1-R^2_j)}

其中,

{\rm SST}_j=\sum_{i=1}^{n}(x_{ij}-\bar{x}_j)^2

即为自变量 x_j 的总样本离散程度;而 R^2_j 则表示当仅考虑其他变量的影响时对因变量所能解释的比例。

对于上述公式, 我们采用控制其他变量影响的方法对 j=1 的情况进行证明:
{\rm Var}(\hat\beta_1) 等于 \frac{\displaystyle\sum_{i=1}^n \hat{r}_{i1} u_i}{\displaystyle\sum_{i=1}^n \hat{r}_{i1}^2} 的方差, 即
\frac{\displaystyle\sum_{i=1}^n \hat{r}_{i1}^2 \cdot {\rm Var}(u_i)}{\left(\displaystyle\sum_{i=1}^n \hat{r}_{i1}^2\right)^2}, 进而得到
\frac{\sigma^2}{\displaystyle\sum_{i=1}^n \hat{r}_{i1}^2}
其中, \displaystyle\sum_{i=1}^n \hat{r}_{i1}^2 表示 x_1x_2,x_3,...,x_k 进行回归得到的回归残差平方和 SSR₁ 。根据决定系数的定义, 我们有
\displaystyle\sum_{i=1}^n \hat{r}_{i1}^2 = {\rm SST}_j (1 - R_j^2) 。将其代入后可得
{\rm Var}(\hatβ_₁) = \frac{\sigma²}{ {\rm SST}_j ( ¹ - R_j² ) }

估计量方差的成份

在实证研究中{\rm Var}(\hat\beta_j)的重要性不容忽视。当方差增大时,在统计推断方面的能力会随之下降;这表明相应的统计推断精度会受到影响;深入探讨这些因素的存在及其影响变得十分有必要;我们计划系统地分析这些构成要素及其对估计准确性的影响

(1) 误差方差 \sigma^2

这一现象容易被理解,在回归模型中当σ²值越大时模型中的随机误差项波动也越大这会使得OLS估计量的方差随之增大从而使得对任何一个解释变量对因变量y的影响程度的估计变得更加困难值得注意的是σ²是一个总体参数其数值不会受到样本容量变化的影响对于一个固定的因变量y来说减小模型误差仅有的途径是通过引入更多的解释变量来减少模型误差

(2) x_j 的总样本波动 {\rm SST}_j

*x_j 的变动程度越大, {\rm Var}(\hat\beta_j) 会越低,由此可见,在其他因素保持不变的情况下,我们希望 x_j 的样本方差能够尽可能地大。
*
在随机抽样的情况下,为了提高自变量的变动程度,我们可以采取增加样本量的数量这一方式。这样不仅能够扩大数据的代表性,还能显著提升自变量的变动程度。

(3) 自变量之间的线性关系 R_j^2

R_j^2 靠近1时, {\rm Var}(\hat\beta_j) 会不断增大。
即使模型中出现多重共线性问题时, R_j^2 接近1也不会违背假设条件MLR.3。
在其他条件固定不变的情况下, 对于估计\beta_j而言, x_j与其他自变量之间的相关性越低越好。

全部评论 (0)

还没有任何评论哟~