Advertisement

伍德里奇计量经济学_计量经济学-伍德里奇-第三章-回归-基础

阅读量:

Before We Start​yuedong.site

68738a03869982ac59c27a9d51514fcd.png

我曾有一本关于伍德里奇的笔记本,在不幸丢失后深感悲痛的同时也意识到将笔记转为电子形式既安全又便利。于是乎决定将整部伍德里奇著作系统地整理成电子版,并运用R语言对其中若干习题进行编程解答。此事确属不易,请各位读者不吝赐教!

零条件均值

为了对无法观测的u 和解释变量x 的影响进行限制,并从一个随机的数据样本中可靠地估计出参数 β0 和 β1 的值。

然而仅用相关系数进行约束显得片面,并非完全准确;事实上,在某些情况下u可能与x²直接关联起来;因此一种更合理的做法是针对给定x值设定u的期望值。

这个假定意味着,

基于不同的x取值将研究对象划分为若干组,在每一组内部不可观测的影响因素均具有相同的均值,并且这些共同的均数值必然等于整个研究对象中u变量的均值。

例子:以下模型表示工资水平和教育水平的关系

假设在零教育条件下个体的能力分布满足零条件均值假定,则表明各具相同的能力水平;如果进一步假设平均能力会随受教育年数增加而上升,则这种设定将导致模型出现偏差;由于无法直接测量 innate ability这一变量的变化情况,在实际应用中我们不得不做出该变量恒定不变的前提假设。

普通最小二乘法的推导

x与u之间不存在相关性,并且零条件均值假定具有重要意义。如果您未能正确理解或遗忘相关内容,请重新复习相关内容。

为了更好地理解这一概念,请设想:当模型满足零条件均值假设时,在每一样本输入下生成的残差均为零均值且同分布。这一性质与输入变量x的具体取值无关,并且类似于我们在时间序列分析中所假设的情况(正如我在思考这部分时突然联想到的时间序列平稳性假定)。换句话说,在这种设定下,“能力”的增长幅度始终维持在相同的水平上,并呈现为一个恒定不变的状态。(即使在现实中这一现象似乎并不完全成立)

而且利用这两个假定我们可以化简出参数的表达式:

带入模型得:

等价于:(一阶条件)

化简出:

可以观察到,系数\beta_1本质上是变量xy之间的样本协方差与其样本方差之比值这一指标。这正是**普通最小二乘(ordinary least squares, OLS)**估计量的标准定义。有关该方法一阶条件必要性的详细证明,请参阅伍德里奇第五版第573页。

由此我们便可以得到样本回归函数:(hat表示拟合值,无hat表示观测值

样本回归函数是用来估计总体回归函数的一个估计量。总体回归函数是确定但未知的!


OLS统计量的代数性质

定义总平方和(SST)、解释平方和(SSE)和残差平方和(SSR):

SST衡量了观测数据中样本的整体波动程度;SSE衡量了拟合值在样本中的波动情况(考虑到残差拟合值的期望为零,则y轴上的拟合值期望与观测值期望相等);SSR衡量了残差及其拟合值之间的样本波动情况)。这些指标共同反映了数据中的总变异如何分解为可解释部分与不可解释部分之和的关系式即SST=SSE+SSR

拟合优度

R平方即为可说明变异与总变异的比例;表示y样本中的变动中有多少能被x来说明;其取值范围在0到1之间。

在社会科学研究领域中,在应用回归方程进行分析时发现其R平方值偏低是一个常见的现象。尤其是针对横截面数据分析而言更为显著。

度量单位和弹性

在社会科学的研究文献中常见地采用对数形式建立模型。例如,在考察收入与受教育程度的关系时会经常使用这种模型。如果不对数据取对数则斜率系数估计值为0.54这意味着每接受一年额外的教育所带来的小时工资增长幅度可能是由于早期的影响也可能是长期影响所导致这种推断可能存在不合理之处但是当采用对数模型时我们则将这一效应转化为收入增长率为

为什么呢?考虑如下方程

两边对educ求导:

由此可看出β1表示工资变动幅度除以教育的变动量。同理可得下表:

|模型|因变量|自变量|参数含义|

|---------|------|------|---------------|

|水平-水平|y|x|Δy=β1Δx|

|水平-增长|y|log(x)|Δy=(β1/100)%Δx|

|增长-水平|log(y)|x|%Δy=(100β1)Δx|

|增长-增长|log(y)|log(x)|%Δy=β1%Δx|

估计量的期望值和方差

当我们从总体中抽取不同的随机样本并进行参数估计时,在统计学理论指导下可以系统地分析其分布形态及其方差特征会呈现什么样的规律性表现

证明OLS参数是无偏的

构建OLS的无偏性需要以下5个假定:

1、线性于参数

在总体模型中,因变量和自变量的关系是线性的

2、随机抽样

我们具有一个服从总体模型的随机样本

3、解释变量的样本有波动

x的值不是完全相同的

4、零条件均值

给定解释变量的任何值,误差的期望值都为零

基于上述条件4及假定, 我们便有理由推断出参数估计量具备无偏性, 其证明过程极为复杂, 可参考教材第43至45页的具体内容。需要注意的是,在实际应用中要达到无偏性要求必须严格遵循这些前提条件, 然而,在现实数据中这种情况并不常见, 例如,在某些情况下(如假设2中的随机抽样),实际数据收集过程往往无法完全保证随机性

OLS估计量的方差

除了认识到参数估计量具有无偏性之外(补充了动词从"知道"到"认识到"),了解我们的估计值与总体参数之间的差距同样至关重要(对"能了解"进行了扩展)。进而,在基于不同样本得到的不同无偏估计量中(对语序进行了调整),选择一个最佳的估计量就变得尤为重要(对"选择一个最佳"进行了加强表达)。为了确定这一数值(使表达更加准确),除了上述提到的4个基本假设外(保持原有内容不变),下面我们将引入最后一个假设:

同方差性

给定解释变量的所有可能取值时, 残差均呈现恒定的方差特性. 需要指出的是, 同方差假设在保证参数估计量无偏性的证明方面并未发挥任何作用, 这一假设条件之所以被引入, 主要是为了简化用于计算参数估计量方差的过程.

由于误差与之无关,在给定特定值下(即特定条件下),y关于x的条件期望呈现线性关系;然而,在给定点估计下(即固定了某个特定值后),y围绕其均值的位置具有恒定的变化幅度(即不变)。如果u关于某些变量存在依赖关系,则称该模型存在异方差特征。例如,在教育与工资之间的关系中:假设我们暂且假设在不同教育水平下(即不同条件下)工资波动保持恒定;然而,在现实中随着教育年限增加...工作选择范围扩大导致波动变大;而教育水平较低的情况下...工作选择减少导致波动减小。

至此,由以上5个假定我们可以导出估计参数的方差公式:

在我们涉及多元回归分析中的置信区间与假设检验问题时,其重要性就凸显出来!从上述公式可以看出,首先,误差项方差增大会致使用于估计参数的标准误随之增大,这是因为不可观测的因素对因变量y的影响更为显著,因而精确估计β变得越困难;另一方面,增加自变量的变化幅度有助于减少用于估计参数标准误的变化.

耐心一点,马上就结束了!

误差方差的估计

首先你要搞清楚误差和残差的区别,不清楚的回头把文章再看一遍吧。

尽管在本模型中(即\hat{\beta}_0)虽然其估计值与真实参数相等(即\beta_0),同样地\hat{\beta}_1也满足这一条件;然而对于\hat{u}_i而言,则不一定如此。然而需要注意的是,在这种情况下(即对于误差项u_i),尽管\hat{u}_i并不一定等于u_i本身;但是它们之间的偏差在总体上的平均效应却为零。简而言之,请问我们是否可以用残差方差来代替误差方差呢?这可能有些复杂,请耐心再读几遍吧!换一种说法就是:我们可以用残差平方和除以自由度来估计误差方差吗?

而estimator存在偏差的原因在于,在样本容量全面的情况下,OLS方法通常难以满足其两个一阶条件。具体而言,在这种情况下残差的条件均值通常不为零,并且残差与预测变量X之间通常不存在正交关系。对于这一问题的方法论解决方案是计算SSR除以自由度(n-2),即SSR/(n-2)

通常用s²来表示这个估计量。由此我们获得了误差方差的一个无偏估计值。其无偏性的证明可在教材第50页找到详细说明。从而我们能够计算出各参数估计值及其相应的方差与标准误。这一标准误对于后续统计检验过程至关重要,请务必反复理解其背后的理论依据。

全部评论 (0)

还没有任何评论哟~