Advertisement

计量经济学笔记

阅读量:

目录

1. 绪论

1.1 数据类型

1.2 模型检验

2. 双变量线性回归模型

2.1 回归分析基本概念

2.1.2 总体回归函数 PRF

2.1.3 样本回归函数 SRF

2.2 模型的基本假设

2.2.1 对模型和模型的假定

2.2.2 对随机扰动项的假定

2.3 模型的参数估计

2.3.1 最小二乘法 OLS

2.3.2 极大似然估计

2.4 模型的统计检验

2.4.2 方程显著性检验

2.4.3 变量显著性检验

2.4.4 总体参数的置信区间

2.5 模型的预测

2.5.1 点预测

2.5.2 区间预测

2.6 通过Eviews建立双变量回归模型

3. 多元线性回归模型

3.1 模型的建立与假设

3.1.1 回归函数

3.1.3 模型假设

3.2 模型的参数估计

3.2.1 普通最小二乘估计

3.2.2 参数估计量的性质

3.2.3 随机误差项方差的估计

3.3 非线性处理

3.4 模型的统计检验

3.4.1 拟合优度检验

3.4.2 方程显著性检验 (F检验)

3.4.3 变量显著性检验 (t检验)

3.4.4 参数的置信区间

3.4.5 其他约束条件的检验

3.5 模型的预测

3.5.1 总体均值的预测的置信区间

3.5.2 个值的预测的置信区间

3.6 虚拟变量

4. 模型可能存在的问题与解决方法

4.1 误设定

4.2 多重共线性

4.2.1 分类

4.2.2 产生的原因

4.2.3 多重共线性的后果

4.2.3 初步判断

4.2.4 检验

4.2.5 解决方法

4.3 异方差性

4.3.1 分类

4.3.2 后果

4.3.3 检验

4.3.4 解决方法

4.4 自相关性

4.4.1 自相关的分类

4.4.2 产生的原因

4.4.3 产生的后果

4.4.4 检验

4.4.5 消除的方法

5. 联立方程模型

5.1 行为方程和恒等式

5.1.1 行为方程

5.1.2 恒等式

5.2 几类变量

5.2.1 内生变量

5.2.2 外生变量

5.2.3 前定变量

5.3 模型的形式

5.3.1 结构式

5.3.2 简单式

5.4 联立方程模型的识别

5.4.1 可识别方程

5.4.2 消除模型中的识别

5.4.3 恰好识别and过度识别

5.4.4 识别的条件

5.5 联立方程模型的估计

5.5.1 单方程方法

5.5.2 系统估计方法

6. 时间序列分析

7. 面板数据模型


1. 绪论

1.1 数据类型

1.1.1 时间序列数据

1.1.2 截面数据

1.1.3 混合数据

1.2 模型检验

1.2.1 经济意义检验

主要进行检验。主要考察参数估计量的数值特征及其与其他参数估计量的关系是否存在经济意义。

1.2.2 统计学检验

(1) 变量的显著性检验;(2) 方程的显著性检验;(3) 拟合优度检验。

1.2.3 计量经济学检验

(1) 检验随机误差项是否存在自相关性;(2) 考察随机误差项是否存在异方差性;(3) 分析解释变量之间是否存在多重共线性

1.2.4 预测检验

基于扩展样本重新估算参数后,对比新旧两组参数结果,并评估其差异显著性水平。

(2) 应用该模型于外部未知的数据集进行外推分析,并考察其与实际观测值之间差异的统计学意义

2. 双变量线性回归模型

2.1 回归分析基本概念

2.1.1 变量间的关系及研究方法

(1) 确定性关系(函数关系)

研究确定现象中非随机变量之间的关系。比如正方形的体积公式。

(2) 统计依赖关系(相关关系)

探究非确定现象中随机变量间的相互关联,其核心工具是相关分析与回归分析

在相关分析中,将所有变量视为随机的;然而,在回归分析中对变量进行处理时存在一种不对称性:即区分自变量与因变量子类,并且只有后者被视为随机现象;而前者的特性不具备这种特性。

回归分析可用于探究一个因变量与若干自变量之间的具体相互影响关系的理论体系,在这种理论指导下可通过自变量的具体取值或设定值来推断或预期因变量的(整体)平均值。在方法论层面成为计量经济学的核心支撑工具。

2.1.2 总体回归函数 PRF

(1) 函数含义

当给定解释变量Xi时,在被解释变量Yi的条件均值下的轨迹被称为总体回归曲线;而对应的数学表达式则称为总体回归函数(PRF):

E=f

PRF说明了被解释变量Y的平均状态(即总体条件期望)随X的变化的规律。

(2) 函数形式

线性或非线性均可。

线性的定义:a. 模型就变量而言是线性的;b. 模型就参数而言是线性的。

在线性回归模型中所涉及的线性关系主要体现为参数b的表现。假设被解释变量可以视为由其解释变量组成的线性组合,则该关系的具体表达式通常表示为:

E=eta _0+eta _1X

(3) 随机扰动项

u_i=Y_i-E

用以指明不确定因素的部分,则表示被解释变量不仅会受到解释变量系统性影响之外(即除了),还会受到其他因素带来的随机性影响。

在方程中引入随机扰动项之后,得到总体回归函数PRF的随机设定形式:

Y_i=E+u_i=eta _0+eta _1X_i+u_i

也称,总体回归模型。

2.1.3 样本回归函数 SRF

思想:用样本估计总体

(1) 样本回归函数

idehat{Y_i}=f=idehat{eta _0}+idehat{eta _1}X_i

(2) 样本回归模型(样本回归函数的随机形式)

Y_i=idehat{Y_i}+idehat{u_i}=idehat{eta _0}+idehat{eta _1}X_i+e_i

其中,ei称作样本残差或剩余项,可看作ui的样本估计量

idehat{u_i}

2.2 模型的基本假设

2.2.1 对模型和模型的假定

在重复抽样过程中, 解释变量Xi被视为一组固定数值序列, 或者作为随机数值存在但始终与误差项ui保持相互独立关系。

(2) 解释变量无测量误差。

(3) 不存在模型设定误差。

2.2.2 对随机扰动项的假定

(1) 期望为0

E=0

(2) 同方差性假定

随机扰动项的方差为常数,即

Var=igma ^2

。不满足时模型会产生异方差问题。注意

Var=igma ^2

Var=igma ^2

是等价的。

(3) 无自相关假定

Cov=0,

(4) 扰动项与解释变量不相关

Cov=0

(5) 服从正态分布

u_iim N

,相当于

Yiim N

实际上,在这种情况下,并非完全必要满足某个特定假设;然而,在执行假设检验以及进行预测时,则必须要了解Y_i的分布特性。

以上(1)到(4)称作经典假设,满足的该假设的模型称作线性回归模型。

2.3 模型的参数估计

2.3.1 最小二乘法 (OLS)

思路:寻找实际值与拟合值残差平方和最小的回归直线。

残差平方和:

um e_i^2=um ^2

(1) 最小二乘估计量

求极值。

(2) 最小二乘估计量的性质

该研究展示了其在小样本数据下的适用性和可靠性;其具备三个核心特征:线性的特征、无偏特性和有效性,并被称为最佳线性无偏估计量(BLUE)。

高斯-马尔科夫定理指出,在经典假设下使用的普通最小二乘估计量在所有线性无偏估计量中表现最优。

a. 线性性(是否是Yi和ui的线性函数)

经计算可以得到2个正规方程如下

eftegin{matrix} idehat{eta _0}=eta _0+um k_iu_i   idehat{eta _1}=eta _1+um m_iu_i nd{matrix}ight.

由于ki和mi皆为常数,在这种情况下参数估计量不仅表现为ui的线性函数,并且表现出其明显的线性性质。

b. 无偏性(期望值是否等于总体真实值)

使用线性性的结论可以简单证明

E=eta _0

以及

E=eta _1

c. 有效性(是否在所有线性无偏估计量中具有最小方差)

(3) 最小二乘估计量的分布

根据假设(5),已知

u_iim N

,因此根据线性性结论可以推出参数估计量也服从正态分布:

idehat{eta _0}im N,idehat{eta _1}im N,

2.3.2 极大似然估计

2.4 模型的统计检验

2.4.1 拟合优度检验

思想:通过构建一个能够衡量或表征模型与数据之间拟合程度的统计量来实现模型评估的目标。这种统计量通常基于样本数据生成,并通过计算得到该统计量的具体数值。然后将这些具体数值与其预设的标准值进行比较分析以判断模型的整体表现如何。

(1) 总离差平方和的分解

Y的第i个观测值和样本均值的离差

yi=

可以分解成两个部分之和:

yi=+=e_i+idehat{y_i}
e_i

为残差,即随机偏差;

idehat{y_i}

为可解释偏差,即回归偏差,可以认为是由回归直线解释的部分。

考虑所有样本点,则需考虑所有样本点的离差平方和,即:

um y_i^2=um e_i^2+um idehat{y_i}^2

记作 TSS=ESS+RSS。

其中涉及的统计量中,TSS代表Total sum of squares,即总体平方和;ESS表示Explained sum of squares,即回归平方和;RSS即Residual sum of squares,即残差平方和

可以看出,在ESS在TSS中的占比越高,则表明回归参数估计值的显著性越强,并且模型的拟合效果也更好。由此可见,在ESS与TSS之间的接近程度是一个衡量模型拟合优度的有效指标。

(2) 拟合优度的度量

R^2

表示模型拟合的程度,称拟合优度或者判定系数。

R^2=rac{ESS}{TSS}=1-rac{RSS}{TSS}

在双变量回归中,

R^2=rac{um }{um }=rac{idehat{eta _1}um }{um }=rac{^2}{um x_i^2um y_i^2}

R^2

=0:X与Y完全不存在线性关系。

(3) 样本相关系数

常把相关分析作为回归分析的补充分析办法,样本相关系数r满足:

r2=R2

,但仅是数值相关,概念并不相同。

r=rac{idehat{Cov}}{qrt{idehat{Var}}qrt{idehat{Var}}}=rac{um x_iy_i}{qrt{um x_i^2}qrt{um y_i^2}}

我们使用的统计量是判定系数

R^2

,也称可决定系数。

2.4.2 方程显著性检验

核心内容:检验被解释变量与解释变量之间的线性关系是否在总体上显著成立

(1) F检验

F检验的思想来源于总离差平方和的分解式,原理是方差分析,

已知

um y_i^2=um e_i^2+um idehat{y_i}^2

,考虑

rac{um idehat{y_i}^2}{um e_i^2}

当X的变化幅度越大时,在模型中X对Y的影响或预测能力越强。

(2) F统计量

由于数理统计结论,双变量情况中:

um idehat{y_i}^2im hi ^2,um e_i^2im hi ^2

因此可以建立F统计量:

F=rac{um idehat{y_i}^2/1}{um e_i^2/}im F

(3) F检验步骤

a. 提出假设

原假设

H_0:eta _1=0

;备择假设

H_1:eta _1eq 0

b. 利用样本值计算统计量

c. 给定显著性水平α查F分布表。

F>F_lpha

,拒绝原假设,接受备择假设,模型显著;若

F<F_lpha

,接受原假设,回归方程无显著意义。

2.4.3 变量显著性检验

思想:识别X作为Y的一个重要性影响因素。在此处的研究中,则是以关注于变量的参数估计量与零之间的关系进行显著性检验。

(1) 随机误差项的方差估计

由于我们之前已经知道参数估计量的分布是

idehat{eta _0}im N,idehat{eta _1}im N,

,但

igma

未知,所以需要先找到可以代替

igma

的估计量,才能通过参数估计量的分布进行假设检验。

可以用残差ei的方差Var(ei)代替误差项ui的方差

igma ^2

Var=E^2=E=rac{1}{v}um e_i^2=idehat{igma }

在其中变量v被定义为ei的有效维度,在这种情况下因为残差来源于样本数据,并且受到一定限制的情况下其有效维度必然小于样本数量n

通过确定合适的v使得

idehat{igma }^2

具有无偏性。

经过计算,可以得到

E=idehat{igma }^2

,即

E=idehat{igma }^2

,因此无偏估计要求v=n-2。

(2) t检验

将参数估计量的分布转化为正态分布:

rac{idehat{eta _0}-eta _0}{qrt{Var}}im N
rac{idehat{eta _1}-eta _1}{qrt{Var}}im N

构造t统计量:

对于

eta _1

t=rac{idehat{eta _1}-eta _1}{se}im t

对于

eta _0

t=rac{idehat{eta _0}-eta _0}{se}im t

n-k为自由度,k为估计参数的总数,由于是双变量模型,k=2.

(3) t检验步骤

t分布是对称函数。

关于

eta _0

的检验类似,但不太重要。

a. 对总体参数提出假设

原假设

H_0:eta _1=0

b. 以原假设构造t统计量,由样本计算其值。

t=rac{idehat{eta _1}-eta _1}{se}im t

且此时

eta _1=0

c. 给定显著性水平α,查t分布表找出临界值

t_{lpha /2}

d. 结论:若

eft | t ight |eq t_{lpha /2}

,认为原假设成立的概率很大,接受原假设。否则拒绝。

(也可以利用t检验检验模型参数取其他特定值哦)

2.4.4 总体参数的置信区间

(1) 置信区间

我们已知参数的分布,并构建了对应的t统计量:

t=rac{idehat{eta _1}-eta _1}{se}im t

t=rac{idehat{eta _0}-eta _0}{se}im t

因此给定置信度1-α,t值处在

,t_{lpha/2}

中的概率为1-α。

记作

P=P}<t_{lpha/2}=1-lpha

稍加变换,即可得到参数1-α水平的置信区间为:

,idehat{eta 1}+t{lpha/2}imes se

(2) 缩小置信区间

a. 增大样本容量n

b. 提高模型的拟合优度

样本参数估计量的标准差与残差平方和呈正相关关系;即当模型的拟合优度越大时, 残差平方和会相应减小

2.5 模型的预测

2.5.1 点预测

(1) 均值预测

对应于选定的X0,预测Y的条件均值。

通过总体回归函数,我们知道当X=X0时,条件均值

E=eta _0+eta _1X_0

通过样本回归函数,我们可以求得拟合值

idehat{Y_0}=E=idehat{eta _0}+idehat{eta _1}X_0

由于

E=E=E+EX_0=eta _0+eta _1X_0

因此

idehat{Y_0}

是条件均值

E

的无偏估计。

(2) 个值预测

对应于X0的Y的一个个别值。

通过总体回归函数,我们知道

Y_0=eta _0+eta _1X_0+u

通过样本回归函数,我们知道

idehat{Y_0}=idehat{eta _0}+idehat{eta _1}X_0

由于

E=E=E+EX_0=eta _0+eta _1X_0=Y_0

因此

idehat{Y_0}

是个值Y的无偏估计。

2.5.2 区间预测

确定Y值的置信区间实际上等同于确定参数置信区间的过程;具体而言,我们需要利用参数估计量的概率分布特性来完成这一任务

idehat{Y_0}

的分布,然后构建t统计量,得到Y(即总体均值)的置信区间。

(1) 总体均值预测值的置信区间

前面已知总体均值为

E=eta _0+eta _1X_0

,总体均值的分布如下:

Eim N

idehat{Y_0}

的分布:

E=eta _0+eta _1X_0

Var=Var+2Cov+X_0^2Var=igma 2(\frac{1}{n}+\frac{(X_0-\overline{X})2}{um x_i^2}

idehat{igma }^2

替代式中的

igma^2

,定义

S_{idehat{Y_0}}=qrt{Var}

,则得到

idehat{Y_0}

的分布:

idehat{Y_0}im N^2}{um x_i^2}

构造t统计量:

t=rac{idehat{Y_0}-}{S_{idehat{Y_0}}}im t

因此在置信度为1-α时,总体均值E(Y|X=X0)的置信区间为:

(2) 总体个值预测值的置信区间

前面也已经知道

Y_0=eta _0+eta _1X_0+uim N

因此

idehat{Y_0}-Y_0im N^2}{um x_i^2}

注意,这里方差和前面的不一样

构造t统计量,得到在置信度为1-α时,总体个值Y0的置信区间为::

2.6 通过Eviews建立双变量回归模型

之后再补

3. 多元线性回归模型

3.1 模型的建立与假设

3.1.1 回归函数

仍然将总体回归函数和样本回归函数划分为两个类别,并各自包含随机误差项。

设有n组观测值(X1,X2,...,Xn),每组样本都满足总体回归函数:

Y_i=eta _0+eta 1X{1i}+eta 2X{2i}+...+eta nX{ni}+u_i

可以写作矩阵形式:

Y=Xeta+u

其中,

Y=igl_{nimes 1}

eta =igl_{imes 1}

X=igl_{nimes }

u=igl_{nimes 1}

其中,

eta _i

偏回归系数亦称作回归系数,在统计学中表示当其他所有变量保持不变时,自变量Xi每变动一个单位对因变量Y均值的影响。

3.1.3 模型假设

关于随机误差项的5个假设与双变量情况相同,增加第6个假设改为:

假定6:解释变量之间不存在严格的线性相关关系,并且其样本观测值矩阵X具有满秩性质。这要求必须满足rank(X)=K+1<n。这也意味着样本容量n必须足够大才能满足上述条件。

3.2 模型的参数估计

3.2.1 普通最小二乘估计

为了计算最小残差而进行求解,在此过程中会获得一组正规方程共计k+1个,在通过求解这些方程之后就能获得相应的参数估计值

正规方程矩阵形式为:

idehat{eta} =X'Y

由于X满秩,可得:

idehat{eta }=^{-1}

3.2.2 参数估计量的性质

(1) 线性性

(2) 无偏性

(3) 有效性(最小方差性)

3.2.3 随机误差项方差的估计

与双变量情况类似,但自由度有少许变化,随机误差项方差的估计为:

idehat{igma }^2=rac{um e_i^2}{n-k-1}=rac{e'e}{n-k-1}

3.3 非线性处理

大部分非线性的关系可以通过数学手段将其转化为线性关系,并应用了线性回归模型的相关理论

确定非线性模型形式的方法:

a. 散点图分析;
b. 经济学背景;
c. 通过不同模型进行拟合分析,并首先从经济理论的角度出发进行研究。

(1) 多项式函数模型

形如:

Y_i=eta _0+eta 1X{1i}+eta 2X{1i}^2+...+eta kX{1i}^k+u_i

则令

Z_{1i}=X_{1i},Z_{2i}=X_{1i}2,...,Z_{ki}=X_{1i}k

即可将原模型转化为线性模型。

(2) 双曲线函数模型

自变量与因变量之间具有双曲线函数形式:

Y_i=eta _0+eta _1rac{1}{X_i}+u_i

则令Zi=1/Xi即可将原模型转化为线性模型。

(3) 对数(半对数)模型

对数模型(双对数):

ln Y_i=eta _0+eta _1lnX_i+u_i

半对数模型:

线性-对数形式

Y_i=eta _0+eta _1lnX_i+u_i

对数-线性形式

lnY_i=eta _0+eta _1X_i+u_i

作对数变换即可。

(4) 指数函数模型

一般形式为:

Y_i=Ae^{bX_i+u_i}

先两边取对数,化为

ln Y_i=lnA+bX_i+u_i

再作对数变换即可。

(5) 幂函数模型

一般形式为:

Y_i=AX_{1i}^{eta 1}X{2i}^{eta 2}...X{ki}^{eta _k}e^{u_i}

两边取对数,得到:

lnY_i=lnA+eta 1lnX{1i}+...+eta klnX{ki}+u_i

再作对数变换即可。

(6) 复杂函数模型

(7) 非线性最小二乘法(NLS)

非线性最小二乘估计量不是正态分布的,不是无偏的,且没有最小方差。

3.4 模型的统计检验

3.4.1 拟合优度检验

(1) 修正后的拟合优度

当解释变量的数量增加时, R平方值随之上升; 然而这并不表明模型拟合效果改善, 并且为了更好地评估模型性能, 必须对 R平方值进行调整

调整后的可决定系数为:

verline{R^2}=1-rac{RSS/}{TSS/}

每当增加一个解释变量时, 残差平方和 RSS 对应的自由度都会相应减少; 当所加入的解释变量对响应变量的影响较为显著时, RSS 相对于自由度而言的变化更为明显, 则修正后的拟合优度将有所提升.

修正后的拟合优度可能为负值。

(2) 赤池信息准则AIC和施瓦茨准则SC

可以比较含解释变量个数不同的回归模型拟合优度。

只有在被增加的解释变量所导致的结果使得其AIC值和SC值均低于当前模型的情况下才会选择将其纳入回归模型

3.4.2 方程显著性检验 (F检验)

(1) F检验

提出假设:

原假设

H_0:eta _1=eta _2=...=eta _k=0

; 备择假设:

H_1:eta _1,eta _2,...,eta _k

不全为零

在原假设成立的条件下构造F统计量:

F=rac{ESS/}{RSS/}im F

给定显著性水平α,查表得到F分布临界值,若

F>F_lpha

则拒绝原假设,否则接受。

(2) 拟合优度和F值的重要关系

可以推出

F

R2,\overline{R2}

的关系式,这里略过了,知道结论就行。

F与

verline{R^2}

同向变化。

F检验作为回归模型整体显著性的度量,并且是R²值一个重要的统计学依据(基于此可推导出)

F=rac{R^2/K}{/}

)。

3.4.3 变量显著性检验 (t检验)

由于方程的总体线性关系并不等于所有解释变量各自对其被解释变量的影响均显著存在。因而必须对每一个解释变量进行显著性检验。

首先提出假设:

原假设

H_0:eta _i=0

;备择假设

H_1:eta _ieq 0

构造 t 统计量:

由于

Cov=igma 2(X'X){-1}

,记

A_{ii}

为矩阵

^{-1}

对角线上的第i个元素。

idehat{eta i}im N

随机误差项

igma ^2

的估计值为

idehat{igma ^2}=rac{e'e}{}

因此

t=rac{idehat{eta _i}-eta_i }{se}=rac{idehat{eta i}-eta_i }{qrt{A{ii}rac{e'e}{n-k-1}}}=im t

给定显著性水平α,查表找出t分布的临界值,若

|t|>t_{lpha/2}

则不采用该模型,则认为对应解释变量对被解释变量存在显著影响,则接受该模型。

3.4.4 参数的置信区间

由于

t=rac{idehat{eta _i}-eta_i }{se}=rac{idehat{eta i}-eta_i }{qrt{A{ii}rac{e'e}{n-k-1}}}=im t

则给定显著性水平α,参数(1-α)水平的置信区间为:

,idehat{eta i}+t{lpha/2}imes se

3.4.5 其他约束条件的检验

若需要检验m个系数是否为0,可提出假设:

原假设

H_0:eta _1=eta _2=...eta_m=0

;备择假设

H_1:eta _1,eta _2,...,eta _m

不完全为0。

其实这相当于检验m个约束条件:

eta _1=0,...,eta _m=0

是否同时成立。

在H0为真的前提下进行回归(有约束回归),得到残差平方和为

S_R=um t}-...-idehat{eta _k}RX_{kt})2

在H1为真的前提下进行回归(无约束回归),得到残差平方和为

S=um ^2

若H0为真,不管是否包含这m个变量,得到的结果都不会有显著差别,即

S_Rpprox S

若H1为真,由于无约束回归的自由度更小,所以应有

S<S_R

因此,检验S与SR的差异是否显著,则相当于检验原假设是否为真。

构造F统计量如下:

F=rac{/m}{S/}im F

(显然,F统计量与度量单位无关)

接下来进行F检验即可。

当然,在其他约束形式下也可以分别实施有约束地和无约束地进行回归分析,并构建相应的F统计量用于检验。

3.5 模型的预测

对于模型

idehat{Y}=Xidehat{eta} +u

对于一个样本外的解释变量观测数据点X₀=(X₁,X₂,…,Xₙ),我们能够推断出其被解释变量的预测结果即为对总体均值E(Y₀)或单个个体Y₀进行推断。

因为这里得出的是预测值的一个近似值,在此之后还需要计算出预测值的置信区间

注意:

Y_0=E+u=E+u=Xeta +u

3.5.1 总体均值的预测的置信区间

由于

idehat{Y_0}im N^{-1}X_0'

,注意

igma ^2

的估计量是

S^2

构造t统计量:

rac{idehat{Y_0}-E}{Sqrt{X_0^{-1}X_0'}}im t

idehat{Y_0}

的标准误为

se=Sqrt{X_0^{-1}X_0'}

给定显著性水平α,因此得到总体均值的置信区间为:

,idehat{Y_0}+t_{lpha/2}imes se

3.5.2 个值的预测的置信区间

计算得到

e_0=Y_0-idehat{Y_0}im N^{-1}X_0'
rac{idehat{Y_0}-Y_0}{Sqrt{1+X_0^{-1}X_0'}}im t

e_0

的标准误为

se=Sqrt{1+X_0^{-1}X_0'}

给定显著性水平α,因此可以得到个值Y0的置信区间为:

,idehat{Y_0}+t_{lpha/2}imes se

3.6 虚拟变量

(1) 基本概念

引入虚拟变量的目的是定量化表示定性信息。

基于变量的属性类型,在回归分析中生成仅取值为0或1的人工辅助变数,并将其一般称为虚拟变数。在回归模型中,仅包含虚拟变数或定性变数的情况属于方差分析模型(ANOVA)。而当回归模型同时包含定量与定性变数时,则称为协方差分析模型。

(2) 虚拟变量的使用

a. 截距项变动

虚拟变量的引入只会导致截距项变动。

如下图所示:

可见虚拟变量控制了不同截距。

引入的虚拟变量应为:

D_1=eftegin{matrix} 1 &high school   0& other nd{matrix}ight.

D_2=eftegin{matrix} 1 &universityormore   0& other nd{matrix}ight.

回归函数为:

Y_i=eta _0+eta _1X_i+eta _2D_1+eta _3D_2+u_i

b. 斜率项变动

如果是下面这种情况:

截距项不变,斜率改变。

则对应的回归函数为:

Y_i=eta _0+eta _1X_i+eta _2DX_i+u_i

其中,

D=eftegin{matrix} 0  1 nd{matrix}ight.

c. 截距项和斜率均变动

若虚拟变量对截距项和斜率均有影响,则可以设定模型的形式如下:

Y_t=+X_t+u_t

其中,

D_t=eftegin{matrix} 0  1 nd{matrix}ight.

(3) 季节虚拟变量的使用

可以用3个虚拟变量表示4个季节

(4) 虚拟变量陷阱

每一定性变量引入的虚拟变量数量不应超过该定性变量类别数减去1个单位。如果违反了这一规定,则会导致上述假设6不成立,并将使得普通最小二乘法(OLS)估计失效从而产生所谓的虚拟变量陷阱问题

如,定性变量有m个类别,则引入m-1个虚拟变量。

4. 模型可能存在的问题与解决方法

4.1 误设定

错误的函数形式或者遗漏重要变量等等都会导致模型的误设定。

(1) 选取解释变量的4准则

a. 从理论上看该解释变量是否有必要

b. t检验(变量是否显著)

c.

verline{R^2}

(加入该解释变量后

verline{R^2}

是否变大)

d. 偏倚(加入该解释变量后其他变量系数估计量是否显著变化)

如果答案是“是”,则可以将该变量加入模型。

(2) RESET方法(检验模型误设定)

思路:在回归模型中加入

idehat{Y}2,\widehat{Y}3,idehat{Y}^4

将某因素设为解释变量后,若观察到结果发生明显变化,则提示模型可能存在问题(例如遗漏了关键影响因素等)。

步骤:对模型进行回归,得到残差平方和

RSS_M

和拟合值

idehat{Y}

,计算得到

idehat{Y}2,\widehat{Y}3,idehat{Y}^4

将这三个变量作为自变量纳入回归模型中,在此基础上进行第二次回归分析,计算新模型的残差平方和 RSS。

构造F统计量:

F=rac{/M}{RSS/}

M是约束条件的个数,这里是3。

4.2 多重共线性

如果出现多个解释变量之间高度相关,则模型会受到多重共线性的影响。这种现象常见于时间序列数据分析中。

当模型仅用于预测时,则要求其具有良好的拟合效果即可无需过多关注多重共线性;而当该模型被用于结构分析时,则成为一个较为严重的挑战。

4.2.1 分类

(1) 完全的多重共线性

若存在

c_1X_{1i}+c2X_{2i}+...+ckX_{ki}=0

,且c1,c2,...,ck不完全为零,则方程存在完全的多重共线性。

(2) 近似的多重共线性

若存在

c_1X_{1i}+c2X_{2i}+...+ckX_{ki}+u_i=0

,ui为随机误差项,且c1,c2,...,ck不完全为零,则方程存在近似的多重共线性。

注意,此时并不违背任何基本假设。

4.2.2 产生的原因

(1) 经济变量共同的变动趋势

(2) 滞后变量的引入

(3) 样本的限制

4.2.3 多重共线性的后果

(1) 完全共线性下OLS估计量不存在

完全共线性情况下,

|X'X|=0

,因此

^{-1}

不存在,故而

idehat{eta }=^{-1}X'Y

不存在。

(2) 近似共线性下OLS估计量的方差增大

已知参数估计量的方差为

Cov=igma 2(XX){-1}

,因此,当

|X'X|pprox 0

^{-1}

主对角线元素较大,故而参数估计量的方差也对应较大。

(3) 使得变量的显著性检验出现偏误

因为参数估计量的方差增大,通常会导致基于样本数据计算得到的t统计量低于其临界值水平。这可能使研究者误判参数的真实值为零。此外,在这种情况下还会有可能导致重要因素被遗漏。

(4) 参数估计量的经济含义不合理

当两个解释变量之间存在线性相关性时,在多元回归模型中X1和X2的参数将不再单独体现各自自变量对因变量的影响. 相反地, 它们将共同反映各个自变量与因变量之间的相互影响关系. 这种情况会导致参数估计量在符号和大小上出现异常, 进而丧失其在经济分析中的意义.

4.2.3 初步判断

如若发现估计值的符号存在偏差,并且关键指标的t值偏低但模型拟合度较高,则需考虑剔除一个看似无关但实则影响显著的关键因素时模型预测效果明显下降的情况

4.2.4 检验

(1) 利用变量之间的相关性判断

求出相关系数r。

在存在多个解释变量的情况下,对每个解释变量进行回归分析,并观察其拟合效果。

(2) 方差膨胀因子 (VIF)

(3) 条件指数

4.2.5 解决方法

(1) 增加数据

(2) 增加约束条件

(3) 删去某些变量

可以考虑逐步回归法

(4) 改变模型形式

可以考虑使用差分模型,通常增量之间的线性关系远远弱于总量之间的。

可以用被解释变量的滞后值代替解释变量的滞后值。

也可以使用离差形式的模型。

(5) 主成分回归,因子分析,岭回归等等

4.3 异方差性

在不同样本点之间分析时, 如果每个样本点的随机误差项其方差不再是恒定值, 则可以得出结论认为随机误差项出现了异方差性

Var=igma _i^2

4.3.1 分类

(1) 单调递增型:

igma ^2

随 X 的增大而增大

(2) 单调递减型:

igma ^2

随 X 的减小而减小

(3) 复杂型:

igma ^2

随 X 的变化较为复杂

4.3.2 后果

(1) 参数估计值非有效

因为OLS估计需要同方差性的条件,即

E=igma ^2I

(2) 变量的显著性检验失去意义

因为异方差性会导致

se

产生偏误

(3) 模型的预测失效

4.3.3 检验

(1) 图示法

绘制X-Y散点图:散点是否分布在一条固定的带状区域

绘制X-

idetilde{e_i}^2

散点图:是否形成斜率为零的直线

(2) 帕克检验 (Park test)

将图示法中的X-

idetilde{e_i}^2

散点图描述成具体的公式。

ln idetilde{e_i}^2=eta _0+eta _1X+u_i

,若

eta _1

显著,则数据具有异方差性。

(3) 格里瑟检验 (Glejser)

与Park test相似,但是用残差的绝对值和解释变量做回归。

(4) 格雷弗尔德-匡特检验(G-Q检验)

以F检验为基础,适用于样本量较大,异方差递增或递减的情况。

将n组样本观察值(X_i,Y_i)按照自变量X_i的大小顺序排列后,在序列中剔除中间c=n/4个观测值,并将剩余的数据划分为两部分:一部分是较大的观测值集合(即较大的X_i对应的(X_i,Y_i)),另一部分则是较小的观测值集合(即较小的X_i对应的(X_i,Y_i))。然后针对这两组数据分别进行最小二乘法回归分析……得到各自的残差平方和结果为 RSS1 和 RSS2

在同方差假定下构造F统计量:

F=rac{RSS_2//2-k-1}{RSS_1//2-k-1}im F_lpha /2-k-1,/2-k-1

进行F检验即可。

(5) 怀特检验(White test)

不需要排序,适合任何形式的异方差。

以二元回归为例,作辅助回归:

idetilde{e_i}^2=lpha 0+lpha 1X{1i}+lpha 2X{2i}+lpha 3X{1i}^2+lpha 4X{2i}^2+lpha 5X{1i}X{2i}+u_i

得到辅助回归的决定系数R2,解释变量个数m,样本容量n。

在同方差假设下:

nR^2imhi ^2

则对nR2进行

hi ^2

即可。

(6) 布罗施-培甘检验 (B-P检验)

对模型进行OLS估计,得到残差。通过残差得到误差项的估计

idetilde{igma_i }^2=um idetilde{e_i}^2/n

构造新变量pi:

pi=idetilde{e_i}^2/idetilde{igma _i}^2

对模型进行回归:

p_i=lpha 0+lpha 1z{1i}+...+z_mz{mi}+u_i

获得回归平方和ESS值。需要注意的是B-P检验对这个模型施加了无需额外约束的限制条件。当且仅当模型中包含常数项时才适用。

易知

1/2ESSimhi ^2

,进行

hi ^2

检验即可。

(7) 布罗施-培甘检验 (B-P检验) 的另一种形式

对模型Y_t=\beta _0+\beta _1 X_{1t}+...+\beta __kX_{kt}+u_t进行回归得到残差,建立模型:

e_t^2=\delta _0+\delta _1 X_{1t}+...+\delta __kX_{kt}+v,回归得到决定系数

R^2

构建统计量:

F=rac{R^2/k}{/}im F

或者构造统计量:

LM=nR^2im hi ^2

接下来根据所选的统计量进行F检验或者卡方检验就好啦。

4.3.4 解决方法

(1) 变换模型形式使得具有同方差性,再进行OLS估计。

(2) 广义最小二乘估计 (GLS)

异方差情况下,

E=igma ^2mega

其中,

mega =igl

4.4 自相关性

在不同样本点之间,随机误差项之间的关系不再完全不相关,则通常推断存在序列相关性。

Cov=Eeq 0

常出现于时间序列数据。

4.4.1 自相关的分类

Eeq 0

称作k阶自相关。

(1) 一阶自相关

仅存在

Eeq 0

,则称作一阶自相关。表示为

u_t=ho u_{t-1}+arepsilon_t

其中,

ho

为自相关系数;而

arepsilon _t

为随机干扰项,为白噪声序列。

由于

ho

0,是正相关,相邻的误差项倾向于同上或同下,正负号相同。

由于

ho

<0,是负相关,相邻的误差项倾向于一增一减,正负号不同。

4.4.2 产生的原因

(1) 经济事件数据常有的惯性

(2) 数据编造

(3) 设定偏误

缺少重要变量,该变量有自相关性。或者模型形式有问题。

4.4.3 产生的后果

类似于异方差性。

4.4.4 检验

思路:采用普通最小二乘法(OLS)方法计算得到误差项的近似值,称为残差。进一步考察这些近似值之间的相互关联性来判断是否存在自相关。

(1) 图示法

观察

idetilde{e_t}

的变化判断

u_t

的自相关性。

(2) D-W检验

假设:a) X是一个确定性变量;b) ut存在一阶自相关性;c) 解释变量中没有滞后因变量;d) 回归模型包含截距项。

提出假设:原假设

H_0:ho =0

构造统计量:

D.W.=rac{um_{t=2}{n}(\widetilde{e_t}-\widetilde{e_{t-1}})2}{um_{t=1}{n}\widetilde{e_t}2}

难以准确求得该统计量分布,其复杂性源于与变量X的相关性;然而通过查表能够较为简便地确定该统计量的上下限范围

d_u,d_l

,给定显著性水平α,上下限仅与解释变量个数k和样本容量有关。

比较DW和上下限的大小,得出结论:

因为

D.W.pprox 2

(3) 布鲁奇-戈弗雷检验法(BG检验)

为了弥补DW检验的一些不足之处,在处理含有滞后因变量以及存在高阶自相关情况的模型时具有较好的适用性

如果怀疑该模型Y_t=\beta_0+\beta_1 X_{1t}+...+\beta_k X_{kt}+u_t表现出p阶自相关特性,则进而对以下设定展开有约束回归分析。

Y_t=\beta _0+\beta _1 X_{1t}+...+\beta __kX_{kt}+\rho _1u_{t-1}+...+\rho _pu_{t-p}+\varepsilon _t

提出假设:原假设

H_0:ho _1=ho _2=...=ho _p

Y_t=\beta _0+\beta _1 X_{1t}+...+\beta __kX_{kt}+u_t进行回归得到残差

idetilde{et}

构建模型 \widetilde{e_t}=\beta _0+\beta _1 X_{1t}+...+\beta __kX_{kt}+\rho _1\widetilde{e_{t-1}}+...+\rho _p\widetilde{e_{t-p}}+\varepsilon _t ,经过回归分析得到模型的决定系数

R^2

.

构造统计量:

当原假设为真时有

LM=R^2im hi ^2

在大样本下比较准确。

接下来进行卡方检验即可。

4.4.5 消除的方法

(1) 一阶自相关

原模型:

Y_t=eta _0+eta 1X_t+u_t,u_t=ho u{t-1}+arepsilon _t

。其中

arepsilon _t

是白噪声序列。

一阶滞后模型:

Y_{t-1}=eta 0+eta 1X{t-1}+u{t-1}

两边同乘

ho

,得到模型:

ho Y_{t-1}=ho eta 0+ho eta 1X{t-1}+ho u{t-1}

原模型减上述模型:

Y_t-ho Y_{t-1}=eta _0+eta _1+

因为

u_t-ho u_{t-1}=arepsilon _t

,因为满足经典假设。

进行广义差分变换:

Y_t^=Y_t-ho Y_{t-1},X_t^=X_t-ho X_{t-1},eta _0^*= eta _0

可以得到广义差分模型:

Y_t^=eta _0^+eta _1X_t^*+arepsilon _t

注意:为此建议可以通过使用加权平均的方法来补偿由于差分变换导致的一个观测值丢失的信息量(以确保数据间的方差齐性)。

Y_1=Y_1qrt{1-ho2},X_1=X_1\sqrt{1-\rho2}

**因此可见,重点在于求出

ho

。**

a. 使用DW统计量估计

ho

由上已知易求出

D.W.pprox 2

,因此可以通过DW统计量求出

ho

,但这只有在大样本下才准确。小样本时,提出修正后的估计

ho=rac{n2(1-DW/2)+k2}{n2+k2}

b. 通过OLS残差估计

ho

通过OLS估计得到残差,建立回归模型:

idetilde{e_t}=idehat{ho} idetilde{e_{t-1}}+arepsilon _t

但是小样本情况下

ho

的估计量

idehat{ho}

有偏。

c. 科克伦-奥克特迭代法

通过一系列的迭代,从

ho

的某个初始值开始,通过逐步逼近反复估计

ho

通过对原模型OLS估计得到残差,建立回归模型:

idetilde{e_t}=idehat{ho} idetilde{e_{t-1}}+arepsilon _t

,得到

ho

的估计量,进行差分变换,得到模型:

Y_t^=eta _0^+eta _1X_t^*+arepsilon _t

重新计算残差,进行对

ho

的估计,不断迭代下去。

当然通常迭代两次就够啦(又称科克伦-奥克特两步法)。

d. 希尔德雷斯-卢搜寻法

实际上是一种格点搜索法,在

ho

的预先指定范围(如从-1到1)内指定格点之间的距离(如0.01),用这样产生的全部

ho

值(如-1.00,-0.99,...)对X,Y进行差分变换:

Y_t^=Y_t-ho Y_{t-1},X_t^=X_t-ho X_{t-1},eta _0^*= eta _0

估计:

Y_t^=eta _0^+eta _1X_t^*+arepsilon _t

将可以产生最小标准误差的作为

ho

的估计量。

(2) 一般自相关

广义最小二乘法:

对于模型:

Y=Xeta +u

如果存在自相关性,则有

Cov=E=igma ^2mega
mega

是对称的正定矩阵,存在可逆矩阵P,有

PP'=mega

。用

P^{-1}

左乘原模型:

P{-1}Y_t=P{-1}X eta +P^{-1}u

P^{-1}

对X,Y进行广义差分变换:

Y_=P{-1}Y,X_*=P{-1}X,u_=P^{-1}u

可以得到:

Y_=X_eta +u_*

易证广义最小二乘估计量为:

idehat{eta} _{GLS}=^{-1}

且这个估计量是线性、无偏、有效的。

**因此,我们只需要考虑如何得到

mega

。**

如果随机误差项为一阶自相关的,则可以得到:

Cov=igma _u^2igl

P=igl

,容易证明

Pmega P'^{-1}=I

则用

P^{-1}

对X,Y做变换有:

Y_t^=1-ho Y_t ,X_t^=1-ho X_t,Y_1*=Y_1\sqrt{1-\rho2},X_1*=X_1\sqrt{1-\rho2}

对变换后的模型做回归则可以得到广义最小二乘估计量。

5. 联立方程模型

例如, 市场均衡理论以及商品需求方程组都属于联立方程模型. 由于各变量之间相互影响会产生一定的估计难题, 因此我们需要着手解决这一类问题.

5.1 行为方程和恒等式

5.1.1 行为方程

例如消费函数被称作一个行为方程,它涉及消费者的行为.同时,描述经济变量之间技术联系的方程也被视为行为方程,然而它们所描述的内容并非直接的行为.

因此,在广义情况下,行为方程是用来揭示变量间的经验关联的方程式。它不仅包含隐含参数还包含随机干扰项。

5.1.2 恒等式

也被视为一种定义型的变量间恒等式;它指的是通过人为规定的数学表达方式所建立的变量间的精确对应关系。例如,在经济领域中可表示为:净投资等于期末资本存量减去期初资本存量。

不包含未知参数,没有不确定性。

5.2 几类变量

5.2.1 内生变量

将内生变量视为随机变量,在联立方程系统中进行参数估计时所涉及的因素具有相互影响的关系——一方面对各方程产生影响;另一方面也会受到各方程的影响。这些因素通常被视为经济领域的核心指标之一。在一般情况下,在联立模型中存在内生性问题时(即内生变量与扰动项相关)。

Cov=Eeq 0

内生变量既作为被解释变量,又可以在不同方程之间作为解释变量。

5.2.2 外生变量

通常多为确定性变量,在模型系统的要素中并不包含这些参数,在分析时也不受到随机扰动项的影响。这些参数会对系统产生影响但不会被系统所作用。此类指标主要包括但不限于经济指标、条件判断指标以及虚拟标识等类型

5.2.3 前定变量

外生变量与滞后的内生变量的统称。前定变量只能作为解释变量。

5.3 模型的形式

5.3.1 结构式

其中被称为结构方程的一个模型描述了经济系统中的变量关系,在该模型中每一个变量都与特定的经济因素相联系;每个模型中的系数则代表了变量之间的相互影响程度

如:

C_t=lpha+eta Y_t+u_t
Y_t=C_t+I_t

5.3.2 简单式

将所有前定变量视为内生变量的解释因素,在简化式模型中所涉及的方程式统称为简化式方程式,在方程式中的系数则被称为简化式系数;这些系数量化了前定变量对内生变量的影响程度及其传导途径;这一设定并未旨在精确描绘经济体系的真实运行机制

5.4 联立方程模型的识别

5.4.1 可识别方程

如果不将模型中其他方程的线性组合视为与其统计形式完全一致的方式,则该方程被判定为可识别。

统计形式完全相同是指如两个方程的变量相同,函数形式相同,如:

两个方程都是:Qt=截距+斜率*Pt+随机扰动项

例子:供求模型

eftegin{matrix} Q_t=lpha_0+lpha_1P_t+u_t  Q_t=eta_0+eta_1P_t+arepsilon _t nd{matrix}ight.

因为能够获得的线性组合在需求与供给模型中呈现出一致的统计结构,并且这些变量间的关联关系不足以区分出独立的影响效应,因此在联立方程模型中无法实现对需求函数与供给函数的有效识别。

5.4.2 消除模型中的识别

不可识别的方程中结构参数无法被估计,所以应该首先消除这个问题。

只要在方程中添加不同的解释变量,则可以消除方程的不可识别问题。

如在需求方程中添加Y变量,得到新的供求模型如下:

eftegin{matrix} Q_t=lpha_0+lpha_1P_t+u_t  Q_t=eta_0+eta_1P_t+eta_2Y_t+arepsilon _t nd{matrix}ight.

当需求函数与其他模型中的函数以不同方式排列时,则它们各自的统计形式也会有所不同。这表明其参数是可估计的。而供给函数仍无法确定参数。然而,在引入一个新的外生变量M之后,则能够使该函数变得可识别。

5.4.3 恰好识别and过度识别

(1) 恰好识别

当模型中约束信息用于识别某个方程时, 如果这些约束刚好足够, 则判定该方程为恰好识别

(2) 过度识别

在系统中限制因素所包含的信息不仅足以用于辨识某一方程,并且还有冗余信息,则判定该方程为过识别人工

5.4.4 识别的条件

(1) 阶条件

模型中某个方程可识别必须满足的条件是:该方程未包含的变量数量至少与模型中方程数量减一相等。施加在该方程结构参数上的约束数目至少与方程总数减一相等。

即:

K-Meq G-1

或者

Req G-1

其中,K代表模型中所有变量的总数量(包括内生和先决变量);M代表方程系统中的各个变量;G表示模型中独立方程的数量(等于内生变量的数量);A R值则表示对这些结构参数施加了多少限制条件的数量。

虽然是必要条件之一,在多数情况下,则有助于判断模型中方程组的可识别性。

K-M=G-1

,恰好识别;

K-M>G-1

,过度识别;

K-M<G-1

,不可识别。

(2) 秩条件

模型中某个方程可识别的充分必要条件是:当且仅当该方程中未被包含的所有变量对应的系数矩阵的秩恰好等于G-1时

5.5 联立方程模型的估计

当一个内生变量被用作解释变量出现在方程中时,
通常会与随机误差项相关联,
从而导致该估计量既不具无偏性也不具一致性,
使得这种估计方法不再适用。

5.5.1 单方程方法

逐一推算每个方程式的同时,在分析过程中综合考虑模型中其他所有相关性较高的方程式对其它未被直接推算但有相互关联性之当前被推算之特定变量之间的相互影响关系

常用的计量方法包括:间接最小二乘法(ILS),以及两阶段最小二乘法(2SLS)和有限信息极大似然估计方法(LIML)。这些技术在解决复杂经济模型时非常有效。

(1) 间接最小二乘法 ILS

求取简化的数学表达式,并运用普通最小二乘法分别估计各简化式参数的一致性度量;随后计算结构式的参数估计量,并基于这些结果推导出原始模型的参数估计值。

仅适用于恰好识别方程的估计。

(2) 二阶段最小二乘法 2SLS

思路:将所有外生变量合起来作为一个“最佳的”工具变量。

第一步:为了估计模型中的各个内生变量对所有前定变量的影响,在每个内生变量上实施简化式回归(即进行简化式回归),随后计算每个内生变量的拟合值。

第二步:随后,在方程中将内生变量的估计值替代其作为解释变量的角色(此处假设这些估计值相当于所内生变量相应的工具变量),并应用普通最小二乘法(OLS)来处理原方程。

2SLS作为一种合适的工具变量估计算法,在理论上有其一致性的保障。在小样本下通常表现优于其他方法,并且具有较高的稳定性,在联立方程模型中被普遍采用

适用于各类可识别方程中,在具体应用到刚好识别的方程时,其效果几乎与ILS法一致。

5.5.2 系统估计方法

在模型的整体结构参数上同时进行了估算。由于在估算过程中采用了整个系统的综合信息,在渐近分析下其有效性的优势更加明显;然而计算成本相对较高,并且对于模型误设定具有较高的敏感度。

常用方法有三阶段最小二乘法(3SLS法)、完全信息极大似然法(FILM法)

(1) 三阶段最小二乘法 3SLS

思路:首先利用两阶段最小二乘法计算每个结构方程以获得一系列残差值;接着通过这些残差值计算各扰动项之间的协方差矩阵;最后将所有模型综合起来形成一个完整的系统模型并进行参数估计。

第一步:估计各方程的2SLS估计量。

第二步:通过2SLS估计量计算出每个行为方程的残差值后,在此基础上推算出各扰动项在相同时间点上的方差-协方差矩阵

第三步:用GLS法估计代表该系统所有方程的巨型方程。GLS中的

mega

由上一步骤计算得到的2SLS残差得到。

构建综合方程:以模型中的行为程式中的各项指标作为自变量,并整合所有观测数据形成一个衍生程式。其中若有内生性问题,则采用两阶段最小二乘法(2SLS)作为估计工具。此时每个变项的抽样容量均为Gn个(其中G代表行为程式之数量,n为原始抽样容量)。

例子:

3SLS是一致估计量,通常较2SLS更加有效。

6. 时间序列分析

7. 面板数据模型

全部评论 (0)

还没有任何评论哟~