计量经济学学渣笔记
4.1 选择解释变量
-
经济理论的结论超越了统计分析的结果。
-
当存在遗漏变量时, 参数估计出现偏差并丧失一致性, 并且估计值的波动性降低。
-
引入无关变量时, 参数估计虽无系统偏差但缺乏效率, 并导致t检验无法显著识别变量的影响。
-
赤池信息量准则(AIC)与施瓦茨信息量准则(SC)
- 其中,AIC计算公式为: AIC = \frac{2k}{n} + \ln{\left(\frac{RSS}{n}\right)}
- SC计算公式则为: SC = \frac{k}{n}\ln{n} + \ln{\left(\frac{RSS}{n}\right)}
-
AIC与SC准则对引入解释性变量施加了惩罚力度,在此过程中SC准则相比AIC采取了更为严格的惩罚策略。从整体效果来看,AIC与SC值越小,所构建的模型则表现得更为优秀。
-
模型设定标准主要包括以下几点:
-
要求解释性变量具有明确的意义
-
当进行t检验时,各解释性参数估计值应在预设假设范围内具有显著性
-
在引入新变量后,需观察整体拟合情况的变化趋势
-
必须考察引入某变量后,其他相关参数估计值是否发生显著变动
-
模型参数设定搜索
-
数据挖掘
适当的数据显示有助于发现尚未被现有经济理论解释的经济规律
不适当的数据分析可能会导致过度解读或误读现象- 敏感性分析:稳定性(robust)分析
4.2 模型设定
-
回归函数的选择
-
无截距项的回归模型
-
回归模型的具体结构设定
-
模型结构设定的选择
-
不带截距项的回归模型
-
Y_i=\beta_1X_i+\varepsilon_i
-
证明可知:
残差均值不一定等于零
拟合优度指标可能呈现负数值- 除非有非常强的先验经验,否则还是采取含有常数项的模型
-
参数呈现参数间的显性和非限制性的显式关系,其中包含可转化为直线形式的非直线关系;1. 指数型数据 y_i = ae^{bx_t+\varepsilon_t} \Rightarrow \ln{y_i}=\ln{a}+bx_i+\varepsilon_i;半对数回归模型,其应用广泛于金融领域中的复利计算
被表示为 Y_{t}= Y_{0}(1 + r)^{t}\cdot e^{\varepsilon_{t}}
由此可推导出 \ln Y_{t}= \ln Y_{0} + t\cdot \ln (1 + r) + \varepsilon_{t}
即 \ln Y_{t}= \beta_{0} + \beta_{1} t = \varepsilon_{t}
2. 对数函数
Cobb-Douglas生产函数,取对数后两侧都是对数
3. 反函数形式
Y_i+\beta_0+\beta_1\frac{1}{X_i}+\varepsilon_i
4. 多项式形式
Y_i=\beta_0+\beta_1X_i+\beta_2X_i^2+\varepsilon_i
- 如何确定函数形式
- 可参考经济学理论设定的具体函数形式。
- 模型参数的选择需基于预先设定的合理预期。
- 当多个模型能够较好地拟合数据时,则通常会选择具有较高调整后的R^2值以及较低AIC和SC值的模型;但需要注意的是,在对因变量Y进行变换的情况下,这些指标不再具有可比性。
5.1 多重共线性的定义
-
OLS的基本假设
-
回归模型呈现线性关系且完整无误地包含了所有必要的变量及误差项
-
误差项的平均值为零 E(\varepsilon_i)=0
-
解释变量与误差项之间不存在任何相关关系 Cov(X_i,\varepsilon_i)=0
-
任意两个误差项观测值之间都不存在自相关 Cov(\varepsilon_i,\varepsilon_j)=0
-
误差项具有相同的方差特性 Var(\varepsilon_i)=\sigma^2
-
没有任何一个解释变量能够完全由其他解释变量构成其线性组合(避免完全多重共线问题)
-
OLS的基本假设
-
设计矩阵X在列方向上达到满秩状态
-
总体上而言,随机误差项的期望值为零 E[\varepsilon]=0
-
随机误差与各自解释变量之间不存在线性关系 E[\varepsilon | X_i]=0
-
每个随机误差项具有相同的方差且彼此之间相互独立 E[\varepsilon_i \varepsilon_j] = \sigma^2 当i \neq j时;并且E[\varepsilon_i] = 0
-
多重共线性现象的主要表现
-
可能存在F统计量达到显著水平, 但各个自变量的t检验均未通过
-
可能会出现部分偏回归系数与预期方向相反, 并且对模型设定的变化极为敏感
-
可能导致总拟合优度R^2较高, 却仅有部分偏回归系数未能通过检验
-
多重共线性的定义:在回归模型中存在某些或全部解释变量之间具有完全或非完全的线性关系。
-
当出现完全多重共线性时,X^{\top} X矩阵不可逆,方程组X^{\top} X = \beta = X^{\top} y存在无穷多组解。
-
在不完全多重共线性的条件下,X^{\top} X矩阵可逆,方程组X^{\top} X\beta = X^{\top} y拥有唯一的最小二乘解\hat{\beta} = (X^{\top} X)^{-1} X^{\top} y。
-
不完全多重共线性通过普通最小二乘法(OLS)可以获得参数估计及其标准误,这些估计量具有无偏性,然而由于标准误较大导致估计精度较低。
对于基于不完全多重共线性的预测模型而言,在样本与未来预期的一致性得到保留的情况下进行单纯做预测是可行的。然而,在未来环境中该共线性的结构发生变化时,则这种不确定性将显著影响预测结果。
5.2 多重共线性的诊断和规避
1. 多重共线性的成因
2. 多重共线性的检测
1. 这是一个程度上的问题而非有无之分
2. 分析解释变量的相关性矩阵通常认为其间的相关程度达到0.8以上时即可视为较显著
3. 常可通过F检验来进行检测
4. 当涉及多个解释变量时需要计算偏相关系数而并非简单相关系数因为后者仅作为参考而非标准依据
5. 可参考上文中的分析结果以了解具体估计情况
6. 方差膨胀因子(VIF)通常当其值超过5时被视为存在多重共线性的情况
-
解决多重共线性问题的方法
-
去除主要影响因素(例如学生的成绩和排名)
-
扩大样本规模(多重共线性在小样本中较为常见)
-
去除不必要的变量
依据经济学理论原则,在具体分析时应采取‘一事一议’的方式 -
转换自变量
一阶茶粉
两个变数之间的比值
主分量分析法用于整合原始数据
因子分析法用于解析原始变数 -
问题比较严重了,如符号不如预期了再用上述方法
5.3 多重共线性的案例
6.1 序列相关性的概念
随机误差项向量满足同方差性和相互独立性E[\varepsilon\varepsilon']=\sigma^2I被专门定义为球形扰动现象。
当随机误差项向量的协方差矩阵偏离这一形式时,则被统称为非球形扰动现象。
其主要包含两种情况:一是样本观测值之间存在系统性的序列自相关现象;二是回归模型中随机误差分量呈现出异方差性问题。
-
序列间的相互关联性被定义为自相关。
-
对于一阶序列相关的情况而言,在数学上可表示为\varepsilon_1是前一期误差项\varepsilon_{t-1}的函数。
-
在高阶序列相关的场景下,则表明当前误差项\varepsilon_1受到多期过去误差项的影响。
-
在线性假设下通常假定为线性序列关系。
-
其中 \rho 被定义为一阶自回归系数,并且满足 |\rho| < 1 ; u_t 被视为白噪声时间序列,在此过程中 E(u_t) = 0 、 Var(u_t) = \sigma_u^2 以及 Cov(u_t, u_{t+s}) = 0 (当s \neq 0时)。
-
基于自回归系数 \rho 的不同取值情况可将序贯关系划分为以下几类:
-
当 \rho > 0 时称为正序贯关系;
-
当 \rho < 0 时称为负序贯关系;
-
当 \rho = 0 时则表示不存在显著的序贯关系。
-
序列相关的类型
-
非纯序列相关
由于设定误差引起的问题
例如变量遗漏、采用错误的函数形式等- 纯序列相关
6.2 序列相关的后果
当纯序列自相关的情况发生时
基于残差的序列相关性检验具有重要统计学意义
-
Durbin-Watson检验中,d值主要取决于残差序列。
其与自相关系数ρ之间的关系为:ρ∈(-1,0,1)对应于d∈(4,2,0)。
由于方差可能不满足正态分布假设,并且残差还与自变量X相关联,
因此d统计量的估计存在较大困难。- BG检验(布劳殊-戈弗雷检验),又称LM检验
克服了DW检验的困难
- BG检验(布劳殊-戈弗雷检验),又称LM检验
6.3 序列相关的补救措施
- 非纯粹序列相关性可通过调整模型设定加以解决
- 纯序列相关情况下的修正措施
-
广义最小二乘法GLS:广义差分法
已知自相关结构
在自相关系数未知时需估计rho -
AR方法
-
Newey-West方法(HAC)
-
7.1 异方差的概念和表现
-
随机干扰项的方差会根据下标的变化而变化。
-
var(\varepsilon_i)=\sigma^2_i=\sigma^2Z^2_i (i=1,2,...,N)
-
在上述公式中,Z被视为外生变量,也可能被定义为X,则可视为比例因子。
-
非纯异方差通常是由模型设定错误引起的原因之一,例如遗漏关键变量。
-
纯异方差源于数据自身结构的变化,具体表现为:
1. 在横截面数据中被解释变量的取值范围差异较大。
2. 时间序列数据中受到学习效率和数据采集技术等因素的影响。
3. 异常值的存在。 -
纯异方差下的表现:
-
OLS估计量仍是无偏的
-
OLS不再成为最佳线性无偏估计
-
采用OLS计算的标准误常出现偏差且为负值,在多数情况下会导致t统计量被高估从而使得原本不显著的因素显示出显著性
-
异方差的存在会导致OLS假设检验结果不可靠
7.2 异方差性的检验
-
异方差的检验
1. 图解法
2. 帕克检验
采用OLS估计。。。 -
怀特(White)检验
核心观点:异方差现象源于解释变量的线性组合及其高阶项
通过构建卡方统计量来判断模型是否存在异方差问题。
7.3 异方差补救措施
- 非纯粹异方差时应纠正模型设定问题
- 纯正性存在的条件下需采取修正措施
- 广义最小二乘法即加权最小二乘法(通过除以比例因子实现)
- 使用White方法来修正异方差标准误
- 建议重新构建变量组合
8.1 虚拟变量的含义
-
经济变量
1. 可以定量度量
2. 不可以定量度量:职业、性别、战争、自然灾害等 -
虚拟变量 : 定性变量
1. 如引入变量Sex,男性为1女性为0
