金融计量学第2课堂-金融时间序列线性模型

量化策略开发,高质量社群,交易思路分享等相关内容
一、相关性和平稳性
1、相关性
(1)皮尔森相关系数
皮尔森相关系数是最广泛应用于衡量两个随机变量之间线性相关程度的一种统计指标。它被广泛认为是评估变量间关联性的基础方法,在此不做进一步详细阐述。
(2)斯皮尔曼相关系数
斯皮尔曼相关系数是以随机变量秩为基础的相关指标;该方法依据的是秩理论基础;无需假设变量间存在线性关联;无需直接处理原始数据;而是利用原始数据的秩来计算斯皮尔曼相关系数。
基于一组数对(X₁,Y₁),…,(Xₙ,Yₙ),为了衡量二元变量x与y之间的相关程度,在处理这些数据时首先要将x和y的观测值进行排序,并由此得到它们各自的秩统计量序列(r₁,s₁), ..., (rₙ,sₙ)。
斯皮尔曼相关系数是一种无参数的相关分析方法,在统计学与相关分析领域中被用来衡量两个变数之间的单调关联关系。在这里,“单调关联关系”指的是两个变数之间呈现一致的变化趋势。换言之,在多数情况下:当某一变数增大时,另一变数也随之增大;或者在少数情况下:当某一变数减小时(即增大其相反方向),另一变数也随之减小(即增大其相反方向)。
monotonic关系可以是:
1、 正相关—— 两个变量均增加或减少。例如:身高和体重。
2、 负相关—— 一个变量增加而另一个变量减少。
举例而言,在讨论价格与需求量之间的关系时,Spearman's rank correlation coefficient被用来衡量两个变量之间单调性的关联程度这一统计指标具有显著的效果。
该方法基于对各变量取秩值后观察其协同变化情况,从而避免了对数据呈严格线性关系的前提假设。
与此相对地,Pearson's correlation coefficient则被用来衡量线性关联程度这一指标具有特定的应用条件即数据需服从正态分布。
总体而言,Spearman的相关分析涵盖了更为广泛的情形而Pearson的相关分析仅限于处理具有严格线性关系的数据类型。
因此,Spearman的相关分析指的是两个变量的变化趋势呈现单调性的情况即它们要么同步增长要么同步下降。
这种现象既可能是正向相关的也可能是负向相关的具体情况由数据的变化方向决定。

可以用这个客观但可能不是很严谨的图来理解一下。
它的计算原理和逻辑如下:
对数据样本库中的每一个样本执行rank转换操作。具体而言,就是将每个变量的数值根据它们在整体中的相对规模进行排序,并赋予从1开始的名次。
计算每个样本在两个变量上的rank差值的平方和。
计算rank差值的平方和之和。
计算每个变量的rank值之和。
将其代入计算Spearman相关系数的公式:其中ρ代表Spearman相关系数,d代表各对样本的秩差值,n为样本数量
举例说明:
有5个样本,变量x的观测值为[15, 20, 40, 10, 50],变量y的观测值为[20, 10, 60, 5, 30]。
对两个变量的观测值进行rank转换:x: [15, 20, 40, 10, 50] => [2, 3, 4, 1, 5]y: [20, 10, 60, 5, 30] => [3, 2, 5, 1, 4]
计算rank差值的平方和:
(2-3)2 = 1 (3-2)2 = 1
(4-5)2 = 1 (1-1)2 = 0
(5-4)2 = 1
∑d2 = 1 + 1 + 1 + 0 + 1 = 4
x的rank和 = 2 + 3 + 4 + 1 + 5 = 15
y的rank和 = 3 + 2 + 5 + 1 + 4 = 154.
通过计算可得ρ等于1减去6乘4除以5乘(5平方减去5)的结果为0.8;经过对数据分析过程中的错误进行修正后,在这种情况下x与y之间的Spearman相关系数ρ等于0.8;这表明x与y之间存在中度等级的相关性;进一步分析可知,在这种情况下随着x值的增长y值呈现出递增的趋势。
Spearman相关系数计算步骤:
对两个变量的观测值进行rank转换,将值从小到大排序并分配排名
计算rank差值的平方和∑d2
计算两个变量的rank值之和
计算出的结果将被代入到Spearman's correlation coefficient formula中。\该公式的形式为ρ = 1 - 6*∑d² / [n(n²-1)] ,其中ρ的取值范围在0至1之间。\当计算得到ρ值时采用的方法使得其结果位于0至1之间,并且数值越高则表示两个变量之间存在的单调关联性越强
(3)肯德尔相关系数
肯德尔相关系数是一种无参数的相关分析方法,常用来测定两个变量间的等级关联程度。该方法通过统计一致配对和不一致配对的数量来评估两组数据之间的关联程度。与皮尔逊(Pearson)检验相比,在这里我们讨论的是肯德尔(Kendall)检验。由于其不需要假设数据遵循特定分布,并不受线性关系的限制,在分析时特别适用于具有单调趋势的数据序列。它通过分析观测值的排列顺序来确定各变量变化的一致性水平,并因此得名秩(rank)相关的指标。
在给定一组数据点(X₁,Y₁),...(Xₙ,Yₙ),若两数据点之间的协作为正即为 (Xi - Xj)(Yi - Yj) > 0,则这对数据点称为协同;反之亦然。

设nc是x与y协同的对子,nd是不协同的对子数,那么肯德尔系数定义为:

上述公式也可以用另外一种估算逻辑表示:

下面我们绘制一下贵州茅台和五粮液的月收益率散点图,如下图所示:

下面是两个股票的3种不同的相关系数计算,如下图所示:

2、平稳性
平稳性是时间序列的核心;识别一个序列是否平稳是关键;对时间序列的平稳性检验主要基于以下两个方面的考量。
首先,在传统统计学中,默认假设数据是随机抽样的。然而,在实际应用中,默认假设数据是随机抽样的这一前提有时并不成立。基于平稳时间序列的数据特性,则能够替代传统的随机抽样假定。因此,在这种情况下,我们可以采用平稳时间序列作为样本数据使用,并将其用于构建计量经济模型。当模型设定正确时,则该模型的随机扰动项仍然满足极限法则以及经典计量经济模型的基本假设。
其次,平稳时间序列建立计量经济学模型,可有效减少虚假回归。
时间序列一般分为若平稳和强平稳。
(1)平稳过程
称该时间序列为弱平稳的条件是其均值和方差在时间上恒定,并且任意两个时期的协方差仅与两者之间的间隔有关,与具体的时间无关。这种类型的时序表现出以下特性:均值和方差恒定;协方差仅基于间隔而非具体时间段;以及与其他统计特性如自相关函数一致。
A、均值E(xt)=μ是与时间t无关的常数
B、方差Var(xt)=σ2是与时间t无关的常数
协方差Cov(x_t, x_{t+k})等于γ_k,并且仅依赖于时间间隔k而不受时间点t的影响。如果对于任意整数t、任何正整数m以及任意n个正整数索引{t₁,…, tₙ}(其中n≥1),变量集合{x_{t₁},…,x_{tₙ}}}与其平移后的集合{x_{t₁+m},…,x_{tₙ+m}}}具有相同的联合分布,则称该随机序列{x_t}为严格平稳过程。
由此可知,在一个时间序列的概率分布中,若所有的状态转移概率矩阵均不随时间而改变,则该序列属于严格平稳过程;而当仅在一阶矩和二阶矩上与时间无关时,则属于弱平稳过程。
(2)自协方差函数
给定任意整数k,在此定义为γ_k = Cov(x_k, x_{t−k}) 的量度即该协方差γ_k衡量的是时间序列{xt}中第k个观测与其相隔k个时间单位观测值之间的关联程度。

我们通常称其为自协方差函数,并借助柯西-施瓦茨不等式可以证明其不仅存在而且具有时序恒定性。换句话说,在平稳的时间序列过程中它仅取决于滞后期长度k。其具有两个关键特性其中第一个性质是该统计量等于随机变量xt的方差而第二个特性则是该统计量在对称位置上相等即对应的延迟值与其负延迟值相等
(3)自相关函数及其检验
考虑一个随机生成的时间序列数据,在实际应用中首先通过该时间序列的数据图形来初步判断其是否为平稳过程。平稳时间序列的数据图形通常表现为围绕其均值水平上下波动的现象特征;而非平稳时间序列则表现出不同时间段具有明显差异性的均值水平特征。统计检验方法通常是计算和分析样本自相关函数以进一步验证数据特性。
用于衡量时间序列内部延迟变量之间线性关系程度的指标被称为自相关函数。对于时间序列{xt}而言,在考虑其第k期滞后时(即比较当前值与过去第k期值之间的关系),如果存在线性关联,则可以通过计算这些关联程度来确定其自身各延迟项之间的相互关系及其强度。这种相互关系被称为间隔为k的自相
关系数,并通常用符号ρ_k表示
由于xt被归类为弱平稳序列,在这种情况下方差满足关系式Var(xt - k) = Var(xt)。按照定义可知ρ₀等于1,并且存在关系式-1 ≤ ρ₁ ≤ 1成立。自相关系数集合由{ρ_t}构成。因此,在时间序列{xt}中存在自身前后之间的相关性的情况下,则认为该序列为非弱平稳;只有在所有k>0时自相关系数均为零的情况下(即ρ_k=0),时间序列才能被视为弱平稳。

我们将深入探讨一个经典的自相关性检验方法——Ljung-Box检验,在前面所述的公式中所定义的统计量。

称为x的样本自相关函数。这个函数
在线性时间序列分析中扮演着重要角色,在线性时间序列模型的特性可完全由其自相关函数(ACF)来描述;同时,在研究线性时间序列建模时发现该过程主要受样本自相关函数(ACF)的影响;在线性动态经济关系分析中也常需评估变量间是否存在显著的相关联系

这里我们需要利用LB检验,统计量公式如下:

表明Q统计量遵循自由度m的卡方分布,在实际应用中,我们经常用于计算不同滞后阶数下的Q统计量、自相关系数以及偏自相关系数。通常采用m = ln(T)的方式确定参数值。同样地,在进行假设检验时,则常用P值来判断是否拒绝原假设。其中T表示观测数据的数量。
这即是我们在日常应用中常见的Ljung-Box检验(亦称Q检验),此方法也被广泛应用于判断时间序列是否为白噪声序列。此方法通过考察时间序列自相关系数的显著性来推断其随机性,并由此判断其是否为白噪声序列。
Ljung-Box检验的基本思想是:
计算一定滞后阶数内的自相关系数,得到k个自相关系数r1, r2, ..., rk。
假设原始序列为白噪声序列,则理论上这k个自相关系数应当为0。
计算统计量 Q 用于衡量这 k 个自相关系数的总偏差程度:其中 Q 等于 n 乘以(n 加二)乘以 ∑( rij 的平方 )除以(n 减 i),其中 i 取值为 1 到 k;且这里的 n 代表序列的长度。
基于自由度k与置信水平α来确定临界值c;当计算得到的Q统计量超过临界值c时,则会推断该序列不是白噪声序列。
如果Q <= c,则无法拒绝原假设,无法证明序列不是白噪声序列。


如上所示为'贵州茅台'的月收益率时序图;下图为'贵州茅台'与'五粮液'收益率序列自相关函数(ACF)图。


我们可以从以下几个方面解读自相关图:
自相关系数的大小:自相关系数的大小度量了同一时间序列上两个观测点之间的时间依赖关系程度。其数值范围介于-1至1之间;数值越大表明正向关联越强;数值接近零则表示弱或无关联。
自相关系数的符号表明两个滞后观测值的变化趋势。当数值为正时两者同步变动;而数值为负时则呈反向变动。
自相关系数的变化速率:随着滞后阶的变化而变化的速度反映了时间序列的随机性质。当这一变化速率较慢时,则表明该时间序列趋向于接近于非随机状态。而对于白噪声序列而言其自相关系数的变化速率是最为显著的
时间序列分析中存在显著滞后期:当自相关系数在较高滞后期出现显著值时,则暗示该时间序列具有明显的周期性特征;例如,在滞后期为12时出现显著值则可推测该序列呈现年循环变动特征,在滞后期为4时出现显著值则可推测呈现季度循环变动特征
在统计学中,在自回归模型中发现某个变量在某一滞后期的相关系数超过其95%(或其他指定)置信区间,则表明该滞后期可能存在较高的统计显著性水平,并且这种现象往往意味着时间序列具有一定的非随机特性(即存在某种结构上的规律)。需要注意的是,在小样本情况下(即观察数据点较少),由于估计精度较低的原因,在较大的滞后期数下容易出现变量的相关系数超出现在设定的置信区间内的情况。
下面我们通过LB统计量进行自相关性检验案例分析,根据


Ljung-Box检验统计量表明,在0.05的显著性水平下(p值小于0.05),贵州茅台不支持原假设(即不支持其月度简单收益率存在显著的相关性),而五粮液则相反;这表明其月度简单收益率构成一个白噪声序列。
二、 简单自回归模型
意为而言,在自回归模型中,一个变量会根据其自身的历史数据进行建模。若xt表现出显著的一阶自相关特征,则该滞后值可能在预测当前值时提供有价值的辅助信息。

其中{at}是一个均值为零、方差为σ²的白噪声序列,并且此模型可被称作一阶自回归模型,并简记为AR(1)形式。
该AR(1)模型具有与基本线性回归模型相似的若干特性。基于弱平稳性的假设,在过去收益率xt-1已知的情况下,根据AR(1)model可得:

即给定过去收益率xt-1,本期收益率将以φ0+φ1xt-1为中心,以标准差σa上下波动。
一般地,AR(p)模型定义为:

其中p被定义为非负整数;其定义与上文中一致;AR(p)模型基于相同的解释变量构成具有相同的结构,并且其形式上与基于p个滞后项作为解释变量的一元线性回归模型相仿
1、AR模型性质
本文从AR(1)和AR(2)模型入手,分析AR模型的基本性质。
(1)AR(1) 模型
假设弱平稳序列{xt}满足条件,则其均值为μ、方差为\\gamma_0、协方差为\\gamma_j(其中μ和\\gamma_0为常数),且这些协方差仅依赖于时间间隔j而不随时间点的变化而变化。通过对初始方程两边取期望,并利用E(a_t)=0这一性质可知

在序列平稳的条件下,E(xt) =E(xt-1) =μ,从而

对于xt而言有两个方面的意义:第一种情况是当\phi_1 \neq 1时,则X_t的存在性得到保证;第二种情况则是X_t取零均值等价于\phi_0 = 0。因此,在平稳AR(1)过程中,请注意常数项\phi_ ight_ ight_ ight_ ight_ ight_ ight不影响X_t的存在性特征,请记住只有在\phi_ = 时才会有E(X_t) = 个单位零输出
利用φ0=(1-φ1) μ我们可以把AR(1)模型写成如下形式:

其中,在时间序列中,变量xt表示t时期的观测值。同样地,在时间序列中,变量xt-1表示上一期的观测值。μ被称为均值参数,在模型中扮演着核心作用。at被视为随机误差项,在回归分析中通常用于捕捉不可解释的扰动因素。φ1被称为影响系数,在此模型中衡量了上一期数据对当前期数据的影响程度。
实际上就是将φ₀=(1−φ₁)μ这个公式代入"初始表达式"中求得的结果反复计算,并由此方程可知其收敛性。

这块给大家手推了,如下图所示:

注:里面的...就是红色圆圈。
因而,xt−μ表现为at−i的一个线性函数。基于此特性以及{at}序列的独立假设,则有E[(Xt−μ)at+1]=0成立。在平稳性的前提下,则可得出Cov(Xt−1, at)= E[(Xt−1−μ) at]= 0这一结论成立。对于AR(1)模型,在对其两边平方后再取期望的过程中,则会得到上述相同的结果。

在平稳性对假定下,Var(xt)=Var(xt-1)因此

当

在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况下,在时成立的情况
因此,AR(1)模型充分必要条件是abs(φ1)<1。
在AR(1)模型两边乘at,在取期望,利用at与xt-1的独立性,可得:

其中,

是at的方差,AR(1)模型两边同乘(xt-1-μ)后取期望,再利用上述结果可得:

这里利用γ1=γ1-1了这个性质。因此,对弱平稳AR(1)模型,

由后一个方程,xt的自相关函数ACF满足

因为ρ0=1,所以有

这个性质体现弱平稳AR(1)序列的自相关函数从ρ₀=1处开始按指数速率递减。当φ₁>0时,在AR(1)模型中其自相关函数图像呈现出按指数速率递减的特点;而当φ₁<0时,在该模型中自相关函数图像是由两个分别按照各自的比例进行递减的部分所组成的。

(2)AR(2)模型
AR(2)模型定义为xt=φ0+φ1xt-1+φ2xt-2+at
利用与AR(1)模型相同的方法可得到,只要,就有φ1+φ2≠1,就有

利用φ0=(1-φ1-φ2)μ,可把AR(2)改写为

上式两端同乘xt-1-μ后取期望,并利用当L>0时E[(Xt-1-μ)at]=0.,可得

该结果可被命名为平稳AR(2)模型的相关矩方程。在两边同时进行除法运算γ0后,则会导出xt自相关函数(ACF)的关键特性。

因此,对平稳的AR(2)序列xt,我们

由xt的ACF公式,平稳AR(2)序列的ACF满足二阶差分方程

其中B是滞后变量, 即Bρ₁ = ρ₁₋₁. 该差分方程决定了平稳AR(2)序列的自相关函数(ACF)特性, 也影响了xt的预测能力.
与上面的差分方程对应的是二次多项式方程

这个方程的解为

在时序文献中定义了这两个解倒数作为AR(2)模型的特征根,并将其标记为ω1和ω2;若两者均为实数,则该二阶模型的时间序列可分解为(1-ω₁B)(1-ω₂B),此时xt的一阶自相关函数表现为两个指数衰减过程的叠加。

,则ω1和ω2都是复数,这时xt的ACF图形呈现出递减的正弦和余弦图像。

为了研究AR(2)模型的平稳性问题,在时间序列分析中通常关注其自回归系数所满足的具体条件限制。具体而言,在AR(p)模型中自回归系数矩阵必须满足一定的稳定性约束条件才能保证系统输出的时间序列具有稳定的均值和方差特性;对于AR(2)模型而言, 其自回归系数矩阵对应的特征根绝对值都需要严格小于1, 即|λ_i|=r_i <1(i=1, 2)。由此可知, 当特征方程的所有解对应的模长都大于1时, AR(2)系统将无法维持稳定状态
特别需要注意的是,在这种情况下(即方程的所有解在复平面上的距离均超过单位长度),序列xt表现出平稳性特征。同样地,在这一模型中(即方程中的解),其倒数即为此模型的动力学特征根。由此可见,在这种情况下(即当所有这些动力学特征根的距离均小于单位长度时),系统达到了稳定状态。另一方面,在平稳AR(p)模型中(即当这些参数满足特定条件时)自相关函数的表现通常呈现出减弱型振荡衰减模式,并且这种衰减模式的具体形状主要取决于其动力学特征根的相关属性。
今天先写到这里了,
文章相关数据和代码公众号后台回复“计量02”
由于各平台差异,回测绩效以QMT版本为准!!!
本策略仅作学习、交流使用,实盘交易盈亏投资者个人负责!!!
