Arima相关概念
https://www.cnblogs.com/bradleon/p/6832867.html
https://www.cnblogs.com/bradleon/p/6827109.html
Stationarity: It refers to the property of a time series where the underlying pattern of the data remains consistent over time, allowing for predictable future behavior. A stationary series exhibits constant mean and variance across its duration.
严平稳随机变量序列是指其概率分布不随时间的改变而变化的一种特性。例如,在白噪声(正态分布)的情况下, 无论选取什么值作为样本点的位置坐标t_i, 在该位置上取值x_i都服从期望为0, 方差为1的标准正态分布.
弱平稳:期望值与相关系数保持恒定,在这种情况下,在未来某一时刻的变量X_t将受到其历史信息的影响,并因此必须存在依赖关系。
差分法:通过计算时间序列中连续两个时间点数值之间的差异来实现数据处理。
定义diff(d)为当前数值与前一个数值之差。
通过构建新的数列来消除时间序列中的趋势变化或周期性波动。
对于数据操作中的diff函数来说,diff(1)表示仅计算相邻两个元素之间的差异;而diff(2)则表示计算每一元素与其前两元素之间的差异。
执行一次diff(1)操作即可得到一阶差分序列;若对结果再进行一次diff运算,则得到二阶差分序列。
1 自回归模型(AR)
分析当前值与其历史数据之间的关联,并通过自身的历史时间序列数据来进行预测。要求自回归模型具有平稳性特征。

Autoregressive(AR)模型表示当前的观测仅依赖于过去的观测。
在p-th order autoregressive模型中, 当前的观测与其前面连续的p个观测点相关。
研究常数项u以及各阶自回归系数r_i
自回归模型的限制
(1)基于自身历史数据来预测未来的值
仅当序列具有稳定性时才适用
(2)只有当序列具有自协方差性时才适合建模;若自相关系数(φi)小于0.5,则不建议使用该模型
(3)该方法仅适用于分析与自身前期观测值相关的现象
2移动平均模型(MA)
移动平均模型侧重于自回归模型中累积的误差项,在时间序列预测中展现出显著的效果

Moving Average (MA) is a statistical technique used in time series analysis, representing the cumulative sum of several error terms within an autoregressive framework. q represents the number of moving average terms, while the qth order specifically refers to the relationship with the previous q errors.
3自回归移动平均模型(ARMA)
自回归与移动平均的结合

p,q指定,求解r,thta
4差分自回归移动平均模型 ARIMA(p,d,q)
AR代表自回归模型的阶数p;
MA代表移动平均模型的阶数q;
d代表使时间序列达到平稳所需的差分次数
原理:通过将非恒定时间序列转换为恒定时间序列;进而将因变量仅依赖于其自身的历史数值以及随机干扰项当前和过去的数值进行回归来构建起相应的模型
5自相关函数ACF
有序且排列有规律的随机变量序列与自身的不同位置进行比较。
自相关函数表征了同一随机变量序列在不同时间点上的取值之间的关系。

变量P_k的取值范围限定在-1至1之间。通过该模型可评估不同滞后阶数之间的相关性(如一阶时涉及Y_t与Y_{t-1}的关系),并探讨滞后多少个时间点对结果的影响程度。研究中采用95%置信水平的标准,在样本容量为24个月的情况下(其中有效样本数量为23个),构建了相应的统计模型框架以确保结果的有效性与可靠性。此外,在图形化呈现中采用了标准差作为度量指标,并通过绘制误差条图来展示各变量间的差异显著性水平。
基于Python语言开发的时间序列分析工具包
6 偏自相关函数(PACF)
对于一个平稳的Stationary AR(p)模型中,在确定滞后k的自相关系数p(k)时(即determine the autocorrelation coefficient at lag k, p(k))时(即when determining),实际上所得到的结果并不是仅指x(t)与x(t−k)(即x(t) and x(t−k))之间单纯的相关关系(i.e., not merely the correlation between),而是包含了其他潜在因素的影响(which includes potential influences from other factors)。
x(t)不仅会受到中间k−1个随机变量X_{t−1}、X_{t−2}、⋯、X_{t−k+1}的影响,并且这些k−1个随机变量也都与X_{t−k}具有相关关系。
所以,自相关系数p(k)里实际掺杂了其他变量对x(t)与x(t-k)的影响。
partial autocorrelation function,通过排除了介于t−k+1至t−1之间的一系列随机变量的影响后,x(t−k)与x(t)之间的相互作用的强度
ACF还包含了其他变量的影响。
PACF是严格这两个变量之间的相关性。
ACF覆盖了其他各个阶的影响因素;而PCAF则仅涉及这两阶的情况,并更加精简地排除了所有中间阶段的因素影响。
7 ARIMA(p,d,q)阶数确定:

截断:位于置信区间内(约95%的数据点均满足这一规则)
AR(p)考察偏自相关图
MA(q)考察自相关图
在自相关图上观察到多个数据点落入置信区间区域,则判定其显著
在偏自相关图上观察到多个数据点落入置信区间区域,则判定其显著
ARIMA模型构建流程如下:
(1)通过差分方法确定序列的平稳阶数d;
(2)利用自相关函数(ACF)和偏自相关函数(PACF)来确定参数p与q;
(3)建立ARIMA(p,d,q)模型。
模型选择采用AIC和BIC标准,并倾向于选择更为简洁的模型;AIC衡量了模型参数与预测精度之间的折中关系;BIC建议绘制热力图以辅助分析;通过绘制QQ图来检验数据分布情况,在理想情况下点集应趋近于一条直线以表明数据近似服从正态分布
tsfresh库,自动提取时间序列特征
