Advertisement

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting————4 METHODOLOG

阅读量:

4 METHODOLOGY

在这里插入图片描述

图解

Mambaformer模型融合了Mamba与Transformer的核心要素,并专用于时间序列预测任务的研究与实现。具体而言,该模型体系由多个核心组件及相互作用机制构成,并通过逐步迭代优化其预测性能。

嵌入层(Embedding Layer)

  • Token Encoding(getTokenEncoding): 本模块负责将输入数据转换为向量表示形式,在此过程中提取并捕获输入特征的语义含义或特征信息。
    • Temporal Encoding(getTimeEncoding): 此模块引入时间信息序列,在模型中模拟序列元素的时间依赖关系与顺序特性。例如,在Transformer架构中采用的位置编码方法可实现此功能。

Mamba预处理块(Mamba Pre-Processing Block)

该模块包含一个Mamba模块, 用于接收并处理编码后的输入. 输出数据依次经过加法操作与归一化层处理, 以确保数据的稳定性并实现标准化处理, 并为后续处理阶段奠定基础.

Mambaformer层(Mambaformer Layer)

  • 掩码多头注意力(Masked Multi-Head Attention): 该机制使模型能够聚焦于输入序列的不同部分,并通过分析不同位置来综合考虑输入及其时间相关性。“遮蔽”部分通常表示模型在预测时仅关注之前的时序信息,并且这种设计有助于防止未来时序信息的泄露。
    • Mamba块(Mamba Block): 该模块包含构成Mamba模型的关键组件:
      • 状态空间模型(SSM): 用于捕获序列数据的结构及时间上的依存关系。
      • 卷积层(Conv): 主要负责处理状态表示并捕获数据中的局部模式及依存关系。
      • 线性层与激活函数(σ): 负责调整数据维度并对其进行非线性变换。

每一个Mamba块生成处理后的数据,并将这些数据随后通过加法和归一化步骤进行处理,在此过程中保证数据在网络层之间能够稳定地传递。

预测层(Forecasting Layer)

从叠加于Mambaformer架构中的数据被传输至预测模块,在此阶段进行实际计算与推断工作。该层次通常会包含辅助转换器以及最终生成函数,在经过处理后的序列数据基础上推导出相应的结果数值。

总结

Mambaformer模型通过融合Mamba模块与多头注意力机制,在状态空间建模与注意力机制的作用下实现对时间序列数据中长短期依赖关系的识别或捕捉。该架构设计充分考虑了系统运行效率,并成功整合了Mamba模型与Transformer模型的核心优势特性

4.1 Overview of Mambaformer

4.1 Mambaformer概述

23

5, 25, 26

23

Mambaformer的关键特点:

混合架构优势: 该模型融合了Mamba与Transformer各自的优势。基于序列学习能力的强项在于其对长距离依存关系的有效捕捉,而传统架构则在捕捉复杂语义关联方面展现出卓越性能。通过巧妙整合两种架构特点,在建模长期与短期依存关系方面展现出显著优势。

仅解码器结构: 该架构类似于GPT系列中的架构。其核心优势在于专用于生成输出而非传统的编码器-解码器模型。其核心优势在于显著提升了处理生成任务和序列预测任务的效率。相比于传统的编码器-解码器架构,在此设计中计算复杂度得到了显著降低。

强化性能: 借助Mamba的状态空间模型能力和Transformer中的注意力机制,Mambaformer能够扩大处理范围,从而在时间序列预测任务中展现出更为卓越的表现. 这种融合型架构在捕捉数据的整体趋势与细节特征方面展现出卓越的能力.

总结

Mambaformer模型的设计灵感源自语言建模领域的混合架构设计。该模型仅依赖解码器架构使其在生成与预测任务中展现出卓越的效果。通过融合Mamba与Transformer的优势,在时间序列数据分析中能够识别复杂的时间依赖关系,并显著提升了预测准确性。

4.2 Embedding Layer

4.2 嵌入层(Embedding Layer)

我们通过嵌入层实现了低维时间序列数据在高维空间中的投影,并且其中包含了两种类型的嵌入:一种是基于令牌的嵌入(token embedding),另一种是基于时间的嵌入(temporal embedding)。

令牌嵌入(Token Embedding)

7

为了实现原始时间序列数据到高维向量的映射关系, 我们通过一维卷积层构建Token嵌入模块, 该层设计用于生成Token嵌入. 在此过程中, 一维卷积层能够有效保持输入时间序列的局部语义特征【7

时间嵌入(Temporal Embedding)

41

41

除了序列中的数值数据外, 时间上下文信息同样提供了重要的线索. 例如层级时间戳(如每周、每月、每年)以及非基于具体日期的时间标记(如周末及重要节日)【41

嵌入层的公式表示

定义输入序列为 X = [x_1, x_2, ..., x_L]^\top ∈ ℝ^{B×L×M} ,其中批大小设为 B∈ℕ^+ ,序列长度设定为 L∈ℕ^+ ,特征维度选择 M∈ℕ^+ 。定义时间上下文矩阵 C ∈ ℝ^{B×L×C} 用于捕捉各位置间的相互作用关系。通过嵌入层处理后的输出结果如下所示:

E(X) = W_e X + b_e

其中 W_e ∈ ℝ^{D×(BLM)}, b_e ∈ ℝ^{D} 分别代表嵌入权重矩阵和偏置向量。

E = E_{token}(X) + E_{tem}(C)

其中E\in\mathbb{R}^{B\times L\times D}代表输出嵌入(output embedding),而\mathbb{R}^{B\times L\times D}则指的是输入空间的维度结构。值得注意的是,在该模型中使用了一种双线性变换机制(bilinear transformation)来连接词性和位置信息(word and position embeddings)。

注意点

我们无需模仿Transformer模型中常见的位置编码机制。原因在于Mamba预处理模块(将在下一节详细讲解)内整合了内置于其中的位置信息编码功能。这一设计使得模型在进行嵌入处理时能够自然地考虑数据中的位置信息,并通过简化架构复杂度来实现对序列顺序的高度敏感能力保留。

4.3 Mamba Pre-Processing Layer

4.3 Mamba预处理层

以提供嵌入层所需的位置信息为目标,在模型中引入了一个基于Mamba的操作来预处理序列数据。该操作不仅将输入令牌的顺序信息融入到模型架构中,并且将该架构视为一种递归神经网络(RNN)。具体而言,在每一时刻t上计算出的状态h_t都是基于前一时刻t - 1状态h_{t-1}的结果。这种递归机制使得模型能够自然地考虑到序列元素的时间先后关系。相较于Transformer中采用显式的全局位置编码方案,Mramaformer通过引入这一预处理操作来替代传统的定位机制,从而实现了类似的效果

Mamba预处理块的表达式为:

H1 = Mamba(E)

其中,
H1 \in \mathbb{R}^{B \times L \times D}是一个由令牌嵌入、时间嵌入以及位置信息构成的复合向量。
这里的E代表嵌入层输出,
它捕获了输入数据以及时间背景所包含的关键特征。
借助Mamba预处理模块,
模型能够整合这些特征并融合位置信息,
从而为模型后续的预测与建模提供了充足的背景依据。

这种设计通过Mambaformer能够在无需显式位置编码的情况下识别序列数据中的时间和位置信息。这不仅简化了模型的架构,并且利用了Mamba的递归特性来有效地处理序列中的顺序依赖。

4.4 Mambaformer Layer

Mambaformer模型的主体结构通过交错运用Mamba模块与自注意力机制实现对两种模型优势的有效融合,在处理长短期时间序列预测任务时展现出显著的性能提升效果。

自注意力层(Attention Layer)

自注意力机制被设计用于有效捕捉Transformer模型中短期时间序列数据的依赖关系。通过掩码多头注意力机制可以有效地捕获令牌间的关联性。具体而言,在注意力层中的每个头部(head)i从i=1到h处理嵌入向量H₁,并将其转换为查询Qᵢ=H₁Wᵢ_Q、键Kᵢ=H₁Wᵢ_K以及值Vᵢ=H₁Wᵢ_V;其中Wᵢ_Q∈ℝ{D×d_k}、Wᵢ_K∈ℝ{D×d_k}和Wᵢ_V∈ℝ^{D×d_v}是可学习的矩阵。

随后,使用缩放点积注意力计算输出:

O_i = Attention(Q_i, K_i, V_i) = \text{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right)V_i

将每个头部生成的输出元素进行组合汇总后得到一个新的输出向量O(其中该向量的空间维数为hd_v)。随后经过线性变换过程后使用可训练的学习矩阵W_O ∈ ℝ^{hd_v × D}将编码后的特征映射到目标空间从而生成注意力机制的结果向量H2

H2 = OW_O \in \mathbb{R}^{B \times L \times D}

31

31

31

31

31

Mamba层(Mamba Layer)

为了克服Transformer计算上的瓶颈问题,并超越其性能表现,在模型中集成Mamba层以增强捕捉长序列依赖的能力

该模块具备识别与输入相关知识并剔除冗余信息的能力。其经SiLU激活后作为残差连接被引入,并通过乘性门控机制与SSM模块的输出进行融合。最后阶段采用线性投影对计算结果进行处理并生成最终状态变量H3

H3 \in \mathbb{R}^{B \times L \times D}

该设计通过巧妙整合不同技术优势,在捕捉时间序列数据特征方面展现出独特优势:它不仅具备同时捕捉长短期依赖关系的能力,并且在模型架构上实现了对Transformer自注意力机制的有效结合;同时基于状态空间建模的能力也被充分运用起来;这些特点共同作用下显著提升了时间序列预测的效果与效率

4.5 Forecasting Layer

4.5 预测层(Forecasting Layer)

在这一层次上,在这个层级上,在该层级上

\hat{X} = \text{Linear}(H3)

其中,在\hat{X} \in \mathbb{R}^{B\times L\times M}中表明预测输出,在此公式中:- B代表批次大小;- L代表序列长度;- M代表时间序列的特征维度数。

该线性层的主要负责是将经过Mamba模块和自注意力机制处理后的高维嵌入H3重新映射至原始的时间序列数据维度。这一转换步骤对于模型后续的工作流程至关重要,在模型的整体架构中占据核心地位。通过这一操作使得模型输出的结果能够直接应用于后续的数据分析与实际应用场景中。

全部评论 (0)

还没有任何评论哟~