Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
摘要
在众多领域中存在对长时序数据进行预测的需求。例如电力消耗统计。长序列时间序列预测(LSTF)旨在通过模型实现长期依赖关系的有效捕捉。当前研究证实,在提升时间序列预测性能方面,Transformer展现出显著的优势。
然而 Transformer 存在显著的问题 使得其难以直接应用于 LSTM 模型 包括 计算复杂度呈二次方增长 对内存占用要求较高 以及 编码器-解码器架构存在一定的局限性。
为了有效解决这些问题, 我们针对LSTF开发出一个高效的基于Transformer架构的Informer系统, 并使其具备三个显著的独特优势
ProbSparse自注意力机制是一种高效的方法,在时间复杂度和内存规模上均实现了O(Llog L)的性能,并且在处理序列依赖关系方面展现出与现有方法相当的能力。
(ii)自我注意蒸馏借助这一机制将输入规模减半并增强了其注意力机制,并成功地处理了较长长度的数据序列。
虽然从概念上说生成样式解码器非常简单,但其预测较长的时间序列序列采用了前向操作而非逐步推进的方式。这种工作方式使得其在处理长序列预测任务时能够显著提升推理速度。通过在四个大型数据集上的大量实验结果表明,在完成相同任务时Informer不仅表现出色,并且为LSTF问题提供了一种全新的解决方案。
Introduction
在诸多领域中扮演着关键角色的时间序列预测技术,在传感器网络监控、能源与智能电网管理、经济与金融领域以及疾病传播分析等方面均发挥着重要作用。基于历史行为的数据进行长期预测即是所谓的长序列时间序列预测(LSTF)。然而,在现有研究中大多数方法仅针对短期问题而言进行了设计——例如预测不超过48个数据点的数量。随着序列长度的增长将有助于提升模型的预测能力这一趋势正推动了对LSTF技术研究的实际可能性
LSTF面临的主要困难是提升预测能力以应对日益增长的长序列需求。该问题要求(a)强大的远距离对比能力以及(b)对输出及其长序列的有效操作。最近研究表明,在捕捉远程依存关系方面Transformer模型展现了显著优势与RNN模型相比。自注意力机制通过将网络信号传播路径的最大长度缩减至理论上的最小值O(1),并且避免循环结构从而解决了这一问题。然而这一解决方案面临两个主要限制:首先自注意力机制需要执行L次方计算;其次长度为L的输入与输出将导致较大的内存消耗从而违反上述第二个条件。
一些大型Transformer模型消耗大量计算资源并在NLP任务中取得了令人印象深刻的成果,
然而由于对数十个GPU进行训练并承担高昂部署成本的问题,
使得这些模型难以在现实世界中的LSTF应用中得到有效的支持。
自我注意机制与Transformer架构本身的效率成为了限制其应用于LSTF问题的主要瓶颈。
因此,在本文中我们将深入探讨如何改进Transformer模型以提升其计算效率、内存利用率以及体系结构的有效性
The vanilla transformer, as introduced by Vaswani et al. (2017), exhibits three-fold limitations when addressing the LSTF challenge.
- 自注意机制的两次计算。 在自注意力机制中进行的是基本操作即规范化的点积运算,从而使得每层的时间复杂度和存储空间复杂度均为O(L²)。
- 长时间堆放内存层中的内存瓶颈。 当采用J个编码器/解码器层进行堆叠使用时,总内存占用量达到O(J·L²),这在处理长序列输入时会显著限制模型的扩展能力。
- 预测长输出时速度受限。 传统Transformer模型通过逐词动态解码的方式,在推理速度上与基于RNN架构的模型不相上下。
为了解决诸多限制因素并提升预测能力,在其设计框架下我们不仅克服了诸多限制因素,在其设计框架下实现了更高的效率突破。
为了实现这一目标, 我们对这三个关键问题展开了系统性研究. 我们深入探讨了自注意力机制中的稀疏特性, 优化了网络架构, 并通过大量实验证实了该方法的有效性.
本文的贡献概括如下:
- 我们提出了Informer方法来显著提升LSTF问题中的预测能力,并评估了与传统Transformer架构相比的优势。 该方法能够有效捕获长序列时间依赖关系及其输出特征。
- 我们开发了一种新型自注意力机制ProbSparse作为替代方案 该机制实现了依赖关系对齐的同时保证了较低的时间复杂度O(Llog L)以及内存使用量。
- 我们设计了一种自注意力蒸馏技术用于J堆叠层中的关键关注点定位 并将总空间复杂度显著降低了至O(Llog L)。 这一改进使得模型能够高效处理长序列输入数据。
- 我们采用生成式解码器方案能够通过单步推断直接生成较长序列 并有效抑制了推理过程中误差积累的影响。
