Advertisement

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

阅读量:

本文是LLM系列文章,针对《The Fine-Grained Complexity of Gradient Computation for Training Large Language Models》的翻译。

训练大型语言模型的梯度计算的精细复杂度

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 前言
  • 4 一般上限的证明草图
  • 5 一般下限
  • 6 结论

摘要

大型语言模型(LLM)在过去几年中做出了重要贡献。要训练LLM,需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估,而后向计算可以看成梯度计算。在Alman和Song之前的工作中,已经证明了在某些参数状态下,前向步骤可以在几乎线性的时间内执行,但在剩余的参数状态下没有真正的次二次时间算法,除非流行的假设SETH是假的。在这项工作中,我们对计算一层注意力网络的损失函数梯度这一看似困难的问题,以及LLM训练的整个过程,给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。

1 引言

2 相关工作

3 前言

4 一般上限的证明草图

5 一般下限

6 结论

我们的结果对训练LLM所需的运行时间进行了完整的细粒度分析。我们证明了存在一个取决于参数B的阈值,即参数矩阵项的大小。在B很小的情况下,通过使用我们的新算法进行反向计算,可以实现LLM训练的近似线性时间算法。在B很大的情况下,我们的算法不仅不适用,而且我们表明不可能设计出一个非常快的算法(除非在可满足性算法方面取得突破,从而反驳流行的SETH)。
这些见解可以指导LLM设计者使用更高效的算法。当B可以变小时,这将大大节省训练和表达所需的计算资源。当B必须很大时(也许是为了实现高表达性?),我们的下界表明,我们还可以使用直向算法,并关注算法加速的其他方面,如并行化。最近对所需B的大小进行了研究,对快速训练算法的需求可能会进一步推动这一研究方向。

全部评论 (0)

还没有任何评论哟~