The Fine-Grained Complexity of Gradient Computation for Training Large Language Models
发布时间
阅读量:
阅读量
本文是LLM系列文章,针对《The Fine-Grained Complexity of Gradient Computation for Training Large Language Models》的翻译。
训练大型语言模型的梯度计算的精细复杂度
- 摘要
- 1 引言
- 2 相关工作
- 3 前言
- 4 一般上限的证明草图
- 5 一般下限
- 6 结论
摘要
大型语言模型(LLM)在过去几年中做出了重要贡献。要训练LLM,需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估,而后向计算可以看成梯度计算。在Alman和Song之前的工作中,已经证明了在某些参数状态下,前向步骤可以在几乎线性的时间内执行,但在剩余的参数状态下没有真正的次二次时间算法,除非流行的假设SETH是假的。在这项工作中,我们对计算一层注意力网络的损失函数梯度这一看似困难的问题,以及LLM训练的整个过程,给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。
1 引言
2 相关工作
3 前言
4 一般上限的证明草图
5 一般下限
6 结论
我们的结果对训练LLM所需的运行时间进行了完整的细粒度分析。我们证明了存在一个取决于参数B的阈值,即参数矩阵项的大小。在B很小的情况下,通过使用我们的新算法进行反向计算,可以实现LLM训练的近似线性时间算法。在B很大的情况下,我们的算法不仅不适用,而且我们表明不可能设计出一个非常快的算法(除非在可满足性算法方面取得突破,从而反驳流行的SETH)。
这些见解可以指导LLM设计者使用更高效的算法。当B可以变小时,这将大大节省训练和表达所需的计算资源。当B必须很大时(也许是为了实现高表达性?),我们的下界表明,我们还可以使用直向算法,并关注算法加速的其他方面,如并行化。最近对所需B的大小进行了研究,对快速训练算法的需求可能会进一步推动这一研究方向。
全部评论 (0)
还没有任何评论哟~
