The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

阅读量：

本文是LLM系列文章，针对《The Fine-Grained Complexity of Gradient Computation for Training Large Language Models》的翻译。

训练大型语言模型的梯度计算的精细复杂度

摘要
1 引言
2 相关工作
3 前言
4 一般上限的证明草图
5 一般下限
6 结论

摘要

大型语言模型（LLM）在过去几年中做出了重要贡献。要训练LLM，需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估，而后向计算可以看成梯度计算。在Alman和Song之前的工作中，已经证明了在某些参数状态下，前向步骤可以在几乎线性的时间内执行，但在剩余的参数状态下没有真正的次二次时间算法，除非流行的假设SETH是假的。在这项工作中，我们对计算一层注意力网络的损失函数梯度这一看似困难的问题，以及LLM训练的整个过程，给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。

1 引言

2 相关工作

3 前言

4 一般上限的证明草图

5 一般下限

6 结论

我们的结果对训练LLM所需的运行时间进行了完整的细粒度分析。我们证明了存在一个取决于参数B的阈值，即参数矩阵项的大小。在B很小的情况下，通过使用我们的新算法进行反向计算，可以实现LLM训练的近似线性时间算法。在B很大的情况下，我们的算法不仅不适用，而且我们表明不可能设计出一个非常快的算法（除非在可满足性算法方面取得突破，从而反驳流行的SETH）。
这些见解可以指导LLM设计者使用更高效的算法。当B可以变小时，这将大大节省训练和表达所需的计算资源。当B必须很大时（也许是为了实现高表达性？），我们的下界表明，我们还可以使用直向算法，并关注算法加速的其他方面，如并行化。最近对所需B的大小进行了研究，对快速训练算法的需求可能会进一步推动这一研究方向。

全部评论 (0)

还没有任何评论哟~

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

本文是LLM系列文章，针对《TheFineGrainedComplexityofGradientComputationforTrainingLargeLanguageModels》的翻译。

Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world

本文是LLM系列文章，针对《ToolEyes:FineGrainedEvaluationforToolLearningCapabilities ofLargeLanguageModelsinReal ...

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

本文是LLM系列文章，针对《TextHawk:ExploringEfficientFineGrainedPerceptionofMultimodalLargeLanguageModels》的翻译。

Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models

本文是LLM系列文章，针对《FineGrainedDetoxificationviaInstanceLevelPrefixesforLargeLanguageModels》的翻译。

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

本文是LLM系列文章，针对《FineMath:AFineGrainedMathematicalEvaluationBenchmarkfor ChineseLargeLanguageModels》的翻译...

Unveiling the Generalization Power of Fine-Tuned Large Language Models

本文是LLM系列文章，针对《UnveilingtheGeneralizationPowerofFineTunedLargeLanguageModels》的翻译。

Spike No More: Stabilizing the Pre-training of Large Language Models

Q:这篇论文试图解决什么问题？ A:这篇论文试图解决大型语言模型（LLMs）预训练过程中损失值激增（lossspike）的问题。损失值激增会降低LLMs的性能，有时甚至会破坏预训练过程。由于预训练需要...

Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models

本文是LLM系列文章，针对《AutomatedFederatedPipelineforParameterEfficientFineTuningofLargeLanguageModels》的翻译。

Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models

本文是LLM系列文章，针对《TowardsCoarsetoFineEvaluationofInferenceEfficiencyforLargeLanguageModels》的翻译。

InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models

文章链接： <http://arxiv.org/pdf/2308.07074 模型链接： https://modelscope.cn/models/lukeminglkm/instaggerllama...

是否确定退出登录?

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

训练大型语言模型的梯度计算的精细复杂度

摘要

1 引言

2 相关工作

3 前言

4 一般上限的证明草图

5 一般下限

6 结论

全部评论 (0)

相关文章推荐

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

Unveiling the Generalization Power of Fine-Tuned Large Language Models

Spike No More: Stabilizing the Pre-training of Large Language Models

Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models

Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models

InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models