Your Transformer is Secretly Linear
本文是LLM系列文章,针对《Your Transformer is Secretly Linear》的翻译。
你的Transformer是秘密线性的
- 摘要
- 引言
- 相关工作综述
- 预训练架构特征分析
- 通过正则化预训练提升模型的线性能力
- 通过模型的线性特性实现修剪过程
- 结论
摘要
本文揭示了Transformer解码器所独有的独特线性特性,涉及包括GPT、LLaMA、OPT、BLOOM等模型在内的多个主流架构。
我们对序列层间的嵌入变换进行了深入分析,发现了近乎完美的一一对应关系(Procrustes相关性评分为0.99)。
然而由于Transformer层持续表现出较低的输出范数,在去除残余分量的过程中,其线性特性有所削弱。
通过实验结果表明,去除或近似处理Transformer中某些最高度优化的模块并不会对整体损失或模型性能造成显著影响。
此外在对较小规模模型进行预训练的过程中,我们设计并引入了一种基于余弦相似性的正则化措施,旨在系统性地降低各层之间的线性程度。
这一创新性的方法不仅提升了TinyStories与SuperGLUE等基准测试的表现指标,还实现了成功降低模型整体线性程度的目标。
这项研究挑战了现有关于Transformer架构的理解框架,揭示出其操作机制可能远比以往预期更为接近于线性架构
1 引言
2 相关工作
3 预训练架构的分析
4 利用正则化预训练提高线性度
5 利用线性进行修剪
6 结论
我们系统性地研究了Transformer解码器中的线性特性,并深入揭示了其在不同模型架构中固有的近似线性行为。通过实证研究发现,在特定任务微调过程中,尽管预训练通常会增加层内的非线性复杂度,在某些情况下却会导致微调阶段表现出反向的非线性降低现象。基于先前研究结果提出的新型剪枝与提取技术,在不影响原始模型性能的前提下显著提升了模型效率的同时保留了其核心功能特性。此外,在预训练过程中引入余弦正则化的建议进一步强化了模型参数的有效利用能力,并在SuperGLUE基准测试中实现了性能提升,在TinyStores基准测试中则展现了显著的资源效率优势;值得注意的是,在预训练过程中所采用的方法并未显著影响模型层之间的相关度(无残差分量)。
