Your Transformer is Secretly Linear

阅读量：

本文是LLM系列文章，针对《Your Transformer is Secretly Linear》的翻译。

你的Transformer是秘密线性的

摘要
- 引言
- 相关工作综述
- 预训练架构特征分析
- 通过正则化预训练提升模型的线性能力
- 通过模型的线性特性实现修剪过程
- 结论

摘要

本文揭示了Transformer解码器所独有的独特线性特性,涉及包括GPT、LLaMA、OPT、BLOOM等模型在内的多个主流架构。
我们对序列层间的嵌入变换进行了深入分析,发现了近乎完美的一一对应关系(Procrustes相关性评分为0.99)。
然而由于Transformer层持续表现出较低的输出范数,在去除残余分量的过程中,其线性特性有所削弱。
通过实验结果表明,去除或近似处理Transformer中某些最高度优化的模块并不会对整体损失或模型性能造成显著影响。
此外在对较小规模模型进行预训练的过程中,我们设计并引入了一种基于余弦相似性的正则化措施,旨在系统性地降低各层之间的线性程度。
这一创新性的方法不仅提升了TinyStories与SuperGLUE等基准测试的表现指标,还实现了成功降低模型整体线性程度的目标。
这项研究挑战了现有关于Transformer架构的理解框架,揭示出其操作机制可能远比以往预期更为接近于线性架构

1 引言

2 相关工作

3 预训练架构的分析

4 利用正则化预训练提高线性度

5 利用线性进行修剪

6 结论

我们系统性地研究了Transformer解码器中的线性特性，并深入揭示了其在不同模型架构中固有的近似线性行为。通过实证研究发现，在特定任务微调过程中，尽管预训练通常会增加层内的非线性复杂度，在某些情况下却会导致微调阶段表现出反向的非线性降低现象。基于先前研究结果提出的新型剪枝与提取技术，在不影响原始模型性能的前提下显著提升了模型效率的同时保留了其核心功能特性。此外，在预训练过程中引入余弦正则化的建议进一步强化了模型参数的有效利用能力，并在SuperGLUE基准测试中实现了性能提升，在TinyStores基准测试中则展现了显著的资源效率优势；值得注意的是，在预训练过程中所采用的方法并未显著影响模型层之间的相关度（无残差分量）。

全部评论 (0)

还没有任何评论哟~

Your Transformer is Secretly Linear

本文是LLM系列文章，针对《YourTransformerisSecretlyLinear》的翻译。你的Transformer是秘密线性的摘要 1引言 2相关工作 3预训练架构的分析 4利用正则化...

Your Weak LLM is Secretly a Strong Teacher for Alignment

✨摘要在大型语言模型（LLMs）日益强大的能力面前，我们愈发需要确保这些模型能够与人类的价值观和意图保持一致。现有的对齐框架往往需要昂贵的人力或高昂的计算成本。本文探索了一个有前途的中间地带，即利用...

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

DPO直接偏好优化：你的语言模型实际上是一个奖励模型前言知识储备什么是用户偏好数据目的：用于指导模型行为，使其输出更符合特定用户或者用户群体期望和喜好的信息。用户偏好数据通常反映了用户对特定内...

【论文速读】《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》，就是著名的DPO 论文链接：https://arxiv.o...

YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE

YOURCLASSIFIERISSECRETLYANENERGYBASEDMODELANDYOUSHOULDTREATITLIKEONE 我们提出将标准的判别分类器pyx重新解释为基于能量的联合分布模...

LLM论文笔记 4: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Arxiv日期：2023.5.29 机构：StanfordUniversity 关键词代码生成 RLHF 偏好学习 DPO（提出）隐式奖励函数核心结论 1\.DPO在多个任务中表现与PPO相当/...

【论文阅读】理解DPO，《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

前几日，大概阅读了《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》这篇论文，再来仔细阅读一下，整个推导还是很...

彻底搞懂Transformer原理，Attention is all your need

Transformer 参考论文https://arxiv.org/abs/1706.03762 章节 Reasons SelfAttention MultiHeadAttention Positio...

[DPO] 简单有效的后训练方法 Direct Preference Optimization,Your Language Model is Secretly a Reward Model

<https://arxiv.org/abs/2305.18290 DirectPreferenceOptimizationDPO是一种无需强化学习的新方法，用于从人类偏好中直接训练语言模型。

【分布外检测】《YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE》 ICLR‘20

https://arxiv.org/pdf/1912.03263v3.pdf 常用的分类器模型都是在建模pθy∣xp\thetay\mid\mathbfx，这篇文章从能量的视角解释分类模型，进而得到一...

是否确定退出登录?

Your Transformer is Secretly Linear

你的Transformer是秘密线性的

摘要

1 引言

2 相关工作

3 预训练架构的分析

4 利用正则化预训练提高线性度

5 利用线性进行修剪

6 结论

全部评论 (0)

相关文章推荐

Your Transformer is Secretly Linear

Your Weak LLM is Secretly a Strong Teacher for Alignment

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

【论文速读】《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE

LLM论文笔记 4: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

【论文阅读】理解DPO，《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

彻底搞懂Transformer原理，Attention is all your need

[DPO] 简单有效的后训练方法 Direct Preference Optimization,Your Language Model is Secretly a Reward Model

【分布外检测】《YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE》 ICLR‘20