LLM都是Decoder only的架构原因解读

阅读量：

最近 emergence 在知乎平台中存在一个问题：当前为何普遍采用解码器只型结构？参考链接：为什么现在的LLM都是Decoder only的架构？

稍微总结下：

从模型实用层面来说：

Decoder-only 架构具有高效的计算效率：相较于 Encoder-Decoder 架构而言，在 Decoder-only 架构中无需让编码器预先对整个输入序列进行编码工作；这样一来就显著提升了训练推理速度。
Decoder-only 架构在内存占用方面具有显著优势：由于编码器的特点，在 Encoder-Decoder 架构中每个 patch 中的句子需通过填充操作扩展至固定长度以实现统一长度要求；而 Decoder-only 架构则完全避免了这一需求。
Decoder-only 架构展现了卓越的泛化性能：通常采用自回归模型进行预测，在生成时依赖于之前输出结果逐步完成后续预测过程；这种机制不仅能够有效处理复杂的语言结构问题，并且显著提升了模型的整体性能。

实验验证：

Google Brain 和 HuggingFace 的一篇合作研究论文曾系统性地对两种模型架构和预训练目标的有效性进行了全面评估，在具有5B参数规模的研究中对其性能表现进行了深入分析。该研究通过构建一系列基准测试任务来量化不同模型架构在零样本通用化能力方面的差异，并得出了具有参考价值的实验结论。

本节深入探讨了NLP领域的研究进展——即语言模型的最佳架构及其实现方式（两场）。通过系统性分析与实践验证，在现有研究基础上获得了66位读者赞同与2条评论。文章状态：上传中/已上传

研究的核心结论表明，在无任何tuning数据的支持下，该方法实现了zero-shot任务的最佳表现；而研究发现，则必须依赖一定数量的标注样本才能实现多任务微调后的最佳性能。

大多数LLM架构倾向于采用解码器-only结构。主要原因在于运算效率较高。这种设计使得模型结构更为紧凑，并且能够实现统一的训练和推理流程。同时这些特点还能够有效防止梯度爆炸问题。

理论验证：

当前为何当下大多数大型语言模型（LLM）都采用解码器型架构？

为什么现在的LLM都是Decoder-only的架构？

总体而言，在模型参数规模有限的情况下（ $...$ ），基于Decoder-only架构能够展现出显著的优势——其零样本性能表现尤为突出。随着模型规模扩大，在泛化能力提升后能够与基于Decoder-only架构进行微调达到相近的效果；特别地，在依赖前缀信息完成上下文理解的任务中展现出良好的适应性。

现有的大语言模型（LLMs）多采用解码器型结构的主要原因是其在处理复杂任务时展现出显著的优势。这种架构设计的核心优势在于能够有效整合上下文信息并进行深度推理运算。具体而言，在编码阶段模型通过自底向上的方式提取高层次抽象特征，在解码阶段则利用这些特征进行多轮交互式对话生成过程中的信息提取与更新机制。这种设计不仅简化了模型结构降低了计算复杂度还能显著提升其表现能力

值得注意的是这一架构选择并非偶然而是基于一系列技术突破与理论支撑。特别是在Transformer模型的发展历程中逐步验证了解码器型结构在处理序列数据方面的独特优势尤其是在对话系统中展现出超越其他类型模型的能力

现有主流的大语言模型（LLM）为何普遍采用解码器型结构？这是因为该架构设计在理论上具有显著的优势。具体而言，在编码阶段输入文本并提取特征时采用了自上而下的并行机制，在解码阶段则通过自下而上的序列生成过程逐步构建输出内容。其核心优势在于通过解码器型结构降低了计算复杂度，并且能够在较短的时间内完成对大规模预训练数据的学习任务。无需进行编码器与解码器之间的信息传递，在这一过程中各层节点能够独立地完成特征提取与输出生成的任务分配。从而显著提升了模型在处理复杂任务时的整体性能水平

全部评论 (0)

还没有任何评论哟~

LLM都是Decoder only的架构原因解读

最近知乎上有这个问题：为什么现在的LLM都是Decoderonly的架构？稍微总结下：从模型实用层面来说： 1.Decoderonly架构计算高效：相对于EncoderDecoder架构，Deco...

为什么现在的LLM都是Decoder-only的架构？

LLM是“LargeLanguageModel”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10亿或以内量级）的“百花齐放”不同，目前LLM的一个现状是Decoder...

为什么现在的LLM都是Decoder only的架构

结论： LLM之所以主要都用Decoderonly架构，除了训练效率和工程实现上的优势外，在理论上是因为Encoder的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意...

为什么现在的LLM都是Decoder only的架构

互联网各领域资料分享专区不定期更新： Sheet 正文 1\.任务适配性：生成式任务的核心需求自回归生成：LLM的核心任务是生成连贯的文本（如对话、续写），Decoder的掩码自注意力机制天然支持自...

为什么现在的大语言模型（LLM）都是Decoder-only的架构？

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

首先概述几种主要的架构： Encoderonly：以谷歌的BERT为代表。 EncoderDecoder：以谷歌的T5、Meta的BART为代表。基于自回归空白填充的通用语言模型：清华大学的GLM。...

[从0开始AIGC][LLM]：LLM中Encoder-Only or Decoder-Only？为什么主流LLM是Decoder-Only？

LLM中EncoderOnlyorDecoderOnly&为什么主流LLM是DecoderOnly？文章目录 LLM中EncoderOnlyorDecoderOnly&为什么主流LLM是Decode...

【论文速读】解码器-解码器架构 YOCO，《You Only Cache Once: Decoder-Decoder Architectures for Language Models》

文章链接：https://arxiv.org/html/2405.05254 文章的标题是“YouOnlyCacheOnce:DecoderDecoderArchitecturesforLanguag...

LLM(5) | Encoder 和 Decoder 架构

LLM5Encoder和Decoder架构文章目录 LLM5Encoder和Decoder架构 0\.目的 1\.概要 2\.encoder和decoder风格的transformerEncoder...

[ai笔记13] 大模型架构对比盘点：Encoder-Only、Decoder-Only、Encoder-Decoder

欢迎来到的ai空间，这是技术老兵重学ai以及成长思考的第13篇分享！最近看完《这就是chatgpt》对于大语言模型的三种架构演进图印象颇深，今日就专题盘点一下三种大模型架构理论，同时做一个简单对比。...

是否确定退出登录?

LLM都是Decoder only的架构原因解读

全部评论 (0)

相关文章推荐

LLM都是Decoder only的架构原因解读

为什么现在的LLM都是Decoder-only的架构？

为什么现在的LLM都是Decoder only的架构

为什么现在的LLM都是Decoder only的架构

为什么现在的大语言模型（LLM）都是Decoder-only的架构？

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

[从0开始AIGC][LLM]：LLM中Encoder-Only or Decoder-Only？为什么主流LLM是Decoder-Only？

【论文速读】解码器-解码器架构 YOCO，《You Only Cache Once: Decoder-Decoder Architectures for Language Models》

LLM(5) | Encoder 和 Decoder 架构

[ai笔记13] 大模型架构对比盘点：Encoder-Only、Decoder-Only、Encoder-Decoder