Advertisement

大模型综述

阅读量:

大语言模型和预训练语言模型不同的是?

1、LLM(大语言模型)在先前较小的预训练语言模型(PLM)中可能观察不到的惊人的突现能力,这些能力是语言模型在复杂任务上表现的关键,使人工智能算法具有前所未有的强大和有效。
2、LLMs将彻底改变人类开发和使用人工智能的方式。访问LLMs的主要方式是通过提示接口。
3、LLMs的发展不在明确区分研究和工程。
4、 LLMs的训练需要在大规模数据处理和分布式并行训练方面具有丰富的实践经验。

llm哪些潜在原理没有得到探索?

1、为什么涌现能力出现在LLM中,而不是更小的PLM中。
2、缺乏对LLMs卓越能力的关键因素的深入、详细的研究。
3、研究LLM什么时候怎样获取这些能力。
4、研究界难以培养有能力的LLMs(由于对计算资源的巨大需求,为了研究各种策略训练LLMs的效果,进行重复的、消融性的研究是非常昂贵的。)
5、将LLMs与人类的价值或偏好进行对齐具有挑战性。(尽管LLMs具有这些能力,但是也可能产生有毒、虚假或有害的内容物。需要有效、高效的控制方法来消除LLMs使用的潜在风险)

LLMs的4个主要方面

pre-training

adaptation

utilization

capability evaluation

语言模型的涌现能力

涌现能力是指不存在小模型中但出现在大模型中的能力,是LLMs区别于PLMs的特征之一。
1、语境学习能力(ICL)
2、指令跟随(通过指令调优,LLMs可以在不使用显式示例的情况下跟随新任务的任务指令,从而具有更好的泛化能力。)
3、分步推理(与思维链(chain-of-thought,COT)相比,LLMs可以利用包含中间推理步骤的提示机制来解决。将COT提示应用于规模较大(大于60B)的模型当中,可以带来性能增益,而当模型规模超过100B时,其相对于标准提示的优势更加明显)

涌现能力和Scaling Laws的相关性

Scaling Laws(通常通过语言建模损失来衡量)描述了可预测的性能与收益递减的潜在影响之间的关系。但涌现能力是不可预测的。涌现能力可能部分归因于特殊任务的评价设置(例如:不连续的评估指标)。当评价指标发生相应变化时,突现能力曲线的尖锐性就会消失。然而,LLMs在大多数任务上表现一部连续的方式被用户感知。

LLMs成功的潜在技术

1、Scaling:更大的模型/数据规模和更多的训练计算会导致模型容量的增大,通过一些缩放方法对计算资源进行更高的分配
2、Training: 由于模型规模巨大,成功训练一个有能力的LLM是非常具有挑战性的。学习LLMs的网络参数需要分布式训练算法,其中多种并行策略经常被联合使用,为支持分布式寻来你,一些优化框架已经发布,一边并行算法的实现和部署。
3、Ability eliciting:经过大规模语料库的预训练,LLMs被赋予了作为通用任务解决者的潜在能力。当LLM执行某些特定的任务时,这些能力可能不会被明确地表现出来。作为技术途径,设计合适的任务指导语或特定的语境学习策略来激发这些能力是有用的。
4、Alignment tuning:由于LLMs是为了捕捉预训练语料(包括高质量和低质量的数据)的数据特征而训练的,因此很可能会生成对人类有毒、有偏甚至有害的内容。LLMs需要与人类价值观保持一致,如乐于助人、诚实、无害等。
5、Tools manipulation: 从本质上说,LLMs在海量文本上被训练为文本生成器,因此在以文本形式表示不是很好的任务上表现较差。此外,他们的能力也受限于与寻来你数据。因此提出使用外部数据弥补不足。例如计算器进行精确的计算,搜索引擎检索未知信息等。

GPT系列模型的演进

早期阶段:GPT-1是基于生成式、进阶吗的Transformer架构开发的,采用无监督预训练和有监督微调的混合方法。为 GPT系列模型建立了核心结构,并确立了对自然语言文本建模的基本原则,即预测下一个词。接下来在GPT-1模型的基础上进行参数扩充,构建GPT-2模型,使用大量数据进行训练。通过无监督的语言建模,不需要有标签数据进行明确的微调。引入一种概率形式的多任务求解方法,根据输入和任务信息来预测输出。由于(任务特定的)监督目标与无监督(语言建模)目标相同,但只在序列的一个子集上进行评估,因此无监督目标的全局最小值也是监督目标(针对不同的任务)的全局最小值。因此,如果将无监督语言建模训练为具有足够的恢复世界文本的能力,那么它就能够解决各种任务。在GPT-3中,将模型参数所防止更大175B参数。引入预警学习(ICL),以少量或零样本方式使用大模型。通过以文本的形式理解任务。可以算是从PLM到LMM发展历程的一个重要的里程碑。ChatGPT的训练方式与InstructGPT (在原文中称为"指导GPT的兄弟模型")类似,但专门针对对话进行了优化。在数据收集设置中ChatGPT和InstructGPT训练的区别:将人造对话(扮演用户和AI的双重角色)与InstructGPT数据集以对话格式结合用于训练ChatGPT。
另一个令人瞩目的进展是GPT - 4 [ 46 ]于2023年3月发布,将文本输入扩展到多模态信号。总体而言,GPT - 4比GPT - 3.5具有更强的解决复杂任务的能力,在很多评价任务上表现出较大的性能提升。由于6个月的迭代对齐(在RLHF训练中附加安全奖励信号),GPT - 4对恶意或挑衅性查询的响应更加安全。在GPT - 4 [ 46 ]工作的基础上,OpenAI于2023年9月进一步发布了GPT - 4V,重点关注GPT - 4视觉功能的安全部署。GPT-4 Turbo,进行了一系列的技术改进。GPT - 4Turbo具有改进的模型容量(比GPT4更有能力),扩展的知识源(截至2023年4月),长上下文窗口(最高可达128k令牌),优化的模型性能(更便宜的价格),以及其他有用的功能更新(函数调用,可重复输出等。)。

LLMs主流架构的三种类型

编码器-解码器
因果解码器
前缀解码器
Causal Decoder是一种自回归模型,它在生成文本时只能依赖于已经生成的输出,即每个token的生成只能依赖于它之前的token,而不能利用未来的token信息。这种模型的典型代表是GPT系列模型,它们使用的是单向注意力掩码,确保每个输入token只能注意到过去的token和它本身。这种模型架构适用于文本生成任务,如文本续写或问答系统,因为它可以保证生成文本的连贯性12。
Prefix Decoder,也称为non-causal Decoder(非因果解码器),是一种Encoder-Decoder模型的变体。与Causal Decoder不同,Prefix Decoder在输入部分采用双向注意力机制,这意味着模型在处理输入序列时,任意两个token都可以相互看见。而在输出部分,Prefix Decoder则采用单向注意力,即待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token。这种模型架构允许模型在生成文本时同时考虑前缀信息和单向生成的特性,适用于需要同时理解上下文和生成文本的任务,如条件文本生成。
总的来说,Causal Decoder和Prefix Decoder的主要区别在于它们处理注意力的方式不同,这影响了它们在文本生成任务中的适用性和性能。Causal Decoder更适合于需要生成连贯文本的任务,而Prefix Decoder则提供了一种结合了双向理解和单向生成的模型架构,适用于更复杂的文本生成场景

全部评论 (0)

还没有任何评论哟~