Advertisement

大模型综述

阅读量:

《Leveraging Large Language Models for Practical Applications: An Exploration of ChatGPT and Its Evolutionary Development》论文阅读

模型架构

两种架构:

  • encoder-decoder架构/encoder架构:T5/BERT
  • decoder架构:GPT4
在这里插入图片描述
特点 LLMs
encoder-decoder
or
encoder-only
BERT-style 训练:掩码语言模型
类型:判别式
预训练任务:预测掩码词 ELMo, BERT,RoBERTa,
DistilBERT,BioBERT,XLM,
Xlnet,ALBERT,ELECTRA,
T5,GLM,XLM-E,ST-MoE,AlexaTM
decoder-only
GPT-style 训练:自回归语言模型
类型:生成式
预训练任务:预测下一个词 GPT-3, OPT,PaLM,
BLOOM, MT-NLG,
GLaM,Gopher, chinchilla,
LaMDA, GPT-J, LLaMA,
GPT-4, BloombergGPT

BERT-style判别式模型:结合语境信息并预测句子中的mask tokens以揭示单词与上下文之间的关系。如:BERT、RoBERTa 和 T5 等

GPT-style生成式模型 :基于给定的前一个词序列预测下一个词。 eg:GPT-3、OPT、PaLM和BLOOM

实用数据指南

数据对模型有效性的影响始于预训练阶段,并持续到训练和推理阶段。

备注

在处理分布在外的数据时,在下游任务领域中LLM相较于微调模型表现出更强的适应能力(适应能力),例如通过对抗性示例测试以及跨域转换实验来验证这一优势。
当面临有限标注的数据量时,在这种情况下微调模型不如LLM更具优势(优势)。然而,在标注数据资源丰富的场景下,则两者皆可作为合理的选择(选择),具体应依据特定任务的需求来决定。
推荐采用在与下游任务相关的字段上进行预训练的方法(方法),因为这能够显著提升模型的学习效果(效果)。

预训练数据

在开发大型语言模型的过程中,预训练数据扮演着至关重要的角色。构成LLM卓越能力的重要组成部分是预训练数据的质量、数量与多样性这三个关键要素。通常情况下,默认情况下这些数据来源广泛多样,在经过精心整理后能够全面反映人类知识体系的各种维度及其细微差别,并且充分考虑到文化差异等因素的影响。正是由于这一系统的存在与完善,在为语言模型提供丰富的语义知识储备的同时也为其构建准确的语法体系奠定了基础;同时这一系统的建立也为模型提供了良好的上下文理解能力和生成连贯回应的能力;而这些特性共同构成了LLM展现出的强大能力基础

总的来说,在为下游任务选择LLM时(意思是),建议优先考虑基于具有相似数据特性的预训练模型

微调数据

在为下游任务安排部署模型时,有必要针对注释数据的可用性来制定三种主要场景:零、少量和大量.

无标注数据集:在缺乏标注数据的前提下,在Zero- shot learning框架内应用大型语言模型(LLM)被证实是最佳选择。经过验证,在无标注数据场景下采用LLM展现出超越以往Zero- shot learning方法的优势。进一步地,在维持语言模型结构稳定的同时(即未对模型参数进行更新),通过不引入额外的更新机制得以有效规避 catastrophic forgetting的问题。

少量标注数据:将有限数量的样本直接融入LLM(Large Language Model)的学习过程。
这些少量样本被直接融入LLM的学习过程后能够有效提升其泛化能力。
研究表明,在仅利用少数标注样本的情况下进行学习可以获得比基于微调开域模型更好的性能表现。
然而需要注意的是,在这种情况下构建的小规模模型可能会出现欠拟合现象。

充足的标注数据:针对特定任务可获得大量的标注数据资源。探索微调模型与LLM之间的可能性,在多数情况下能够很好地拟合现有数据集。在此特定场景中选择使用微调模型或LLM需根据具体任务的需求以及性能指标进行权衡,并考虑计算资源、部署限制等因素的影响。建议采用充足标注的数据集来进行微调训练的模型架构设计,在保证性能的前提下提升LLM的数据适应能力。

测试/用户数据

在部署大型语言模型(LLM)以支持下游任务时

NLP任务的实用指南

深入探讨LLM在不同类型的下游自然语言处理任务中所应用的案例及其限制,并分析其相对应的能力

传统的NLU任务

传统的NLU任务可视为NLP领域中的基础性工作;它涉及文本分类、命名实体识别(NER)以及蕴涵预测等核心模块;其中许多被设计为大型AI系统的关键中间环节;例如知识图谱构建中的NER处理。

在这里插入图片描述

程序选择大型语言模型(LLM)或经过微调优化的模型2的过程。该流程指导用户评估当前可用的下游自然语言处理(NLP)应用是否符合特定要求,并基于此决定LLM或经过微调优化的模型2是否最适合当前的应用程序。在流程图中使用符号表示评估结果:Y代表符合条件的情况,N则表示不符合条件的情况。最终通过黄圈标记的最后一个条件Y节点表明,在这种情况下没有合适的模型能够有效支持应用。

备注 :对于传统NLU任务而言,在微调模型上通常展现出更高的性能(相较于LLM而言),尽管LLM具备优势(这要求模型具备更强的泛化能力)。

  • 不适合大型语言模型(LLM)处理的任务包括:文本分类任务、信息检索任务、命名实体识别任务以及依赖关系解析任务。
    • 而适用于LLM处理的杂项文本分类。

生成任务

自然语言生成主要包含两大类生成任务

备注:因为LLM具备卓越的生成能力和创新思维能力,在绝大多数生成场景中展现出色性能

  • 覆盖涵盖LLM的任务:归纳整理与总结任务、机器翻译以及多模态生成
    • 仅限于资源丰富的翻译任务和资源极少的翻译任务

知识密集型任务

这类任务严重依赖于背景知识、相关领域的专业知识以及一般性的现实世界知识。这些任务超越了单纯的模式识别和语法分析。它们严重依赖于记忆以及对现实世界中特定实体、事件与常识的正确应用。备注

  1. 因为LLM拥有丰富的现实世界知识而具备专长于各种知识密集型任务的能力。
  2. 当所需求的知识与现有知识存在差异时以及当任务仅依赖上下文信息时,Llama可能会遇到挑战,在这种情况下,微调后的模型同样能够有效地应对这类任务。
  • 适用于LLM的任务包括闭卷式问答任务以及大规模多任务语言理解(简称MMLU)。
    • 不适用于LLM的任务包括那些所需知识与法学硕士所学内容不同的领域。
      所需的知识主要来源于现实世界的经验和实践。
      在这些领域中,在机器阅读理解和相关认知能力方面,并没有显示出明显的优势。

与规模有关的能力

LLM的规模(涉及参数数量及计算资源等)能够显著提升预训练语言模型的能力;随着模型规模的增长,在一些评估标准上展现出更强的能力;在一些评估标准上,性能与模型规模呈现指数级增长趋势。

备注

  1. 随着模型尺寸急剧扩展时,在生成模型中大语言模型(LLMs)的表现力得到了显著提升,在涉及数值计算与日常知识运用的任务中尤为突出。
  2. 在大语言模型领域中,默认情况下认为其具备 emergent 能力的现象被重新定义为一种意外发现的结果。
  3. 当因对大型语言模型随规模变化表现出何种特征的理解存在局限时,在实际应用中通常无法观察到其性能以预期的方式持续增强。
在推理方面的用例

推理过程涉及理解信息、进行推断以及做出决定等环节,在人类智能体系中占据核心位置;众多现有的推理任务大致可分为常识推理与算术推理两大类。

常识推理 :常识推理不仅要求法学硕士能够掌握事实知识基础,并且还需要法学硕士完成一定数量的逻辑推导。当模型规模不断增大时,在相关领域的知识获取效率显著提升。

算术推理 : 在无需依赖外部工具的情况下, LLM的算术推理能力主要得益于模型大小的缩放. 法学硕士在基本计算中偶尔会犯错, 然而通过使用 chain-of-thought prompting, LLM的能力明显提升.

新兴能力的可用案例

以下是对原文的有效同义改写

不可用案例和理解

通常情况下大尺寸模型能够展现出更好的性能水平;但对于一些特定的任务而言随着LLM规模的增长会出现性能下降的情况呈现一种U型变化模式具体表现为:当LLM规模增大时起初其在某些任务上的表现会逐渐提升但随后却出现了下降趋势最终又会再次转好这种循环变化的现象提示我们小规模与大规模模型之间采用了不同的内部机制来进行信息处理;从这一角度来看这种反向演变可能源于模型正在适应并掌握新的学习能力

其他任务

备注

  1. 在与LLM预训练目标及数据存在较大差异的任务中对模型进行微调或指定模块,在模仿人类行为、执行数据标注以及生成文本方面展现出卓越的能力。这些技术不仅能够应用于自然语言处理(NLP)任务的质量评估,并且还具备如可解释性等额外的功能。
  2. LLM在模仿人类行为、执行数据标注以及生成内容方面展现出卓越的能力。这些技术也可应用于自然语言处理(NLP)任务的质量评估,并且具备如可解释性等额外的功能。
不适用LLM的任务

回归任务多为旨在预测连续数值而非离散标签。由于语言建模目标与回归任务目标之间存在本质差异导致LLM表现欠佳。LLM多用于预测序列中的下一个单词或生成连贯的文本经过预训练后,在捕捉语言模式与关联方面表现出色然而这些内部表示可能不足以适应对连续数值输出的建模。

适用LLM的任务

LLM精准复制人类的行为模式,并模拟人类对话模式,在模拟过程中承担多种应用场景。作为强大的工具模型,在处理文本时能够精准识别上下文信息并进行推断运算。在自然语言处理领域中被广泛应用于对生成文本质量进行评价的任务中,在特定领域如法律文书处理方面表现尤为突出,并通过清晰展示了LLM如何得出结论的方式提供了一个详尽的解释方案,并显著提升了整体性能水平

真实世界的任务

模型在现实世界中面临着三个方面的挑战:

嘈杂的/非结构化输入 :真实世界的输入数据往往呈现混乱状态,并且通常包括误写、日常用语以及不同语言混杂的情况。

尚未被学术界明确界定的任务 :在现实世界中,这些任务的界限往往不明确,并且相比起封闭的学术环境而言更为多样化。用户提出的查询和请求通常无法简单地归入预设的类别中,在某些情况下甚至一个查询可能涉及多个任务。

遵循用户的指示 :模型需要理解用户意图,并提供与这些意图一致的输出。

根本上来说,在现实世界中存在这些挑战的原因在于用户的请求与所有特定任务所需的数据集分布模式不符。

备注 :相较于微调模型而言,在适应现实场景的应用上LLM表现更为突出。然而,在验证模型在实际应用场景中有效性这一关键问题上仍存在诸多挑战

在复杂的真实场景中实现有效的自然语言处理需求包括识别模糊信息、解析背景信息以及应对干扰数据等多重挑战。相较于微调模型而言法学硕士专业人员因其在涵盖多样化的写作风格语言类型以及领域范围内的丰富数据集训练上所具有的显著优势而更为适合此类任务需求。大语言模型展示了强大的生成跨领域响应的能力这使得它们非常适合应对上述复杂的现实应用场景。

一方面来说,在微调过程中。
另一种观点是,在微调过程中。
同时,在这种情况下,
此外,在这种情况下,
虽然微调方法通常专门适应特定任务,
但也可能导致其无法应对新出现或意外提出的请求。
这种方法高度依赖于明确的目标以及经过精心整理的训练数据,
这些数据决定了模型应遵循的具体指令类型。
由于其关注范围较为狭窄,
在面对噪声输入时可能会表现出挑战性。
为了更好地应对复杂情况,
通常需要一个辅助系统来处理非结构化上下文的情况,
识别潜在意图并提升对这些情况的理解能力。

这些机制显著提升了LLM对理解和执行用户指令的能力。这些方法不仅增强了模型生成积极、安全且诚恳的回答能力,并且确保了回答的一致性和连贯性。

当涉及到现实场景时,主要关注点之一是如何判断模型优劣。目前并不存在系统性的方法或标准,在这种情况下,模型性能的评估仍然需要依靠人工标注者提供的反馈。

其他考虑因素

虽然LLM在各种下游任务中表现出色,但还需注意其他重要考量如效率与可信度两方面的问题。在探讨效率时涉及训练成本、推理延迟以及优化参数的有效策略三者之间的关系;与此同时,则需评估稳健性和校准情况这两个维度的指标表现;此外,在检验可信度方面则需关注公平性与偏差两个核心问题;同时还要考虑潜在虚假关联性以及安全挑战等潜在风险因素的影响

备注

对于那些对成本敏感或对延迟有严格要求的场景而言, 参数优化策略更为高效, 从而能够显著提升模型部署效率与交付质量.
零样本学习无法从中获取可取的经验, 但这类技术仍面临共同挑战.
尽管LLM的安全隐患不容忽视, 但其潜在危险性及偏差性输出容易引发严重后果.

效率

在实际部署过程中,在选择解决方案时需要综合考虑性能、成本以及延迟这三个关键因素,并非仅关注模型性能 alone. 而是要权衡效率与效果的平衡

费用方面而言,在面对巨额费用时,在线教育平台应主要考虑那些规模较小的企业以及个人使用群体。

延时:计算时间作为衡量延时的标准指标。然而,在计算资源受限或实时响应要求严格的环境中,默认情况下不适合采用大型LLM。

高效优化模型参数:一种称为Parameter Efficient Tuning (PET)的技术在机器学习领域备受关注,在固定预训练语言模型的主要参数的同时也能对少量调整额外引入的模型参数(或额外可调节的参数)以实现优化效果。该方法的主要目标是在不减少原始模型性能的前提下显著降低了计算和存储开销.PET常采用的方法包括LoRA、Prefix Tuning以及P-Tuning等技术

可信度

考虑到LLM在涉及医疗保健、金融和法律等敏感领域,并且确保它们值得信赖,并能可靠地产生产出变得至关重要。

鲁棒性与标定性的关系:LLM的准确性与鲁棒性之间存在密切的关系。通常而言,在处理复杂场景时精度较高的模型往往表现出较强的鲁棒性。然而,在经过对特定应用程序的数据进行优化后,“零样本”的鲁棒性能显著下降。这可能归因于过拟合现象——即由于模型的高度复杂性和来自下游任务的数据量有限而导致其泛化能力较弱。类似地,在过度参数化的背景下进行微调可能会导致严重的标定偏差(即误校准)。因此,在优先考虑性能稳定性的条件下(尤其是当准确性和一致性成为核心考量时),采用微调策略可能并不理想。

-公平性与偏差:LLM显示出对待方式与潜在影响的不同对待方式与潜在影响。这种不公平的对待方式可能导致长期的社会偏见,并可能加剧不公现象。

虚假偏差是指捷径学习方法在预训练与微调范式下的各类自然语言理解任务中普遍存在的问题。模型严重依赖微调数据中输入与标签之间的虚假关联来进行预测。相比之下,在微调数据集上并未直接进行训练的LLM,在一定程度上减少了对微调数据集中固有捷径特征的学习能力。然而,在上下文学习过程中可能会出现一些捷径行为的痕迹表现出来。例如,在LLMs的文本分类与信息提取任务中的few-shot学习场景下,“从预训练语料库中普遍存在的答案”就容易出现这种现象——即模型倾向于选择那些具有典型性的回答内容。“位置偏见”的存在可以通过适当调整提示信息来缓解这种偏向现象的影响。尽管LLMs在一定程度上降低了传统预训练模型中存在的这些问题所带来的负面影响效果显著”,但它们仍然无法完全消除这类捷径行为的存在,在实际应用时仍需谨慎考量其潜在风险

安全性挑战

LLM在逻辑推理能力、知识存储能力和编码效率等几个关键领域展现出了卓越的能力。随着其发展出越来越强大的性能,在这些方面逐渐展现出类人化的特质,并对人们的观点和行为潜在影响力持续增强。

幻觉 :当LLM生成内容时,可能出现所谓的"幻觉"现象,在某些情况下会生成看似荒谬或不符合现实的内容。这可能对LLM在各种应用场景中传递的信息质量和可靠性造成重大影响。为此,在强化学习(RLHF)框架下对其进行约束,并通过引入反馈机制来改善LLM的表现

因为法学硕士所生成的内容具有极强的一致性和专业深度,并且能够传达出高度准确的知识体系,在当前法律领域内有着不可替代的作用。

-隐私 :LLM可能面临严重的安全问题,用户隐私问题就是一个例子。

结论和未来挑战

最近大型语言模型的发展已经彻底改变了自然语言处理领域。
要高效利用LLM需深入理解其功能特性,并掌握各类NLP任务的局限性。
本文旨在为下游NLP任务提供实用指导方案。
首先阐述了GPT架构与BERT架构等主流模型的设计特点及其性能影响因素。
接着研究如何将LLM应用于各类下游任务场景,并详细分析了在知识密集型领域、情感分析(NLU)以及文本生成(NLG)等方面的成功案例及应用限制。

-真实世界“数据集”上评估

对齐模型必须与自我驱动的系统保持高度一致,并且这些系统必须能够快速地增长以满足人类的价值观和优先级。

-安全对齐研究:为了确保先进人工智能的安全发展,需要进行深入的研究工作。这涉及采用可解释性评估、可扩展监督机制以及模型属性验证等技术手段。其中的安全不应仅仅被视为模型构建过程的一个辅助环节,而应视为其核心要素之一。

-规模扩大的性能预估:在模型规模与复杂度迅速提升的情况下进行性能预估是一项具有挑战性的工作。为了研究其变化规律与影响因素,则需要开发相应的预估方法;与此同时,在新架构设计过程中研究如何更高效地配置资源与加快部署进度也是必要的工作内容。

全部评论 (0)

还没有任何评论哟~