Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
LLM相关领域的系列文章对《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》一书的翻译工作进行了深入的介绍和分析。
在实践中驾驭LLM的力量——ChatGPT及其后的研究综述
- 摘要
-
1 引言
-
2 模型实用指南
-
- 2.1 基于编码器-解码器架构或仅编码器架构的BERT风格语言模型
- 2.2 仅解码器架构的GPT风格语言模型
-
3 数据实用指南
-
- 3.1 预训练数据
- 3.2 微调数据
- 3.3 测试数据/用户数据
-
4 NLP任务实用指南
-
-
4.1 传统NLU任务
-
- 4.1.1 无用例
- 4.1.2 用例
-
4.2 生成任务
-
- 4.2.1 用例
- 4.2.2 无用例
-
4.3 知识密集型任务
-
- 4.3.1 用例
- 4.3.2 无用例
-
4.4 关于缩放的能力
-
- 4.4.1 推理用例
- 4.4.2 具有涌现能力的用例
- 4.4.3 无用例和理解
-
4.5 杂项任务
-
- 4.5.1 无用例
- 4.5.2 用例
-
4.6 真实世界“任务”
-
-
5 其他的考虑
-
- 5.1 高效
- 5.2 可信
- 5.3 安全挑战
-
6 结论与未来的挑战
-
摘要
该指南专为从事大型语言模型(LLM)下游自然语言处理(NLP)任务的从业者及实际用户,我们提供了详实且实用的指导方针。我们从模型架构、数据处理及下游任务应用的角度对LLM的使用进行了深入探讨与专业见解。首先,我们系统性地介绍了当前主流的GPT和BERT风格LLM模型,提供了简明扼要的总结。随后,我们详细分析了预训练数据、训练数据与测试数据对LLM性能的影响。特别值得注意的是,我们深入探讨了LLM在各类自然语言处理任务中的适用性与局限性,包括但不限于知识密集型任务、传统自然语言理解任务、自然语言生成任务、涌现式任务,以及特定任务场景下的独特考量。我们通过列举具体用例与非用例,清晰展示了LLM在现实应用中的实际效果与技术瓶颈。此外,我们还深入研究了影响LLM部署的关键因素,包括计算效率、资源成本及延迟问题,以确保全面理解其在实际应用中的技术挑战。最后,我们试图系统性地分析了潜在的人为偏见对LLM性能的影响,并深入探讨了实现LLM部署所必须考虑的基本要素,包括技术效率、经济性及时间成本等。本指南旨在为研究人员和从业者提供LLM协同工作的实用见解与最佳实践,从而确保LLM模型能够成功应用于广泛的NLP任务场景。LLM实用指南资源的策划列表(定期更新)可在https://github.com/Mooler0410/LLMsPracticalGuide获取。
1 引言
近年来,大型语言模型的快速发展使自然语言处理领域发生了革命性的变化。这些强大的模型在处理各种NLP任务方面显示出了巨大的潜力,从自然语言理解(NLU)到生成任务,甚至为人工通用智能(AGI)铺平了道路。然而,有效和高效地利用这些模型需要实际了解它们的能力和局限性,以及NLP中涉及的数据和任务。
为了为参与者和最终用户提供指南,这项工作侧重于在下游NLP任务中使用LLM的实际方面。本指南旨在就为什么或为什么不为给定任务选择LLM提供实用建议,并就如何选择最合适的LLM提供指导,同时考虑模型大小、计算要求和特定领域预训练模型的可用性等因素。这项工作从实践的角度对LLM进行了深入的了解,因此,使从业者和最终用户能够获得成功利用LLM的力量完成自己的NLP任务所需的实践知识。
我们的工作结构如下。首先,我们的工作通过讨论最重要的模型,如GPT风格和BERT风格的架构,简要介绍了LLM。然后,我们从数据的角度深入研究影响模型性能的关键因素,包括预训练数据、训练/调优数据和测试数据。最后也是最重要的一点,我们深入研究了各种具体的NLP任务,深入了解了LLM在知识密集型任务、传统NLU任务和生成任务中的适用性,以及这些模型所具有的突发能力和挑战现实世界场景的能力。我们提供了详细的例子来强调LLM在实践中的成功用例和局限性。
为了分析大型语言模型的能力,我们将它们与微调模型进行比较。到目前为止,LLM和微调模型还没有得到普遍认可的定义。考虑到实用性,在我们的文章中,它们的定义被提出为:LLM是在大量数据集上预训练的巨大语言模型,而没有针对特定任务调整数据;微调模型通常是较小的语言模型,这些模型也经过预训练,然后在较小的特定任务数据集上进一步调整,以优化其在该任务上的性能。
本工作总结了以下使用LLM的主要实用指南:
- 自然语言理解。当分布数据或训练数据量有限时,LLM凭借其特殊的泛化能力得以有效发挥作用。
- 自然语言生成。LLM的功能被用来生成连贯且上下文相关、高质量的文本,以满足各种应用程序的需求。
- 知识密集型任务。LLM通过其存储的丰富知识,能够执行需要特定领域专业知识或一般世界知识的任务。
- 推理能力。LLM的推理能力被用来理解复杂情况并改进决策,从而有效解决问题。
2 模型实用指南

本节对当前最先进的人工智能模型LLM进行了概述。这些模型在训练策略、模型架构和应用场景上存在显著差异。为了深入探讨LLM的发展方向,我们将模型分为两大类:编码器-解码器架构和仅编码器架构的语言模型。在图1中,我们展示了语言模型的演进过程。通过分析进化树的结构,我们得出了以下关键发现:
- a) 仅解码器的模型已经逐渐主导了LLM的发展。在LLM开发的早期阶段,仅解码器的模型不如仅编码器和编码器-解码器的模型流行。然而,2021年之后,随着改变游戏规则的LLM-GPT-3的推出,仅解码器的模型经历了显著的繁荣。与此同时,在BERT带来的最初爆炸性增长之后,仅编码器的模型逐渐开始消失。
- b) OpenAI始终保持其在LLM中的领导地位,无论是当前还是未来。其他公司和机构正在努力追赶OpenAI,开发与GPT-3和当前GPT-4相当的模型。这一领导地位可能归因于OpenAI对其技术道路的坚定承诺,即使最初并未得到广泛认可。
- c) Meta为开源LLM做出了重大贡献,并促进了LLM的研究。考虑到对开源社区的贡献,特别是与LLM相关的贡献,Meta是最慷慨的商业公司之一,因为Meta开发的所有LLM都是开源的。
- d) LLM呈现出闭源的趋势。在LLM开发的早期阶段(2020年之前),大多数模型都是开源的。然而,随着GPT-3的推出,公司越来越多地选择关闭其模型的来源,如PaLM、LaMDA和GPT-4。因此,学术研究人员对LLM训练进行实验变得更加困难。因此,基于API的研究可能成为学术界的主导方法。
- e) 编码器-解码器模型仍然很有前景,因为这种类型的架构仍在积极探索中,而且大多数都是开源的。谷歌在开源编码器-解码器架构方面做出了巨大贡献。然而,仅解码器模型的灵活性和多功能性似乎使谷歌在这一方向上的坚持前景黯淡。

我们还在表1中简要总结了每种类型的特征和代表性LLM。
2.1 BERT风格的语言模型:编码器-解码器或仅编码器
基于自然语言数据的易得性,以及已经发展出的无监督训练范式对超大数据集的充分利用,这推动了自然语言学习的无监督化。一种常用的方法是通过同时考虑句子的上下文信息来预测掩蔽词的位置。这种训练范式被称为掩码语言模型(Masked Language Model)。这种类型的训练能够更深入地理解单词的意义及其在语境中的关联。这些模型通常采用诸如Transformer架构等先进技术,在大规模文本语料库上进行训练,并在多个NLP任务中展现了卓越的性能,例如情绪分析和命名实体识别。掩码语言模型的典型代表包括BERT、RoBERTa和T5。由于其在广泛任务中的成功应用,掩码语言模型已成为自然语言处理领域的重要工具。
2.2 GPT风格的语言模型:仅解码器
尽管语言模型在体系结构中通常与任务无关,但这些方法需要对特定下游任务的数据集进行微调。研究者们发现,扩展语言模型可以显著提升了性能水平,尤其是在小样本甚至零样本任务中表现尤为突出。在具备最佳小样本和零样本性能的模型中,自回归语言模型占据领先地位,其训练机制是基于前一个单词序列生成下一个单词。这些模型已被广泛应用于文本生成和问答等下游任务。自回归语言模型的具体实例包括GPT-3、OPT、PaLM和BLOOM。GPT-3通过提示和上下文学习展示了令人瞩目的少/零样本性能,这凸显了自回归语言模型的优势。此外,还有一些模型如CodeX,专门针对特定任务进行了优化,例如代码生成和金融领域的BloombergGPT。最近的突破是ChatGPT,它通过改进对话机制,显著提升了GPT-3在会话任务的表现,为各种现实世界的应用程序带来了更互动、更连贯且具有更强上下文感知的对话体验。
3 数据实用指南
本节将探讨数据在选择适合下游任务的模型中发挥的重要作用。数据对模型有效性的影响贯穿整个预训练、训练和推理过程。

3.1 预训练数据
预训练数据在大型语言模型的开发中扮演着关键角色。构成LLM卓越能力基础的预训练数据,其质量、数量和多样性对模型性能产生显著影响。常见的预训练数据集通常由来自不同文本源的大量内容构成,包括书籍、文章和网页内容。这些经过精心设计的数据,旨在全面反映人类知识体系、语言细微差别和文化观点。预训练数据的价值在于,它为语言模型提供了丰富的单词知识、语法、句法和语义理解能力,同时增强了其上下文识别和生成连贯回应的能力。数据多样性的提升在塑造模型性能方面发挥着至关重要的作用,模型的选择往往与其预训练数据的构成密切相关。例如,PaLM和BLOOM在多语言任务和机器翻译方面表现出色,这得益于其丰富的多语言预训练数据。此外,通过整合海量社交媒体对话和书籍语料库,PaLM在问答任务中的性能得到了显著提升。同样,GPT-3.5(code-davinci-002)通过在其预训练数据中融入代码数据,显著提升了其代码执行和代码补全能力。简而言之,在为下游任务选择LLM时,建议优先选择在相关领域预先进行过充分训练的模型。
3.2 微调数据
在为下游任务部署模型时,需要综合考虑三种主要场景:零样本、小样本和大样本。本节将分别介绍在不同数据标注情况下应采用的模型架构。当无标注数据时,在零样本环境中使用LLM被认为是最佳选择。LLM在无标注数据场景中展现出显著优势,其性能优于以往的零样本方法。由于语言模型的参数设置固定,因此参数更新过程的缺失能够有效避免模型遗忘问题。在小样本标注数据的情况下,直接将示例融入LLM的提示中,这种方法被称为上下文学习。通过这种方式,LLM能够更高效地推广到下游任务中。研究[16]表明,即使单个样本或小规模标注数据也能取得显著效果,其性能甚至接近当前最优的开源大模型微调方法。LLM在零样本和小样本学习中具有强大的适应能力,通过模型扩展或参数优化等方法可以进一步提升性能。此外,还出现了多种小样本学习技术,如元学习或迁移学习,这些方法能够增强LLM的适应能力。然而,与直接微调LLM相比,基于微调模型的方法在性能上可能有所欠缺,主要原因是微调模型规模较小且容易过拟合。在标注数据丰富的场景下,可以选择LLM或微调模型进行部署。通常情况下,微调模型能够很好地适应标注数据,但当需要考虑隐私保护等限制时,LLM可能更具优势。在这种情况下,LLM与微调模型的选择需要根据具体任务需求和资源限制进行权衡。简而言之,LLM在数据标注的通用性上具有优势,而微调模型则在数据充足的场景中表现更为出色。
3.3 测试数据/用户数据
在部署LLM以支持下游任务时,我们常需应对测试数据与用户数据、训练数据之间的分布差异带来的挑战。这些差异可能涉及领域转移、分布外变化,以及对抗性例子。它们在特定分布下表现良好,但对OOD数据的泛化能力有限。然而,LLM在面对这种情况时表现优异,这得益于它们无需明确的拟合过程。最近的研究进展进一步增强了语言模型在这一方面的性能。从人类反馈中强化学习(RLHF)的方法显著提升了LLM的泛化能力。例如,InstructGPT凭借其在各种指令下的熟练处理能力,偶尔也能适应不同语言的指令,尽管这种情况较为少见。同样,ChatGPT在面对抗性任务、OOD分类和翻译测试时展现出色表现。其在对话文本理解方面的优势使其在专为OOD评估设计的DDXPlus数据集上取得了显著成绩,该数据集专注于医学诊断领域。
4 NLP任务实用指南
在本节中,我们深入探讨了LLM在各类相关NLP任务中的应用案例及其非应用场景,并分析了相应的模型能力。在图2中,我们将上述讨论归纳为一个决策流程图,它可作为在面对任务时快速做出决策的指南。

4.1 传统NLU任务
传统的NLU任务属于NLP领域的基础任务,涵盖文本分类、命名实体识别(NER)、隐含预测等多个方面。其中一些任务被用作大型AI系统中的中间环节,例如,NER在构建知识图时扮演着重要角色。

4.1.1 无用例
在GLUE和SuperGLUE等自然语言理解任务中,如果这些任务通常具有丰富的注释和高质量的数据,并且测试集包含少量分布外示例,则微调模型能够保持更好的性能。对于不同任务和数据集,微调模型与LLM之间的性能差距会有所变化。
4.1.2 用例
尽管如此,仍有一些NLU任务适合LLM。杂项文本分类是一个具有代表性的任务。与情感分析等经典的特定领域文本分类任务不同,杂项文本分类处理的主题和类别范围多样,彼此之间可能没有明确或牢固的关系。它更接近真实世界的案例,难以通过微调模型进行格式化处理。另一种是对抗性NLI(ANLI),这是一个由三轮(R1、R2和R3)中对抗性挖掘的自然语言推理问题组成的困难数据集。LLM在对抗性NLI任务中表现优异,尤其在R3和R2轮中表现突出。这些案例充分展示了LLM在传统NLP任务中对分布外和注释稀疏的数据进行良好概括的能力,超过了微调模型。
4.2 生成任务
自然语言生成主要包含两大类任务,其目标是生成连贯、有意义且符合语境的符号串。第一类任务侧重于将输入文本转换为新的符号串,例如段落摘要和机器翻译等具体任务。第二类任务为开放生成任务,旨在自生生成文本或符号串,精确契合输入要求,如制作电子邮件、撰写新闻报道、创作虚构故事以及代码编写等。

4.2.1 用例
生成任务要求模型对输入内容或要求有全面的理解,并具有一定的创造力。这正是LLM所擅长的。
对于摘要任务,尽管在传统的自动评估指标(如ROUGE)下,LLM与微调模型相比没有明显的优势,但人类评估结果表明,与微调模型的结果相比,人类倾向于更喜欢LLM生成的结果。例如,在CNN/DaylyMail和XSUM上,像Brio和Pegasus这样的微调模型比任何LLM w.r.t.ROUGE都有更好的性能,但像OPT这样的LLM在考虑到包括忠实性、连贯性和相关性在内的所有方面的人类评估中表现要好得多。这证明了LLM在摘要任务中的优越性。另一方面,这意味着当前的摘要基准不包含高质量的摘要,或者自动度量不适合于评估摘要。
在机器翻译(MT)中,LLM可以执行胜任的翻译,尽管考虑到BLEU等一些自动指标,其平均性能略低于一些商业翻译工具。LLM尤其擅长将一些低资源语言文本翻译成英语文本,例如在WMT’16的罗马尼亚语-英语翻译中,零样本或小样本LLM的表现优于SOTA微调模型。这主要是由于英语资源构成了预训练数据的主要部分。BLOOM在更多的多语言数据上进行预训练,从而在丰富资源和低资源翻译中提高翻译质量。另一个有趣的发现是,BLOOM在罗曼斯语中实现了良好的翻译质量,即使是来自加利西亚语的翻译,这也不包括在预训练数据中。一个合理的解释是,来自同一语言组中某些语言的文本可以帮助LLM从相似性中学习更多。如果能够在预训练数据中添加更多的多语言文本,则可以进一步提高翻译能力。
此外,LLM在开放式生成中非常熟练。一个例子是,LLM生成的新闻文章与人类的真实新闻文章几乎无法区分。LLM也非常擅长代码合成。无论是对于文本代码生成,如HumanEval和MBPP,还是对于代码修复,如DeepFix,LLM都可以执行得很好。GPT-4甚至可以通过Leetcode中25%的问题,这对大多数人类程序员来说并非微不足道。随着对更多代码数据的训练,LLM的编码能力可以进一步提高。在执行此类任务时,LLM生成的代码应该经过仔细测试,以找出任何细微的错误,这是在代码合成中应用LLM的主要挑战之一。
4.2.2 无用例
微调模型DeltaLM+Zcode在资源丰富和资源极贫的翻译任务中展现出尤为突出的表现。相较于LLM,微调模型在资源丰富的机器翻译任务中展现出略微的优势。特别地,在资源极度匮乏的机器翻译任务中,以英语至哈萨克语翻译为例,微调模型的表现显著优于LLM。
4.3 知识密集型任务
知识密集型NLP任务是以背景知识和专业知识为基础的NLP任务,高度依赖于知识的存储和利用。这类任务超越了单纯的模式识别和语法分析。它们需要对具体实体、事件以及常识性知识有深刻的理解和正确运用。这些任务不仅依赖于知识的存储,还要求能够准确地将这些知识应用到实际问题中。

4.3.1 用例
一般来说,LLM在训练数据量和模型参数规模上远超微调模型,具备更为丰富的知识储备。
4.3.2 无用例
还有一些其他任务需要与LLM学习的知识不同的知识。所需的知识不是LLM所学到的关于现实世界的知识。在这样的任务中,LLM并不明显优越。
有些任务只需要模型在上下文中捕获自包含的知识。来自输入的上下文中的知识足以使模型进行预测。对于这些任务,经过微调的小型模型可以很好地工作。其中一项任务是机器阅读理解(MRC)。MRC任务提供了几个段落,并要求模型根据这些段落预测问题的答案。我们在上一节中讨论了MRC,因为它也是一个传统的NLU任务。
另一种情况是,LLM中关于现实世界的知识对任务毫无用处,甚至所需的知识与现实世界相反。因此,LLM无法很好地完成此类任务。在某些情况下,不一致的知识甚至可能使LLM比随机猜测更糟糕。例如,在Big Bench中,Mnist ascii任务要求模型说出ascii艺术所代表的数字。该任务所需的能力与现实世界的知识无关。此外,在反向缩放现象竞赛中,任务重新定义数学重新定义了一个公共符号,并要求模型在原始含义和重新定义后的含义之间进行选择。它所需要的与LLM的知识形成对比,因此LLM的表现甚至比随机猜测更差。
作为LLM中真实世界知识的替代方案,允许访问额外的知识,因此模型可以通过检索增强为任务获得足够的知识。检索增强的基本思想是在进行预测之前增加一个额外的信息检索步骤,其中,将从大型语料库中检索一些与任务相关的有用文本。然后,该模型将基于输入上下文和检索到的文本进行预测。有了检索到的附加信息,关闭的书本任务就可以变成“打开的书本”。在这种情况下,微调后的模型非常好,尺寸要小得多,因为可以通过检索获得所需的知识。例如,在NaturalQuestions上,有了额外的语料库,检索增强模型比任何其他方法都要好得多。
4.4 关于缩放的能力
LLM的扩展(包括参数量和计算资源等具体方面)能够显著提升预训练语言模型的能力。随着模型规模的扩大,模型在多个任务中展现出更强的能力。具体体现在一些关键指标上,性能与模型规模呈幂律关系。例如,衡量语言建模性能的交叉熵损失指标随着模型规模呈指数增长而呈现线性下降趋势,这通常被称作“缩放规律”。对于一些关键能力,如推理能力,缩放模型使这些能力从极低水平逐步提升至可用水平,甚至接近人类水平。在本节中,我们将从LLM的能力、行为模式以及扩展策略的角度,对LLM的使用进行概述。

4.4.1 推理用例
推理构成了人类智力功能的关键组成部分,涉及信息的理解、推理和决策过程。在NLP领域,这一挑战性问题具有重要意义。现有推理任务主要可分为常识推理和算术推理两大类。算术推理/解决问题能力方面,LLM的表现与模型架构的规模密切相关。具体而言,GPT-3只有在参数规模超过13B时,才能显著提升两位数加法的能力。测试算术推理的任务虽然简单,但其目的是评估LLM将自然语言转化为数学符号并进行多步骤推理的能力。在GSM8k、SVAMP和AQuA等基准测试中,LLM展现出作为通用模型的潜力,与专门针对算术问题设计的方法相比具有竞争力。值得注意的是,GPT-4在没有外部工具辅助的情况下,其基本计算能力仍有偶尔失误,但通过CoT提示,这一能力得到了显著提升。在常识性推理方面,LLM需要不仅记住事实知识,还需要通过推理得出结论。随着模型规模的扩大,LLM在这一领域的表现也在不断增强。与微调模型相比,LLM在多个数据集上保持优势,尤其是StrategyQA和ARC-C基准集。特别是在ARC-C上,该模型涵盖了从小学三年级到九年级的科学考试难题,GPT-4在这一领域表现尤为突出,取得了接近满分的好成绩(96.3%)。
4.4.2 具有涌现能力的用例
模型的缩放赋予了其一些超乎寻常、超越幂律规律的非凡能力。这些能力被称作“涌现能力”。正如文献[113]所定义,LLM的涌现能力指的是在较小规模模型中不存在但在大型模型中出现的独特能力。这表明,这种能力无法通过分析较小规模模型的性能来预测,一旦模型规模超过某个临界点,就会在某些任务上突然展现出卓越的性能水平。涌现能力通常表现为不可预测性和出人意料的特点,这会导致任务结果看似随机。我们深入探讨了LLM应急能力的具体实例,并据此制定了相应的指导原则。处理单词操纵的能力是一种典型的涌现能力。它涉及模型对符号操作的学习能力,例如反向单词任务,此时模型被赋予一个向后拼写的单词,并必须还原为原始单词。例如,GPT-3展现了在单词排序和单词解析任务上的涌现能力。PaLM则在ASCII单词识别和超词素任务中体现了这种能力。语言模型的逻辑能力往往随着规模的扩大而涌现,如逻辑推理能力、逻辑序列处理能力以及逻辑网格问题解决能力。此外,其他高级任务,如自动调试、代码描述、概念理解等,也属于大型语言模型展现涌现能力的范畴。
4.4.3 无用例和理解
在大多数情况下,较大的模型确实表现出更好的性能,但在选择模型时,仍需谨慎考虑一些特殊场景。在某些任务中,随着模型规模的增大,性能可能会出现下降,例如在重新定义数学任务中,模型是否能够有效处理公共符号;在"其他未知"任务中,模型是否能正确选择有助于回答问题的信息;在"备忘录陷阱"任务中,模型是否能以特定开头方式生成短语。这些现象也被称作反向缩放现象。有趣的是,在LLM的扩展过程中还观察到了另一种现象,即U形现象。这一现象表明,随着模型规模的增加,在某些任务上的性能最初会有所提升,但随后会下降,最终又会再次改善。例如,在"后见忽视"任务中,模型是否能评估赌注的合理性;在"否定QA"任务中,模型是否能对问题进行否定处理;在"引用重复"任务中,模型是否能准确识别并重复提示中的句子。因此,在面对类似任务时,需特别注意潜在风险,避免过度依赖大型模型。深入研究LLM中的涌现能力、反向缩放现象和U形现象对于推进该领域研究具有重要意义。从某种角度而言,U形现象揭示了小规模模型和大规模模型在预测机制上的差异。从这个角度看,大型模型凭借其涌现能力,可以将U形现象视为反向缩放现象的特殊表现形式。例如,GPT-4在"后见疏忽"任务中就表现出这种逆转现象。然而,LLM在扩展过程中遇到的这些行为依然缺乏明确解释。对于涌现能力,一种解释是任务可能包含多个关键步骤,而大型模型在无法一次性处理所有步骤时就无法完成任务;另一种解释则侧重于评估指标的粒度。至于反向缩放现象和U形现象,主要解释集中在模型对先前信息的过度依赖、小样本示例的有效性及其对复杂任务的注意力分配等方面。
4.5 杂项任务
本节将对先前讨论中未能涵盖的边缘领域任务进行系统性地探讨,以便更全面地掌握LLM的优势与局限性。

4.5.1 无用例
由于目标和训练数据之间存在差异,LLM往往难以有效完成特定任务。尽管LLM在多种自然语言处理任务中表现出色,但回归任务的表现却相对不如人意。例如,在GLUE STS-B数据集上,ChatGPT的性能(这项评估句子相似性的回归任务)不及经过微调的RoBERTa。回归任务通常关注于预测连续数值而非离散标签,这给LLM带来了独特的挑战。它们表现不佳的一个主要原因是语言建模目标与回归任务目标之间的固有差异。LLM旨在生成连贯文本或预测序列中的下一个单词,其预训练过程主要聚焦于捕捉语言模式和关系。因此,它们的内部表示可能不太适合建模连续数值输出。此外,LLM主要针对文本数据进行训练,专注于自然语言处理的复杂性。因此,在处理包含文本、图像、音频、视频、动作和机器人等多种数据类型的任务时,LLM的表现仍有较大提升空间。尽管如此,微调后的多模式模型,如BEiT和PaLI,已经在视觉问答(VQA)和图像字幕等任务中展现出色表现。尽管如此,最近推出的GPT-4已经在多模态融合方面迈出了一步,但仍缺乏对其能力的详细评估。
4.5.2 用例
在特定任务中表现出色的LLM,能够通过模仿人类的行为来充当聊天机器人,并在执行各种任务方面展现出卓越能力。LLM驱动的ChatGPT通过与人类进行多次对话,展现出一致、可靠、信息丰富和稳健的特点,令人印象深刻。人类反馈机制在帮助LLM发展这一能力方面扮演了关键角色。如前所述,LLM不仅可以作为数据扩充的优秀注释器,还可以作为数据生成器。某些LLM在特定任务中的表现与人类注释器相当,显示出很强的竞争力。经过训练的GPT-3.5(text-davinci-003)在生成文本后,被用作类人指令,以帮助训练其他语言模型。除了在性能上有所提升,LLM还带来了其他方面的优势,例如可解释性。
4.6 真实世界“任务”
在本节的最后一部分中,我们将聚焦于LLM和微调模型在现实世界中的具体应用场景。由于现实世界中的场景往往缺乏像学术界那样严格定义的格式化任务描述,因此我们采用较为松散的表述方式。模型在现实世界中面临三个方面的挑战:首先,模型需要处理非结构化数据,如自然语言文本、图像和音频等;其次,模型需要在动态变化的环境中适应不断更新的语境和规则;最后,模型需要具备跨模态交互能力,能够理解并生成多种形式的信息。这些挑战使得将模型请求直接视为NLP任务并不总是合适的。
- 噪声/非结构化输入。这些输入来自非专家的现实世界,他们对模型的互动方式了解有限,甚至无法流利使用文本。因此,与预训练或微调时的规范数据不同,真实世界的输入数据通常混乱,包含拼写错误、口语表达和混合语言。
- 学术界对任务的正式化定义存在不足。在现实世界中,学术界往往对任务的定义不够明确,且任务种类更加多样化。用户经常提出不属于预定义任务的查询或请求,有时一个查询中可能包含多个任务。
- 模型需要准确理解用户意图。用户的请求可能包含多个隐含意图(例如对输出格式的特定要求),或者在没有后续问题的情况下,输出目标不明确。因此,模型需要具备理解用户意图的能力,并提供与这些意图一致的输出。
本质上,这些挑战源于用户请求与为特定任务设计的NLP数据集在分布上的显著差异。公共NLP数据集无法准确反映模型的实际应用情况。

在真实世界场景中处理歧义、理解上下文以及处理嘈杂输入的能力,是LLM显著优于经过微调模型的关键所在。与经过微调的模型相比,LLM更适合这一任务,因为它们在经过广泛的数据集训练后,能够涵盖多种风格、语言和领域。此外,LLM展现出生成开放域响应的强大能力,使其特别适合处理这些复杂场景。然而,经过微调的模型通常是为了特定、明确的任务而定制的,并且在面对新的或意外的请求时可能表现不佳。它们在很大程度上依赖于明确的目标和高质量的训练数据,这些数据决定了模型应遵循的指令类型。微调模型在处理噪声输入方面存在一定局限性,因为它们对特定分布和结构化数据的关注较为狭窄。通常需要一个额外的系统作为辅助,以帮助处理非结构化上下文、识别可能的意图,并相应地细化模型的响应。
一些机制,如指令调整和人工干预,进一步增强了LLM理解和遵循用户指令的能力。这些方法提升了模型生成有用、无害和诚实响应的能力,同时保持了一致性。尽管这两种方法都能拓宽LLM在不可见任务和指令上的应用范围,但已注意到,人类标注者更倾向于选择与人类对齐调整的模型,而非使用公共NLP任务(如FLAN和T0)的指令调整模型。这一偏好可能与微调模型的不足有关:公共NLP任务/数据集设计初衷是为了简便和自动评估,因而只能覆盖现实世界中一小部分应用场景。
在涉及现实世界场景时,评估模型的有效性面临主要挑战。由于缺乏形式化任务或指标,模型评估只能依赖于人类标注者的反馈。鉴于此,大规模、系统性比较微调模型和LLM尚未展开。尽管如此,ChatGPT等LLM的卓越表现和广泛认可,一定程度上验证了LLM的优势。
5 其他的考虑
尽管LLM在多种下游任务中具有广泛的应用,但还需考虑效率和可信度等其他因素。我们对效率的讨论涉及LLM的训练成本、推理延迟以及参数的有效调整策略。同时,我们对可信度的评估涵盖了稳健性、校准、公平性、偏见,潜在的虚假关联性,以及LLM中的安全挑战。

5.1 高效
在实际部署中,性能、成本和延迟都是重要的考虑因素,除了模型本身的性能之外,开发成本和运行成本同样不容忽视。尽管已经开发了一些参数优化的方法,但从业者在实际应用中仍然需要在效率和效果之间找到平衡点。
5.2 可信
鉴于LLM如今涉及医疗保健、金融和法律等多个敏感领域,确保它们值得信赖并能提供可靠的结果变得至关重要。
5.3 安全挑战
LLM在推理、知识保留和编码等许多领域都表现出了极其强大的能力。随着他们变得更加强大和人性化,他们以重大方式影响人们意见和行动的潜力也在增长。因此,应该考虑我们社会面临的一些新的安全挑战,并在最近的工作中引起了大量关注。
幻觉 。LLM产生“幻觉”或产生荒谬或不真实内容的可能性,可能会对各种应用中信息的质量和可靠性产生重大负面影响。随着LLM变得越来越令人信服和可信,用户可能会过度依赖它们,并相信它们能在他们熟悉的领域提供准确的信息。如果模型生成的内容完全是虚假或误导性的,从而导致基于这些信息做出错误的决定或采取错误的行动,这可能会特别危险。这种结果可能会在许多领域产生严重后果,如医疗保健、金融或公共政策,在这些领域,信息的准确性和可靠性至关重要。为了缓解这些问题,从人类反馈中强化学习(RLHF)被广泛使用,LLM本身已被集成到循环中。
有害内容 。由于LLM生成的文本具有高度的连贯性、质量和合理性,LLM中的有害内容可能会造成重大伤害,包括仇恨言论、歧视、煽动暴力、虚假叙事,甚至社会工程攻击。为检测和纠正这些内容而实施的保障措施可以是缓解措施。这些LLM还可能具有双重用途的潜力,因为它们提供了所需的非法信息,从而导致武器扩散甚至恐怖主义袭击计划等风险。至关重要的是要确保负责任地使用这些LLM,并采取保障措施防止伤害。此外,在现有的工作中,来自人类的反馈在消除有害输出方面发挥着重要作用。
隐私 。LLM可能面临严重的安全问题。用户隐私问题就是一个例子。据报道,三星员工在使用ChatGPT处理工作时,无意中泄露了绝密数据,包括新程序的源代码、与硬件相关的内部会议记录等。意大利数据保护机构宣布,ChatGPT的开发者OpenAI非法收集了个人用户数据,导致意大利成为第一个出于隐私考虑禁止ChatGPT的政府。
6 结论与未来的挑战
大型语言模型的最新进展带来了自然语言处理领域的根本性改变。要有效运用LLM,需要深入理解其功能特性以及各类NLP任务所面临的局限性。这项研究则为开展下游NLP任务提供了LLM的实用指南。我们首先深入探讨了GPT架构和BERT架构等具有代表性的模型,并分析了影响其性能的关键因素。随后,我们深入研究了将LLM应用于下游任务的可能性,包括知识密集型任务、语义理解(NLU)和自然语言生成(NLG)任务,并通过具体案例展示了其成功应用及其局限性。本实用指南不仅深入解析了LLM的技术原理,还详细阐述了在NLP任务中充分利用LLM的最佳实践。我们期望通过本指南,能够帮助研究者和从业者更好地释放其潜力,推动语言技术的持续创新。
在探讨LLM未来发展的关键挑战时,我们首先关注了模型规模与计算资源的平衡问题。其次,我们深入分析了LLM在多语言处理任务中的局限性。此外,我们还探讨了LLM在生成内容的多样性和质量控制方面的挑战。最后,我们研究了LLM在安全性和伦理使用方面的潜在风险。通过全面分析这些关键挑战,我们旨在为LLM的未来发展提供有价值的参考。
- 在真实世界的“数据集”上评估拟议模型。而现有的深度学习模型主要在标准学术数据集上进行评估,如ImageNet,这是深度学习发展的里程碑。然而,标准学术数据集的局限性并不能准确反映真实世界的性能。随着模型的发展,根据反映真实世界需求的更多样、更复杂、更现实的数据对其进行评估至关重要。除了学术模型外,在现实世界的“数据集”上评估模型将对其能力进行更严格的测试,并更好地了解其在现实世界应用中的有效性。这确保了模型能够应对现实世界中的挑战并提供实用的解决方案。
- 模型校准。确保日益强大和自主的模式与人类价值观和优先事项保持一致至关重要。必须开发方法,以确保这些模型的行为符合预期,并且不会针对不期望的结果进行优化。从模型开发过程的一开始就集成对齐技术是至关重要的。模型的透明度和可解释性也是评估和确保一致性的重要因素。此外,当我们展望未来时,一个更艰巨的挑战迫在眉睫:调整超人系统。虽然这项任务目前超出了我们的要求,但重要的是要考虑并准备好调整此类先进系统的潜在影响,因为它们可能会带来独特的复杂性和道德问题。
- 安全校准。虽然对人工智能存在风险的讨论很重要,但需要具体的研究来保证先进人工智能的安全开发。这包括可解释性、可扩展的监督和治理技术,以及模型属性的正式验证。安全不仅应被视为一个附加组件,而且应被视是模型构建过程中不可或缺的一部分。
- 带缩放功能的性能预测。随着模型规模和复杂性的急剧增加,很难预测模型性能将如何变化。在扩展后或随着新架构的开发,开发更好地预测模型性能的方法将允许更有效地使用资源并加快进度。一些可能性包括:训练一个较小的“种子”模型并推断其增长,模拟规模增加或模型调整的影响,以及在不同规模下对模型的迭代进行基准测试,以建立缩放定律。这些可以在模型构建之前就提供对模型性能的深入了解。
