什么是大模型?
什么是大模型?
概念
大模型(Large Language Model, LLM)是一种拥有庞大参数规模(通常达到数十亿甚至千亿级别)、结构复杂且高度优化的深度学习模型。这些模型通过海量数据和强大的计算能力进行训练,并具备多任务学习能力和强大的泛化性能。它们能够处理文本、图像、语音等多模态数据,并广泛应用于自然语言理解、生成、推理等复杂任务。
在早期时期, 也被视为Foundation Model, 而基础model则是其核心概念之一。完整名称则为人工智能预训练大型model, 现在我们常用大型model实际上是特指其中一类应用最广的形式——language model(large language model), 简称llm
除了语言大模型之外,在当前研究领域中还包括视觉大模型、多模态大模型等其他类型的大模型架构。目前,在涵盖所有研究方向的前提下形成的统一概念被称作广义的大模型研究范畴;而专门专注于语言处理任务的研究则被特化为狭义的语言大模型领域

本质上来说,大型AI模型是由数量庞大的参数构成的神经网络体系。该体系能够达到或超过十亿个参数的数量级。
具体来说,在讨论大型语言模型时,“‘大’”这一特性不仅仅体现在参数数量庞大上,并且也包含架构设计更为复杂、所使用的训练数据量巨大以及计算资源消耗高等几个关键方面

总体而言而言而言而言地而言地而言地而言
大模型是如何训练出来的?
大模型可以通过学习海量数据来提取其中的知识,并将其所学的知识加以运用以解决具体问题或生成创意内容等。
学习的过程,我们称之为训练。运用的过程,则称之为推理。

训练,又分为预训练(Pre-trained)和微调(Fine tuning)两个环节。
预训练
在预训练时,在选择大模型框架时(例如使用transformer),我们利用大量的数据进行输入(即馈入)处理,并让大模型掌握其通用特征表示。

神经元的工作流程实际上相当于一种数学运算机制。在数学表达式中, x代表输入数据,y代表输出目标。预训练的过程就是基于输入数据x和输出目标y,求解参数W。其中,W是这个数学表达式中的"权重(weights)"。
参数决定了输入变量对模型输出的影响程度。经过多次迭代确定参数的过程即为训练的目的。
在模型设计中,权重构成核心参数类别。除权重外,偏置(biases)也被视为一个关键参数类别。

权值决定了输入信号对神经元的作用大小;而偏移量对应于神经元对于输入信号的感受能力。
大致上讲,在数据输入与输出的过程中进行反复计算以确定最合理的权重和偏置(即参数),这就是预训练的过程。完成之后这些参数会被用来进行模型后续的工作或部署。
参数数量增加时,在模型的学习过程中会逐渐积累更多的知识储备,并逐渐提升对数据的理解深度。在这种情况下,在各类任务中模型将展现出更高的能力水平。
我们通常会说大模型具有两个特征能力——涌现能力 和泛化能力 。
当模型的训练数据量与参数规模持续增长直至达到特定临界点时, 将展现出一些无法预判且更为复杂的特性与特征. 模型通过原始训练数据自主提取出更高层次的特征与模式. 这种特性被定义为"涌现特性".
涌现能力 ,这一指标通常被定义为大模型的大脑在关键时刻实现了质的飞跃。它不仅仅局限于机械地复制已有的知识,并且能够深入理解其内在逻辑与关联性。
泛化能力是指大模型通过吸收大量数据信息后能够有效提炼出复杂的特征模式,并以此对未曾见过的数据进行精准预测的能力。
参数规模持续扩大虽然能提升大模型的性能水平但也可能导致巨大的资源消耗甚至可能导致‘过拟合’现象的出现。过拟合指的是模型在训练数据上表现得太完美从而过度关注并模仿训练数据中的噪音和细节特征而不是数据的整体趋势或普遍规律这也就意味着大模型变成了只会死记硬背而不擅长融会贯通的状态
微调
经过预训练学习后, 我们获取了一个通用的大模型. 这类模型通常无法直接应用到实际中, 因为这类模型在执行特定任务时通常表现欠佳.
这时,我们需要对模型进行微调。
通过专业领域的标注数据集对预训练的现有模型进行微调优化,在极小范围内调整其原有参数设置以使其更擅长完成特定专业任务。经过微调的专业大模型可被称为行业大模型。例如,在金融证券领域进行基础标注数据集训练后获得的基础金融证券行业大模eller,在进一步细分到具体专业领域时则发展成为专业大模eller(也称垂直方向的大模eller)。

在完成了预训练和微调之后
当评估与验证告一段落时,可以说大模型基本实现了预期目标。随后,我们将该大模型投入运行,使其执行推理功能。
换句话说,这时候的大模型已经“定型”,参数不再变化,可以真正开始干活了。
大模型的推理过程是我们使用它的过程。通过提问或提供提示词(Prompt),可以让大模型回应我们的问题,并按照指示生成内容。

