Advertisement

原创 | 展望大语言模型在AGI时代的发展前景

阅读量:
f3a36e58be83a233e57cc5768dccc313.png
复制代码
 作者:王雨润

    
 本文约5000字,建议阅读10分钟AGI的目标一直是人工智能研究的终极愿景。

一、什么是AGI

人工通用智能(Artificial General Intelligence)是指一种具备类似于人类般广泛而灵活认知能力的人工智能系统。与现有的专门化的人工智能不同的是,并非仅仅局限于某一具体任务的最佳解决方案设计者;相反地,则是能够在各种环境及复杂问题中自我适应并有效解决问题的存在体。该系统不仅应能自主学习并提取知识储备,在逻辑推理方面也具有出色表现,并能制定计划以实现目标;同时其还应拥有持久的记忆力以及跨领域的知识整合能力,在面对需要融合不同学科知识及复杂推理的问题时亦能有效应对挑战性任务。其应具备上述特征,并且能够像人类一样在多种任务中表现出灵活而广泛的能力。

  • 窄人工智能(Narrow AI): 即为能在特定领域表现出色的人工智能系统。

  • 广义人工智能(Bold AI):这一阶段的AI系统展现出强大的通用认知能力,并且仍然依赖人类设定具体目标并提供相应的训练数据。

  • 通用人工智能(AGI): 亦即具备与人类相当认知能力的机器,在各种任务中自主学习并适应环境。

AGI的概念最初由人工智能先驱艾伦·图灵(Alan Turing)与约翰·麦卡锡(John McCarthy)等人共同提出。他们构想出了一种具有通用认知能力和适应不同环境的能力的人工智能系统。于20世纪50年代首次提出,“图灵测试”由此应运而生——一种用于评估机器是否能像人类一样展现智能水平的标准。这一构想为人工智能通用化研究奠定了理论基础。

Google DeepMind研究团队主要依据AI模型性能及学习处理任务的多样性对AGI水平进行分类为六个等级。具体而言, 从Level-0无人工智能发展至level-5超越人类。

--- --- ---
Level 0:无人工智能(No AI) 狭义无人工智能(Narrow Non-AI)计算器软件;编译器 通用无人工智能(General Non-AI)人工介入计算,例如,Amazon Mechanical Turk
Level 1:新兴(Emerging)(等于或略优于无技能人类) 新兴狭义人工智能(Narrow Emerging Narrow AI)GOFAI;简单规则系统,例如SHRDLU 新兴通用人工智能(Emerging AGI)ChatGPT, Bard, Llama 2, Gemini
Level 2:熟练(Competent)(至少达到熟练人类的50%) 熟练狭义人工智能(Competent Narrow AI)毒性检测器如Jigsaw;智能扬声器如Siri(Apple), Alexa(Amazon), 或 Google Assistant(Google);视觉问答系统如PaLI; Watson (IBM); 特定任务子集的最新LLMs(例如,短文写作,简单编码) 熟练通用人工智能(Competent AGI)尚未实现
Level 3:专家(Expert)(至少达到熟练人类的90%) 专家狭义人工智能(Expert Narrow AI)拼写和语法检查器如Grammarly;生成性图像模型如Imagen或 Dall-E 2 专家通用人工智能(Expert AGI)尚未实现
Level 4:大师(Virtuoso)(至少达到熟练人类的99%) 大师狭义人工智能(Virtuoso Narrow AI)Deep Blue;AlphaGo 大师通用人工智能(Virtuoso AGI)尚未实现
Level 5:超人类(Superhuman)(超越100%的人类) 超人类狭义人工智能(Superhuman Narrow AI)AlphaFold , AlphaZero ,StockFish 超人类通用人工智能(Superhuman AGI)尚未实现

研究团队指出,这些层级的标准主要依据AGI的能力与通用性,并主张任何关于AGI的定义都应满足六个核心原则:以能力为导向、强调普遍性与效能、涵盖认知与元认知任务、以潜力为导向、注重生态适用性以及强调路径多样性而非单一目标。

1. 关注结果而非细节。 AGI的评估应取决于其输出效果而非运行机制. 例如, 在完成特定任务时(如通过考试或解决复杂问题), 我们关注的是系统是否能成功完成这些任务, 并非其是否具备人类式的思考能力.

2. 注重普遍性和效能性

3. 关注认知与元认知任务。认知任务是指那些涉及知识处理的任务,如理解、学习和记忆等行为;而元认知任务则关注对自身认知过程的认知与调控,例如学习新技能或在遇到困难时寻求帮助等行为。这一原则不仅要求AGI具备执行具体认知任务的能力,还需具备自我反思与自我提升的能力。

4. 聚焦于潜在能力而非实际部署。

5. 重视生态效度 生态效度是指研究或测试所处环境与真实世界环境的一致程度 AGI 的评估应依据其在真实世界任务中的实际表现

6. 聚焦于通向AGI的过程而非最终目标 。这一原则认识到AGI的发展是一个渐进的过程 ,而不是一个单一 、固定的终点 。这意味着我们需要重点关注AGI发展过程中的各个阶段与关键节点 ,而应避免仅聚焦于最终达到完全实现状态的情况 。

AGI的目标始终是推动人工智能研究迈向终极愿景。当前大模型在涵盖的任务领域上仍有较大的提升空间,在其能力水平上仍停留在Emerging AGI阶段。尽管这些如GPT-4与Gemini 1.5及Claude 3等先进的人工智能系统已具备处理文本、图像与视频等多种模态的能力,并能执行解答数学题、创作内容以及通过丰富信息提供详尽回答等功能;但这些系统仍未能实现自主决策与执行行动的能力。此外,在当前阶段更多模型仍专注于某一特定领域的性能优化;例如Kimi擅长处理长文本输入却无法生成图片;而Sora则能高质量完成文生视频制作却不具备问答功能。

各类大模型成熟度依次为:语言大模型 > 多模态大模型 > 具身智能类大模型。其中,在语言能力方面较为完善,在推理、长文本处理以及代码生成等方面已经实现了初步的应用水平;而多模态方向上,则是在细节优化方面仍具有较大的提升空间。具体而言,在高质量数据集与系统化数据处理技术上仍处于发育阶段;对于具身智能类方向而言,则其核心技术路径尚未完全明确,并且其数据采集、训练优化以及评估方法仍需进一步完善。

为了达成AGI这一目标, 大模型在实现这一目标的过程中仍面临诸多挑战, 其中主要的挑战包括: 首先, AGI必须具备超越特定领域的一般性能力, 然而现有的大语言模型虽然在特定任务上表现出色, 但其训练过程和知识掌握仍属于被动学习, 缺乏主动认知能力和自我反思机制; 其次, AGI还必须具备持续学习的能力, 能够通过不断适应新环境与新任务来提升性能, 然而现有的技术方案更多依赖于离线、一次性完整的训练方法; 最后, AGI还需要具备强大的推理与规划能力, 能够通过逻辑推理与因果关系分析来解决复杂问题; 然而目前的大语言模型在这方面的表现仍有明显不足

二、基于LLM的AGI之路

(1)规模法则与模型扩展

在大语言模型(LLM)驱动型通用人工智能(AGI)的发展历程中,规模规律(scaling law)扮演着关键角色,在提升模型效能、优化资源配置、制定训练策略以及界定模型能力边界等方面发挥着决定性作用。规模规律的主要论点在于:当增大模型规模——包括参数数量、训练数据量与计算资源三者——相应的性能指标也会随之显著提升。在深度学习领域的一项实证研究表明:随着神经网络层数与节点数以及训练数据量持续提高,在保持技术可行性的情况下可预期地实现性能显著增长。这一现象最初是由OpenAI在其GPT系列研究中系统阐述并得到验证。

该研究团队于2020年发布论文《Scaling Laws for Neural Language Models》,系统阐述了基于模型参数规模、训练数据集容量以及计算资源投入(每秒浮点运算次数达7×10^9 FLOPs)等因素的扩展规律。进一步指出,在理论层面,Scaling law揭示了模型误差(E)与模型规模(N)、数据规模(D)以及计算资源投入量(C)之间的幂律关系

模型性能的可预测性

提升资源配置的效益。

指导模型设计与结构优化Scaling Laws为此类高效模型构建提供了坚实的理论基础,在研究AGI的过程中,研究人员通过分析不同结构的发展模式,成功设计出了能够满足Scaling Laws要求的高效网络,从而显著提升了性能效能.这一理论突破推动Transformer结构成为大规模语言模型的核心框架,因其展现了与其一致的优势增长模式,迅速成为LLM训练的主要选择.此外,Scaling Laws不仅揭示了不同类型任务对系统需求的具体差异,还帮助开发人员精准确定最优计算资源配置及训练数据量,这一研究框架也为评估AGI在多领域中的适应性和普适性提供了坚实的理论支撑.

该领域研究者普遍认为Scaling Law构成了AGI实现的第一性基础,在这一过程中增大模型规模的关键在于压缩这一操作能够有效降低计算复杂度的同时还能生成智能特性。然而这一过程面临着多重挑战包括但不仅限于提升模型效率与计算成本之间的平衡如何平衡模型泛化能力与认知深度以及如何应对有限的数据支撑等问题。其中最突出的问题往往源于数据资源的匮乏尤其是在一些关键领域所收集的数据样本极为有限以至于难以支撑大规模AI系统的构建。此外在现有技术架构下扩展现有模型规模时对计算资源的需求呈指数级增长这使得Scaling Law的有效应用范围必然受到限制从而为其带来的潜在价值也相应受到制约

(2)自我对弈(self-play):LLM新范式

基于模型内部对抗的学习机制被称为Self-Play(自我对弈),已在强化学习领域已展现出显著成效(如AlphaGo等系统的发展历程)。借鉴Self-Play的理念至LLM领域可使L
LM无需外部监督就能通过自身的互动与竞争来持续提升性能。自主学习机制能够显著提升LLM的探索能力与适应性,并使其在复杂环境下更加高效地实现自我优化。
持续地进行自我对弈能够使L
LM在多样的任务与情境中积累经验并不断提升解决难题的能力。

在LLM的发展进程中

此外,在线教育平台提供个性化服务的能力主要体现在其强大的AI算法上。这种算法能够根据用户的个性化需求自适应地调整教学内容,并精准地输出个性化学习方案以提高学习效果。

最近的研究进展表明,在一个多智能体环境中应用自玩技术也是可行的。

编辑:黄继彦

作者简介

正在攻读博士学位的王雨润同学(...

数据派研究部介绍****

自2017年初以来, 数据派研究部以兴趣为驱动设立若干兴趣小组. 这些小组不仅严格遵守整体规划中的知识分享和实践项目安排, 并且各有特色.

算法模型组: 积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组: 通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组: 追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组: 重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组: 秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组: 将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组: 爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

文章名称-待授权公众号名称及ID

文章名称-待授权公众号名称及ID

如需转载,请在文章开头明显位置标注作者信息及来源(转自:数据派THUID:DatapiTHU),并在文章末尾放置一个明显的品牌二维码;对于有原创标识的文章,请将【文章标题-待授权公众号名称及ID

未经许可的转载以及改编者,我们将依法追究其法律责任。

关于我们

我们「数据派THU」致力于成为专注于数据科学的公众平台。依托清华大学大数据研究中心的支持,在这个领域开展各项研究工作的同时, 我们将最前沿的数据科学研究动态及创新成果进行深入探讨, 并持续输出优质的数据科学知识内容。我们正致力于打造一个汇聚优秀人才的平台, 并力争成为中国在大数据领域最具影响力的集团

**

04ab5c522312e2070e99952a46536d83.png

**

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击**“阅读原文”** 拥抱组织

全部评论 (0)

还没有任何评论哟~