Advertisement

The Rise and Potential of Large Language Model Based Agents: A Survey

阅读量:

Weng released a comprehensive study titled《大语言模型(LLM)支持的自主代理》 on AI Agents. She constructed an application framework based on LLM to achieve AI Agents, defined as Agent=LLM + Memory + Planning Skills + Tool Use. Recently, a survey paper by the Natural Language Processing Group at Fudan University proposed a concept framework for intelligent agents grounded in LLM, comprising three key components: Brain, Sensing and Action.

Abstract

长期以来,在追求与人类相当甚至超越的人工智能(AI)方面,人们始终充满热情。有人认为人工智能代理是实现这一目标最有潜力的工具之一。有人认为人工智能代理是具备感知能力、决策能力和行动能力的人造实体。在开发智能代理的过程中,人们付出了许多努力。然而这些努力主要集中在算法或训练策略的进步上,并未深入探索特定任务以外的能力发展。实际上,在这一领域取得突破的关键在于缺乏能够适应不同场景的基础框架。由于其展现出的强大多功能性,大语言模型(LLM)被视为构建通用人工智能(AGI)的巨大潜力所在。许多研究人员以LLM为基础构建智能体模型并取得了显著进展。本文旨在系统性地探讨基于大语言模型的智能体(LLM Agent)。我们从agent概念的历史发展出发,在回顾其哲学起源与技术演进的基础上解释为何LLM适合作为智能体的基础框架之一。在此理论基础上我们提出了一套基于LLM的设计框架包含大脑、感知与行动模块该框架可依据具体应用场景进行定制化设计与优化应用。随后我们深入探讨了基于LLM设计的多类型智能体在单体环境、多人协作环境及人类主体协同环境下的广泛应用表现及其潜在价值所在接着我们深入分析了由LLM Agent所呈现的行为特征及其个性特征同时揭示了其中所包含的社会现象及其对人类社会认知的重要意义最后我们聚焦于当前研究领域的关键议题及尚未解决的核心问题并展望了未来研究方向与技术突破的可能性相关研究论文可访问存储库https://github.com/WooooDyy/LLM-Agent-Paper-List以获取更多信息。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1. Introduction

人工智能(AI)主要致力于设计和开发能够模仿人类智能的系统[1]。在18世纪时,在法国哲学家丹尼斯·狄德罗 (Denis Diderot) 的思想中就提出了类似的概念:如果一只鹦鹉能够解答所有问题,则它就可以被视为具有智慧 [2]。尽管狄德罗的研究对象是动物而不是人类本身,但他的理论强调了高度智能有机体与人类智能之间可能存在相似性这一核心观点。20世纪50年代,在英国著名数学家艾伦·图灵 (Alan Turing) 的推动下,“人造实体”的概念逐渐发展成熟,并由此提出了著名的图灵测试 [3]。该测试作为人工智能研究的重要里程碑,在探索机器是否具备与人类相媲美的认知能力方面发挥了重要作用。而所谓的“人造实体”,通常被定义为能够通过传感器感知环境、自主做出决策并据此采取行动的人工实体。

agent的概念源自于哲学领域,其根源可追溯至亚里士多德与休谟等思想先驱的研究[5].

自20世纪中期以来,在人工智能领域对智能AI代理设计与进步的研究不断深入,并取得了重大的进展[13; 14; 15; 16; 17; 18]。然而,在这一过程中所取得的努力主要集中在增强某些具体能力上,例如符号推理[19; 20; 21]或其他特定任务如围棋与国际象棋[22; 23]的能力掌握上。尽管如此,在实现不同场景间的广泛适应性方面仍面临着巨大挑战。此外,在以往的研究中虽然注重算法与训练策略的设计[...]但往往忽视了模型自身具备的关键通用能力的发展[...]这些关键属性包括知识记忆、长期规划、有效泛化以及高效交互等功能[...].事实上,在推动智能体进一步发展的过程中, 提升模型内在能力至关重要. 因此, 需要构建一个基础性强且具备上述所有关键属性的强大模型, 这一模型将可作为智能体发展的基础.

以深度学习为基础的大语言模型(LLM)的发展为推动智能体的进一步发展提供了积极的进展[24; 25; 26],并且在这一领域已取得显著进展[22; 27; 28; 29]。基于世界范围(WS)[30]这一概念,该研究框架涵盖了从自然语言处理到通用人工智能领域的五个研究层面:知识表示与语义理解作为基础层;逻辑推理与规划作为第二层;知识库构建与信息检索作为第三层;多模态交互与情感分析作为第四层;以及人机协作与伦理讨论作为第五层。纯粹的LLM架构位于第二层核心位置,并依赖于互联网规模级别的文本输入与输出能力。然而,在知识获取能力、指令理解和推理等方面展现出卓越的能力,并且能够实现人类级自然语言交互效果。这些能力使LLM在AGI探索中展现出重要价值[31],使其成为构建高效智能代理的理想选择[22]。以此为基础,在提升感知空间和行动空间后,则有望达到世界范围第三层及第四层的研究目标。此外,在基于LLM的知识型智能体中引入协作或竞争机制,则可处理更为复杂的任务范畴,并通过集体协作观察到新型社会现象的可能性及潜在的研究价值。如图1所示,在这样的和谐社会中构建AI体系时,在不牺牲人类主导地位的前提下实现人机协同共处是一种极具前景的方向。

在本文中

基于智能体的概念启发下

之后, 我们深入介绍了基于LLM的人工智能体的实际应用, 并着重阐述了其设计理念的核心——"以人工智能为善”(第4节)。首先, 我们对单个智能体的当前应用场景进行了详尽阐述, 讨论了它们在文本处理任务以及模拟环境探索中的具体表现, 强调了它们在完成特定任务、推动创新以及展现人类生存技能和适应能力方面的独特优势(第4.1节)。随后, 我们回顾了多智能体的发展历程, 包括基于LLM的应用程序中智能体之间的交互模式, 它们如何通过合作与谈判或竞争实现目标达成。无论交互模式如何变化, 各个代理始终保持着共同的目标导向(第4.2节)。最后, 在考虑基于LLM的代理在隐私保护、道德规范及数据完整性等方面的潜在局限时, 我们探讨了人机协作的可能性与挑战。在此基础上, 我们总结了智能体与人类协作的不同范式: 指导者-执行者模式和平等伙伴关系模式,并列举了这些理念在实际中的应用实例(第4.3节)。

基于对LLM代理实际应用的深入研究,本章将系统考察"代理社会"这一概念,揭示其与周边环境间的复杂互动关系(§5)。在此基础上,本节首先探讨这些智能体是否展现出类人行为并具备特定个性(第5.1节);同时,我们还介绍了代理运行的社会化环境,包括基于文本的环境、虚拟沙盒以及物理世界(§5.2)。与上一节(第3.2节)相比,本次的重点并非在于智能体如何感知环境,而是聚焦于不同类型的环境特征。在此基础上,我们进一步揭示了代理及其所处环境所形成的模拟社会(§5.3)。我们将详细探讨模拟社会的构建过程以及其中所涌现的社会现象,并着重分析其固有的教训和潜在风险。

最后,在论文第六章中深入探讨了基于LLM的代理领域中的若干核心议题(6.1节),包括LLM研究与代理研究之间的互惠互利关系与启发性互动;本章还系统梳理了LLM Agent评估体系及其未来发展潜力(6.2节)。具体而言,在6.1节中我们详细分析了基于LLM的代理所面临的潜在风险点及其抗干扰能力;6.2节则从实用价值、社交属性、核心价值观以及持续进化的能力四个维度审视现有评估机制及其未来发展潜力;6.3节重点论述了基于LLM的代理所面临的具体安全威胁;6.4节探讨了扩大代理规模带来的潜在机遇与挑战;最后,在6.5节中我们对当前尚待深入探讨的问题进行了总结。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~