A Survey on Large Language Model based Autonomous Agents
自主代理问题始终是学术界与工业界的关注焦点。早期研究主要聚焦于训练能够在孤立环境下处理有限知识的代理模型,在这一特点与人类的学习过程存在显著差异的情况下限制了其模仿人类决策的能力。然而,在近来研究表明,在大量网络知识辅助下生成的大规模语言模型(LLMs)已展现出接近甚至超越人类认知水平的能力之下
关键词:自主代理,大型语言模型,人类水平智能
1 引言
自主代理被视为一个系统,在其中包含着作为基础的环境,并持续感知并随着时间推移采取行动以维护自身的目标,并通过这些行为模式从而影响其未来的行为模式。
Franklin and Graesser (1997)
自主代理一直被广泛认为是实现人工通用智能(AGI)具有潜力的方法。预期能够通过自我指导规划与行动来完成任务。在先前的研究中,默认情况下假设代理基于简单的启发式政策函数进行操作,并在孤立限制环境中学习[1-6]。然而由于这些假设与人类复杂的思维能力存在显著差异这种差异导致前人研究得出的代理难以复制人类水平决策过程特别是无约束开放领域设置中的决策过程。
因为这些差异前人研究得到的代理往往无法像人类一样做出复杂的决策特别是在开放领域中表现不佳因此提出一种新的方法可能更合适。
近年来,大型语言模型(LLMs)展现了显著的成功,并且具备了与人类相似的认知潜能[5-10]。这一能力源于利用全面的数据集和丰富的模型参数的发展。基于这一能力的发展,形成了一个持续增长的研究领域[11-17]。该研究方向致力于以LLMs为核心构建自主代理系统,并以其作为决策中枢的目标推动相关技术的进步。
相较于强化学习而言, 基于LLM的代理系统具备更为丰富深入的知识储备, 即使未接受该领域的专项训练, 依然能够做出具有更高认知深度的行为决策. 其具备支持人机对话的能力, 这种交互方式不仅更具灵活性而且易于理解.
在这一方向上, 研究者已在该领域开发出许多具有潜力的模型(参考图1). 其中核心理念在于赋予LLMs与人类相似的关键能力, 如记忆与规划功能, 使其行为模式模仿人类特征的同时仍能有效执行各类任务. 平时这类模型多呈独立构建状态, 缺乏系统性的总结与全面对比研究. 然而, 我们坚信系统性地总结该领域的发展动态对其深入理解及未来研究方向探索均具有重要意义.

此图表展示了基于大型语言模型(LLM)在自主智能体领域的发展趋势图。通过不同颜色标记法区分出各类不同的智能体类型。我们统计并展示了从2021年1月至2023年8月期间发表的所有学术论文的数量,在每个时间段内部分析的基础上整理出了一个精选的研究清单。例如,在游戏智能体方面的主要目标是模拟真实玩家的行为模式,并关注其决策过程中的心理活动和策略选择;而工具智能体则主要聚焦于工具的操作方法、性能优化以及在特定场景下的效率评估等关键指标
在本文中,我们对基于LLMs的自主代理领域进行了系统性研究。具体而言,在三个维度上展开调查:代理的构建、应用与评估方面展开深入探讨。就代理构建而言,在两个关键问题上提出见解:(1)如何设计有效的代理架构以充分利用LLMs的能力;(2)如何通过激发和增强代理执行不同任务的能力来提升其性能水平。其中第一个问题主要关注于为代理建立硬件基础的支持体系;第二个则聚焦于提供软件资源以增强其执行能力。针对第一个问题我们提出了一种统一化的代理框架方案;针对第二个问题则对常见的能力获取策略进行了总结归纳。除了对代理构建的技术探讨外,在社会科学、自然科学以及工程学等多领域中也对基于LLMs的自主代理应用进行了概述介绍。最后部分深入分析了评估这类自主代理的有效策略,并特别强调了从主观感知角度与客观指标角度进行综合考量的重要性
本研究对LLM基础自主代理这一新兴领域进行了系统回顾, 并建立了全面分类体系. 本研究重点关注领域包括代理架构的设计、其应用场景以及评估方法. 综合考量已有研究成果的基础上, 我们识别出该领域存在的主要挑战, 并探讨了未来的发展方向. 通过这项调查, 我们希望帮助LLM基础自主代理新手掌握基础知识, 同时激发更多创新探索.
2 LLM基础自主代理构建
基于LLMs的人工智能代理旨在通过模拟人类能力有效地执行多样的任务。为了实现这一目标,我们需要关注两个关键要素:(1)如何设计适合LLMs的架构以最大化其潜力;(2)在选定架构后,如何使代理具备完成特定任务的能力。从架构设计的角度出发,我们对现有研究进行了系统综述,构建了一个完整的统一框架;针对第二个问题,我们根据是否对LLMs进行微调总结了代理能力获取的不同策略;将基于LLM的人工智能代理与传统机器学习体系进行对比,相当于是在构建代理架构时采用了网络结构设计的方法,而在获取代理能力方面则类似于参数学习的过程;随后我们将详细介绍这两个核心要素
2.1 代理架构设计
最近的大型语言模型(LLMs)进展凸显了它们在问答形式下完成各种任务的巨大潜力。然而,在构建自主代理方面远不止于此:它们需要承担特定角色,并通过自主感知和从环境中学习来模仿人类行为。为了弥合传统LLMs与自主代理之间的差距:一个关键在于设计合理的代理架构:这有助于提升LLMs的能力上限。在此基础上:前人的研究已开发出许多增强LLMs的模块。本节我们将提出一个统一框架来整合这些模块:具体而言:该框架由配置文件模块、记忆模块、规划模块及行动模块组成(如图2所示)。配置文件模块的主要作用是确定代理的角色定位;而记忆与规划模块则将代理置于动态环境之中:使其能够检索历史行为并规划未来行动;行动模块则负责将决策转化为具体输出。值得注意的是:配置文件模块通过影响记忆与规划模块进而间接影响整个体系;而这一有机联系最终又反作用于行动模块的性能表现。接下来我们将详细探讨这些关键组件。

一个针对基于大型语言模型(LLM)的自主智能体架构设计的统一框架。
2.1.1 配置文件模块
自主代理一般会通过承担特定角色来完成任务。例如编码者、教师和领域专家[18,19]都会参与到这一过程中。为了指导这些代层级的任务执行,系统中设置了"agent configuration module"这一功能模块。该功能模块的主要作用在于指示代理角色的相关设置。这些设置通常会以提示的形式记录下来,并包含关键信息如年龄、性别与职业[20]等基本信息。此外还需要考虑反映个人特质的心理因素以及详细描述社会关系的社会因素[21].在实际应用中如何选择合适的"agent configuration scheme"会受到应用场景的影响程度。最后现有的研究文献主要采用三种策略。
手工制作法:
在这种方法中,在软件开发环境中设置代理时必须由人工进行具体化操作。例如,在希望设计出不同个性特性的代理时,则可采用设定"你是外向的人"或"你是内向的人"等方式来进行具体化操作。这种做法在许多先前的研究和实践中,默认采用手工方法来设定代理配置信息。例如,在Generative Agent[22]系统中是基于名称、目标以及与其它代理之间的关系来进行描述的;而在MetaGPT[23]系统中则预先定义了不同的角色及其在软件开发中的职责划分;此外,在ChatDev[18]系统中也是类似的安排;Self-collaboration[24]系统则提供了更为复杂的协作机制并进行了相应的职责划分;而Self-collaboration[24]系统则采用了更加复杂的协作模式以实现更高的协作效率。为了提高灵活性,在许多情况下会根据需求对每个代理进行个性化配置设置;然而,在某些特定场景下比如大规模应用环境中这种做法可能会显得过于繁琐甚至耗时过长。因此在这种情况下就需要寻找一种更为高效的方法来进行管理与优化。
LLM生成法:
此方法采用一种自动化的方式进行应用部署
在实际应用场景中
数据集对齐法:
在这种方法中, 基于来自现实世界数据集的信息, 代理配置文件被生成出来。通常情况下, 可以将反映现实人类在数据集中的信息整理为自然语言提示语, 然后利用这些提示语来配置代理系统参数。例如参考文献[29]中, 作者根据美国全国选举研究(ANES)参与者的人口统计信息为GPT-3分配角色参数, 并评估其生成行为与真实人类是否存在显著差异性表现。随后研究者评估了GPT-3是否能够生成与真实人类类似的行为, 数据集对齐方法通过精确提取出反映真实人口特征的关键属性, 从而使得代理行为更加具有针对性并且能更好地模拟现实场景下的操作模式
备注。尽管大多数先前的研究独立采用了上述配置文件来生成策略(configuration file),但我们认为将这些方法结合起来可能会带来额外的优势(benefit)。例如,在通过代理模拟社会发展的过程中(process of simulating societal development by agents),我们可以通过利用现成的数据集对部分代理进行配置(configure a portion of agents using existing datasets),从而更准确地反映当前的社会地位(social status)。随后,在现有数据无法覆盖未来可能出现的角色(role)的情况下(when roles that may emerge in the future but are not currently present in data cannot be covered),我们可以将这些角色人工分配到其他代理中去预测未来的发展趋势(to predict future trends)。
除此之外(notably),我们还可以灵活地结合其他相关的策略(other relevant strategies)。而配置文件模块作为代理设计的基础性元素(foundational element),会对代理的规划、决策以及行动产生重大影响。
2.1.2 记忆模块
在代理架构设计中, 记忆模块扮演着至关重要的角色. 信息被系统从环境中感知并存储起来, 并通过记录的记忆来推动未来的行动. 记忆模块不仅能够帮助代理积累经验和自我进化, 更能够采取一致、合理且高效的行为方式. 本节详细阐述了记忆模块的概念及其相关机制, 并着重探讨了其结构组成、功能形式以及操作流程.
记忆结构:
基于LLM的人工智能代理通常融合了认知科学研究中对人类记忆机制的理解与应用。人类的记忆过程大致遵循自感觉记忆到感知输入的记录与保持过程,在这一进程中分为三个主要阶段:首先是感觉性记
忆用于记录初始感知信息;其次是短时
性
(即短期)记
忆
阶段对信息进行暂时保存;最后是长时
性
(即长期)记
忆阶段完成信息的有效存储与持久维护。
研究者从中汲取灵感来构建代理系统的内存架构。
具体而言,
短时
性
阶段对应于受限于变换器架构的上下文窗口内的输入数据,
而长时
性
阶段则模拟为能够根据需求快速调用与检索外部存储资源的能力。
在此基础上,
我们系统地探讨了两种典型的短/长结合型的记忆结构设计方案
• 统一记忆。
这种结构旨在模仿人类的短期记忆能力,并通过特定上下文机制来实现这一目标;记忆信息直接编码到提示中作为输入数据源。例如,在RLP[30]中,默认情况下它被设计为一个对话智能体,在每一轮对话中为说话者和听者维护内部状态;这些状态被提供给大型语言模型(LLM)作为即时提示;SayPlan[31]则是一种专为任务导向设计的具身智能体;在这种框架下,默认情况下场景图和环境反馈被用作智能体的记忆存储模块;它们指导智能体的行为决策;Calypsi[32]是一种专门用于《龙与地下城》游戏设计的独特智能体;它的短期记忆模块基于场景描述、怪物信息以及之前的总结内容构建而成;DEPS[33]则是一种专门开发用于《我的世界》的游戏智能体;它最初生成任务计划序列,并将这些计划作为LLM提示输入来源;随后LLM根据这些计划生成相应的行动指令序列;这些计划可被视为一种形式的记忆存储模块;然而在实际应用中直接编码短语到提示中往往能够取得较好的效果;这种方法对LLM处理上下文信息的能力提出了较高要求;受限于LLM处理上下文信息的能力限制以及内存容量限制的问题
因此,在应对这一问题的过程中,许多研究人员采用了混合记忆系统的策略来实现信息的有效管理与利用。然而,在当前LLMs技术中存在一定的局限性:其有限的记忆窗口导致无法将全部知识内容整合到提示信息中以保证系统的完整性和准确性。面对这一挑战,在提升模型的知识窗宽度以及增强其处理复杂知识范围的能力方面仍需进一步探索与研究:因此,在解决这一问题的过程中依然有许多研究者致力于探索更具潜力的技术路径以期达到预期目标
• 混合记忆。
这种结构明确模拟了人类的短期和长期记忆。短期记忆暂时缓冲最近的感知,而长期记忆随着时间的推移巩固重要信息。例如,Generative Agent[20]采用混合记忆结构来促进代理行为。短期记忆包含有关代理当前情况的上下文信息,而长期记忆存储代理过去的行为和思想,可以根据当前事件检索。AgentSims[34]也实现了一个混合记忆架构。提示中提供的信息可以被视为短期记忆。为了增强记忆的存储能力,作者提出了一个使用向量数据库的长期记忆系统,便于高效的存储和检索。具体来说,代理的日常记忆被编码为嵌入向量,并存储在向量数据库中。如果代理需要回忆其以前的记忆,长期记忆系统使用嵌入相似性检索相关信息。这个过程可以提高代理行为的一致性。在GITM[16]中,短期记忆存储当前轨迹,长期记忆保存从成功的先前轨迹中总结的参考计划。长期记忆提供稳定知识,而短期记忆允许灵活规划。Reflexion[12]使用短期滑动窗口捕获最近的反馈,并将持久长期存储结合起来保留浓缩的见解。这种组合允许利用详细的即时经验和高级抽象。SCM[35]选择性激活最相关的长期知识与短期记忆结合,使能够在复杂的上下文对话中进行推理。SimplyRetrieve[36]使用用户查询作为短期记忆,并使用外部知识库存储长期记忆。这种设计在提高模型准确性的同时保证了用户隐私。MemorySandbox[37]通过使用2D画布存储记忆对象来实现长期和短期记忆,这些记忆对象可以在各种对话中访问。用户可以在同一个画布上与不同的代理创建多个对话,通过简单的拖放界面促进记忆对象的共享。实际上,整合短期和长期记忆可以增强代理在复杂环境中进行长期推理和积累宝贵经验的能力,这对于完成任务至关重要。
值得留意的读者可能会发现一种特殊的长期记忆结构的存在可能性。然而,在现有文献中对此类记忆仍记录不多。我们推测代理通常处于持续动态的状态,在持续行动中表现出高度的相关性。因此,在研究短暂记忆时应予以特别关注并予以重视
记忆格式:
除现有的记忆架构之外,在分析认知过程的角度出发,则可以聚焦于基于不同存储介质的记忆组织形式。具体而言,在自然语言处理领域中通常采用的是自然语言memory的方式,在深度学习领域则更多地依赖于嵌入memory的方式进行数据处理与信息提取。每种不同的存储介质类型都展现出其独特的优势,在实际应用场景中则表现出显著的优势。以下系统地阐述了若干具有代表性的存储介质类型及其应用特点。
• 自然语言。
在这种格式下记忆信息时,在观察代理行为的同时记录相关信息。这种格式具备若干优势。首先,在记录过程中采用灵活且易于理解的方式表达所获信息;其次,在此过程中能够携带丰富语义信息并提供足够的信号来指导代理行为;此外,在此过程中还可以实现多维度的信息整合与动态更新机制的构建。在先前的研究中Reflexion[12]采用自然语言存储经验反馈机制;而Voyager[38]则通过自然语言描述的形式表示Minecraft游戏中的技能,并将这些描述直接存储于记忆中
• 嵌入。
在这种特定的格式设置下,系统会将输入的信息转化为特定的数据类型,并将其存储在内存中以便后续处理操作。例如,在MemoryBank[39]系统中,默认会将每个学习的记忆单元转化为对应的数值型数据存储起来;而根据文献[16]的研究成果,则会把参考计划按照预设的方式进行数字化处理;此外,在ChatDev[18]系统中,则会实时记录对话历史并将其自动转化为可搜索的数据形式供后续使用
• 数据库。
在这种格式中,记忆信息存储在数据库中,允许代理高效且全面地操作记忆。例如,ChatDB[40]使用数据库作为符号记忆模块。代理可以使用SQL语句精确地添加、删除和修改记忆信息。在DB-GPT[41]中,记忆模块是基于数据库构建的。为了更直观地操作记忆信息,代理被微调以理解和执行SQL查询,使它们能够直接使用自然语言与数据库交互。在GITM[16]中,短期记忆存储当前轨迹,长期记忆保存从成功的先前轨迹中总结的参考计划。长期记忆提供稳定知识,短期记忆允许灵活规划。Reflexion[12]使用短期滑动窗口捕获最近的反馈,并将持久长期存储结合起来保留浓缩的见解。这种组合允许利用详细的即时经验和高级抽象。SCM[35]选择性激活最相关的长期知识与短期记忆结合,使能够在复杂的上下文对话中进行推理。SimplyRetrieve[36]使用用户查询作为短期记忆,并使用外部知识库存储长期记忆。这种设计在提高模型准确性的同时保证了用户隐私。MemorySandbox[37]通过使用2D画布存储记忆对象来实现长期和短期记忆,这些记忆对象可以在各种对话中访问。用户可以在同一个画布上与不同的代理创建多个对话,通过简单的拖放界面促进记忆对象的共享。实际上,整合短期和长期记忆可以增强代理在复杂环境中进行长期推理和积累宝贵经验的能力,这对于完成任务至关重要。
备注
以上部分我们重点探讨了记忆模块的内部设计情况。随后我们将深入分析相关的记忆操作机制这些互动机制通过特定的方式与外部环境进行数据交换和信息处理
记忆操作:
该系统中的记忆模块承担着整合外部输入信息并生成系统知识的核心功能,在信息处理方面通过代理机制实现与环境的有效互动。在信息处理方面, 代理与环境之间建立起了基于三种核心信息处理机制的信息传递网络: 一种是数据提取机制, 一种是知识构建机制, 和一种是经验总结机制.下面将深入阐述这些机制及其运作原理.
• 记忆读取。
目标是从记忆中提取有意义的信息, 从而增强代理的行为. 例如, 利用先前成功的案例实现类似的策略[16]. 关键在于如何从历史行为中筛选出具有价值的信息. 通常采用三种主要的标准, 即最新性、相关性和重要性[20]. 更近期、相关和重要的信息更容易被选中. 形式上, 我们从现有文献中推导出以下方程式来筛选信息:

(1)
其中q代表一个search term(即该agent应承担的任务),其可能包括模拟用户的行为模式或与系统交互所需的信息;而M则表示系统中存储的所有记忆数据。

、

和

改写说明

可以通过LSH、ANNOY、HNSW、FAISS等实现。需要注意的是,

仅限于反映记忆本身的特性,则与查询q无关。称α、β和γ为平衡参数。选择不同的数值设置可以获得多种记忆读取策略。例如,在设定α=γ=0的情况下(如文献[16,30,38,42]),许多研究仅关注相关性评分。

来读取记忆。通过将α=β=γ=1.0分配,[20]平等地权衡上述三个指标,从记忆中提取信息。
• 记忆写入。
完成对环境信息的记忆编码过程旨在将相关信息记录下来。对于未来检索具有价值的记忆内容而言,在内存中建立这些信息的基础至关重要。这种机制有助于提高智能体执行决策的能力,并促使其采取更加高效合理的行动模式。在这一过程中存在两个关键问题需要重点处理:其一在于如何避免现有知识库中的重复编码成为一项核心挑战;其二则是当内存接近饱和时处理超出容量的情况同样重要。接下来我们将详细探讨这两个关键问题及其解决方案
为了综合管理相似的信息并实现高效处理能力...
2. 在信息存储饱和的情况下(memory overflow),当存储空间已满时(memory full),人类开发了多种策略来清除现有数据以便继续进行记忆(memory)。例如,在ChatDB[40]中(ChatDB[40]),可以根据用户的指示进行显式数据清除操作(explicit data erasure)。RET-LLM[42]采用了固定容量缓冲区机制(fixed-size buffer mechanism),采用先进先出(FIFO)的方式覆盖最旧的数据条目(oldest entries)。
• 记忆反思。
记忆反射模拟了人类观察自身认知、情感与行为过程的能力。当赋予代理能力时,其目的是让代理能够独立归纳总结并推断出更高层次的信息。具体而言,在Generative Agent [20]中,代理具备将自身存储的记忆中积累的经验转化为更为广泛与深入的理解与洞察的功能。这一功能体现在多个步骤中:首先,代理基于其当前的记忆生成三个核心问题;接着,这些问题被用于检索相关信息;在此基础上,生成五条具有高级性的见解;例如,低级记忆"Klaus Mueller正在撰写一篇研究论文","Klaus Mueller正与图书管理员互动以进一步研究","Klaus Mueller正与Ayesha Khan讨论他的研究"等信息可引导出高级见解"Klaus Mueller专注于他的研究项目"。此外,反思过程可以层次化地发生:即根据现有见解生成更高层次的见解;例如在GITM [16]中成功完成子目标的行为被存储在一个列表中;而当列表元素超过五个时,它们会被归纳总结成一个通用且抽象的模式并替代原有元素;在ExpeL [44]系统中则提供了两种方法来帮助实现这一功能:一种是通过比较同一任务中的成功轨迹另一种是通过学习一系列成功的轨迹以获得经验教训
代理与传统LLMs之间的一个主要区别在于后者必须具备适应动态环境并完成任务的能力。如果我们把记忆模块视为负责管理过去行为的部分,则需要另一个关键模块来辅助规划未来行动变得至关重要。接下来我们将介绍研究人员是如何设计规划模块的
2.1.3 规划模块
在处理复杂任务时,人类往往会将其分解成更简单的子任务并逐一解决。规划模块的设计初衷在于赋予代理类似的智能能力,在这个基础上使得其行为更加合理、强大且可靠。具体而言,在分析现有研究时我们主要依据的是代理是否能够接收反馈的信息来总结现有的研究成果
无反馈规划:
在该方法框架下,在执行操作后无法获得影响未来行为的相关信息。在此基础上, 我们将介绍几种代表性策略。
• 单路径推理。
在此策略下, 最终目标被划分为多个中间阶段
• 多路径推理。
在这种策略中,推理过程被组织为树状结构。每个中间步骤可能包含多个子步骤。这种策略类似于人类的思维模式,在每一个推理阶段可能存在多种选择可能性。具体而言,Self-consistent CoT (CoT-SC) [49]认为每个复杂问题都可通过多种思考路径推导出最终答案。因此它首先利用CoT生成各种推理路径及对应答案选项随后则选取出现频率最高的答案作为最终输出结果Tree of Thoughts (ToT) [50]旨在通过树状推理结构生成计划方案在这种方法中树形图中的每一个节点代表一个"思想"即一个中间推理阶段这些阶段的选择均基于LLMs的评估结果最终形成的计划方案则是通过广度优先搜索(BFS)或深度优先搜索(DFS)策略完成的与CoT-SC不同后者会一次性生成所有计划步骤而ToT则需要为每一个推理阶段单独查询LLMs系统在RecMind [51]中作者引入了一种自我激励机制该机制可使规划过程中被丢弃的历史信息得以用于推导新的推理阶段信息在GoT [52]中作者将ToT中的树状推理结构扩展至图状结构从而提升了提示策略的效果在AoT [53]中作者提出了一种新型方法即将算法示例融入提示以增强LLMs的推理能力这种情况下仅需查询LLMs一两次即可完成规划任务在[54]研究中LLMs被用作零次规划者在此框架下规划者首先生成多个可能的后续行动选项然后根据这些选项与可接受行动的距离来确定最合理的后续行动方案为了进一步优化研究[55]提出应将与当前查询示例相似的历史示例纳入其中以提升规划效果RAP [56]则基于蒙特卡罗树搜索(MCTS)构建了一个虚拟世界模型用以模拟不同规划方案潜在的优势效果随后通过聚合多个MCTS迭代结果来生成最终的规划方案为了便于理解我们特别提供了单路径与多路径推理策略对比图(如图3所示)。

• 外部规划器。
尽管LLMs在零次规划方面展现出强大的能力,但在特定领域问题中高效生成计划仍然面临巨大挑战。针对这一难题的研究者们开发出了一种高效的外部规划工具。这些工具已趋于完善,并借助先进的搜索算法迅速识别出正确方案或最优解。具体而言,在LLM+P [57]框架下,首先将任务描述转化为规范化的规划领域定义语言(PDDL),随后由外部规划器处理该格式化数据以获得解决方案。最终阶段的结果通过LLMs重新转换回自然语言描述。类似地,在LLM-DP [58]方法中,则利用LLMs将观察结果、当前世界状态与目标条件转化为PDDL格式输入给外部规划器以确定最终行动序列。CO-LLM [22]研究表明虽然LLMs擅长制定高层次策略性计划但在执行低层次控制方面仍显不足为此研究团队设计了一种启发式驱动型外部低层次规划系统它能够依据高层次策略精准执行相关操作步骤
有反馈的规划:
在现实世界的诸多情境中, 代理通常需要制定长期计划以应对复杂任务. 当面临这些任务时, 基于无反馈的规划模块往往难以取得理想效果. 其原因在于, 首先, 直接制定完美计划是一项极具挑战性的任务, 因为它要求代理考虑周密的前提条件. 因此, 简单遵循初始计划的做法往往会遇到失败. 此外, 计划执行过程中可能会遭遇不可预见的状态变化干扰, 从而使得初始计划难以正常推进. 同时, 当考察人类处理复杂任务的能力时, 我们会发现个体可以根据外部反馈不断调整和完善自己的计划策略. 为了模仿这种能力, 研究者开发了多种规划机制, 其中代理能够在执行动作后获取反馈信息并据此做出相应调整. 这种反馈来源广泛多样: 它可以从环境本身获取也可以从人类或其他模型中获得. 例如,在环境方面获取反馈意味着观察到系统执行结果的具体表现; 从人类方面获取则意味着通过他人意见或评价来优化自身策略; 而从模型方面获取则是指利用预先设计好的评价准则来指导改进方向
• 环境反馈。
这种反馈基于现实环境或虚拟模拟环境收集。具体而言,它可能作为游戏任务完成指示或代理行动后所获得的观察结果呈现。该反馈机制主要包括三个关键组成部分:思想-行动-观察三元组模型,用于构建提示框架;通过外部反馈获得观察数据的方法;以及动态更新计划以适应环境变化的能力等特性。与Voyager类似,LLMPlanner [60]引入了一种基于地面的重新规划算法,能够在任务执行中动态调整代理计划以应对对象不匹配等问题.-inner monologue [61]则通过提供三种类型的反馈来辅助代理系统优化其决策:(1)任务执行结果评估;(2)被动场景描述;(3)主动场景生成与优化.
• 人类反馈。
除了不通过环境直接获取信息,则通过与人类交互作为提升自主规划能力的有效途径外,
这种主观性信号的本质特征是客观存在的,
它不仅有助于确保自主体与人类的价值观及偏好保持高度一致,
而且有助于减少自我错觉的影响。
具体而言,在参考文献[61]的研究框架下,
自主体被设计用于在一个三维视觉环境中执行复杂的自然语言指令,
而该系统具备主动收集用户对场景描述信息的能力,
随后将这些反馈信息整合进提示语句中则能显著提高自主体规划过程中的理性程度。
通过以上实例可以看出,
在同一个系统框架下结合不同类型的反馈机制能够显著增强自主体的整体效能。
例如,在研究方案[61]的基础上综合考虑了环境数据以及用户的多维度输入数据,
则能够构建一个更全面的行为决策模型以优化自主体的行为策略。
• 模型反馈。
除了上述环境及人类反馈外
备注
2.1.4 行动模块
处理代理决策并将其转换为具体成果的行为模块位于系统的核心位置,并且处于最末端的位置,在与环境进行直接接触的同时还受到多个关键因素的影响。本节将详细阐述了以下四个方面:第一部分介绍了行为目标;第二部分阐述了行为产生机制;第三部分分析了可执行的行为集合;第四部分探讨了行为所带来的后果及其影响范围。在这四个主要探讨方向中,前两个侧重于行为启动之前的阶段特征("行为前"阶段),第三部分聚焦于行为运行过程中的内在特性("行为中"阶段),而第四部分则深入分析了行为终止后的结果导向("行为后"阶段)。
行动目标:
代理能够执行多样化的行动目标,在此我们列举了三个具有代表性的案例。(1)任务执行方面,在这种情形下代理的目标是完成特定任务例如在Minecraft [38]中制造铁镐或在软件开发 [38]中编写函数等这些行动通常具备明确的目的性且有助于实现最终目标。(2)信息交流方面,在这种情形下代理的行为是为了与其他代理或真实人类进行信息共享与协作例如在ChatDev [18]中某些agent可能会进行对话交流而在Inner Monologue [61]中agent则会主动与人类沟通并根据反馈调整策略。(3)环境探索方面,在这种情形下代理的目标是探索未知环境以增强感知并在探索与利用之间找到平衡点例如在Voyager [38]中某些agent可能会在完成主要任务的同时进行技能探索并通过试错机制不断优化执行代码的能力)
行动生成:
与传统的大型语言模型(LLMs)不同,在代理系统中通常会采用其他策略和来源来执行任务。以下我们将介绍两种常用的行为生成策略。(1)基于记忆检索的行为模式在这种模式下行为是由代理从自身记忆中检索与当前任务相关的数据来进行生成的这些数据会被用作提示以触发代理的行为例如Generative Agents [20]系统中代理会维护一个动态更新的记忆流在每次执行行为之前它都会从记忆流中查找最近相关且重要的信息以指导当前的行为过程而在GITM [16]系统中为了实现较低级的目标代理会回顾其记忆以确定是否存在与当前任务相关的成功经验如果发现有则可以直接调用先前成功的行为来处理当前的任务(2)基于计划跟踪的行为模式在这种模式下代理会根据预先规划好的行为方案来进行操作例如在DEPS [33]系统中当面对某个任务时代理会首先制定详细的操作计划如果没有迹象表明该计划可能会失败则代理会严格按照计划执行;而在GITM [16]系统中为了实现复杂的任务管理agent通常会将整个任务分解为多个子目标然后根据这些子目标制定一个多层次的计划按照这个计划逐步解决每个子目标最终完成整个任务
行动空间:
可执行的动作范围指的是智能体可完成的所有动作选项集合。
一般来说, 我们主要将这些动作分为两大类:(1) 外部工具 和 (2) LLMs的知识库。
下面我们将详细阐述这些动作.
• 外部工具。
尽管LLMs在执行大规模任务方面表现出色, 但它们可能不适合涉及广泛专业知识的任务. 此外, LLMs也可能面临自我幻想的问题, 这些问题通常难以自行纠正. 为了缓解这些问题, 代理获得了调用外部工具执行行动的能力. 下面我们将介绍一些文献中所提及的重要工具.
(1) API。 利用外部API来补充和扩展行动空间是近年来流行的范式。例如,HuggingGPT [13]利用HuggingFace上的模型来完成复杂的用户任务。[66,67]提出在响应用户请求时自动生成查询以从外部网页中提取相关内容。TPTU [67]与Python解释器和LaTeX编译器接口,以执行复杂的计算,如平方根、阶乘和矩阵操作。另一种API可以直接根据LLMs的自然语言或代码输入调用。例如,Gorilla [68]是一个经过微调的LLM,旨在为API调用生成准确的输入参数,并减轻外部API调用过程中的幻觉问题。ToolFormer [15]是一个基于LLM的工具转换系统,可以根据自然语言指令自动将给定工具转换为具有不同功能或格式的工具。API-Bank [69]是一个基于LLM的API推荐代理,可以自动搜索和生成各种编程语言和领域的适当API调用。APIBank还提供了一个交互式界面,使用户可以轻松修改和执行生成或转换的工具。ToolBench [14]是一个基于LLM的工具生成系统,可以根据自然语言需求自动设计和实现各种实用工具。ToolBench生成的工具包括计算器、单位转换器、日历、地图、图表等。RestGPT [70]将LLMs与RESTful API连接起来,这些API遵循广泛接受的Web服务开发标准,使生成的程序更兼容实际应用程序。TaskMatrix.AI [71]将LLMs与数百万API连接起来,以支持任务执行。其核心是一个多模态对话基础模型,与用户互动,理解他们的目标和上下文,然后为特定任务生成可执行代码。所有这些代理都利用外部API作为其工具,并为用户提供交互式界面,以轻松修改和执行生成或转换的工具。
(2)数据库与知识库。
(3) 外部模型**
• 内部知识。
除了依靠外部工具外, 许多代理还倚重LLMs的内部知识来调控其行为. 现在我们将介绍LLMs的几个关键能力, 这些能力能够提供支持给代理使其能够合理而有效地调控其行为.
(1) 规划能力方面。
(2) 交流能力。
(3) 日常知识处理能力。
行动影响:
行动影响指的是行动的结果。具体而言,在实际应用中, 行动的影响往往涉及多种情况; 然而为了简明扼要地阐述问题核心内容, 则通常仅列举几个典型情况.
(1) 改变环境。
(2) 改变内部状态。 通过采取行动的方式, 代理不仅能够影响自身的行为模式, 还能通过持续的互动与思考来实现自我进化, 包括更新记忆功能、制定新的策略以及积累新的信息。例如, 在Generative Agents[20]的研究中, 研究者探讨了系统内执行行动后如何优化其记忆模块. SayCan[78]则帮助代理动态调整其对外界信息的感知.
第(3)条将引发后续行动。当任务推进时,在每个代理的行为可能会被其他动作所驱动。例如,在完成所有必要资源收集后,在经过一番努力后着手建设建筑
2.2 代理能力获取
在上一节中所述内容中,在讨论LLMs时我们特别关注的是设计代理架构以增强其能力
带微调的能力获取:
提升执行任务的能力可以通过对代理进行微调来实现。这些数据集通常可基于人类提供的标注信息、利用LLM生成的内容或通过实际应用场景中的数据获取。接下来我们将详细介绍这些方法的相关细节。
• 通过人类注释数据集进行微调。
采用人类注释数据集进行微调是一种灵活且多用途的策略,可以在不同应用场景中得到应用。在这种方法中,研究团队首先设定注释任务,随后通过邀请人类参与者完成这些任务来开展工作。例如,在CoH[84]中,作者旨在使LLMs与人类价值观和偏好保持一致。与其它模型不同,该方法主要通过简单的符号形式利用人类反馈,而将其转换为详尽的比较信息并以自然语言的形式呈现出来。LLMs直接基于这些自然语言数据集来进行微调训练。在RET-LLM[42]中,为了更好地将自然语言转化为结构化记忆信息,作者根据人工构建的数据集对LLMs进行了优化配置,其中每个样本都是一个"三元组-自然语言"对体。在WebShop[85]中,作者从amazon.com收集了118万真实世界的产品信息,并将其放置在一个模拟电子商务网站上,该网站包含精心设计的人工购物情景模拟模块。基于这一虚拟环境,研究团队组织了13名参与者来收集真实的人类行为数据集。基于此数据集合身开展训练工作的是三种方法:基于启发式规则的学习算法、模仿学习模型以及强化学习系统等混合型方法.值得注意的是,尽管作者没有对基于LLM的人工代理系统进行微调训练,[但认为这篇论文所提出的改进型数据集将在增强网络购物代理系统的性能方面展现出巨大的潜力].在EduChat[86]中,研究团队旨在增强LLMs在教育领域的功能表现,如开放领域问答系统、文章评价工具以及苏格拉底式教学辅助系统等特定功能模块.他们根据涵盖多样教育场景与任务的人类标注数据集对LLMs进行了针对性训练.这些标注数据集是由心理学专家与一线教育工作者共同参与创建并优化筛选出来的.SWIFTSAGE[87]则是一个受人类认知双过程理论启发开发出的智能代理系统,[其核心在于通过紧凑型编码器-解码器语言模型实现高效的交互推理能力].在这个智能代理体系中,SWIFT模块扮演了一个关键角色,[主要负责接收与处理用户的交互信息].整个代理系统的构建过程均围绕着人工标注的数据集合展开设计与优化工作.
• 通过LLM生成的数据集进行微调。
构建人工标注数据集需要投入人力成本较高的资源
• 通过真实世界数据集进行微调。
除了通过人类标注或LLM辅助的方式构建数据集外,在实际应用中还有一种常见的策略就是直接使用真实世界数据集进行代理模型的微调。例如,在MIND2WEB[89]研究中,研究者收集了大量真实世界的数据库资源来增强代理在网络安全领域的泛化能力。与以往的研究相比,在本文中所提出的新型数据集在内容上更加丰富多样:它涵盖了多样化任务、丰富的现实场景以及全面的用户交互模式。具体而言,在137个不同类型的网站中被筛选出超过2,000个开放式的任务类型,并涉及31个主要领域方向的内容信息。通过对这些经过精心挑选的真实-world场景进行建模训练后发现,在电影推荐系统发现功能以及票务预订等实际业务场景下取得了显著提升效果:经过微调优化后的模型不仅在这些典型业务场景中表现出色,在SQL-PALM[90]研究中还采用了跨领域的大规模文本到SQL数据分析库Spider资源来进一步提升模型性能表现
无微调的能力获取:
在传统机器学习时代

• 提示工程。
由于大型语言模型(LLM)具备卓越的语言处理能力
• 机制工程。
与模型微调及提示工程不同地, 机制工程作为一种专为提升代理能力而设计的独特方法. 下面, 我们将会深入探讨若干具有代表性的机制工程技巧.
(1) 试错法。
在该方法中,代理首先采取一个行动,并依赖预先定义好的批评者对其做出评价。如果该行动被判定为不合格,则代理将根据反馈进行相应调整。研究文献[92]中指出,在这种系统中作为辅助使用者的代理需扮演模拟人类行为的角色,并代表用户输出响应。为了实现这一功能,在文献[92]中提到的系统中,代理先预测可能的回应内容,并将其与真实用户的反馈结果进行对比分析。当预测结果与实际反馈存在差异时,则会被视为失败信息并用于改进下一次操作策略。类似地,在文献[33]所描述的系统中,则要求代理先制定针对特定任务的行为计划,并在此基础上展开执行过程中的问题解决工作:若某项操作出现故障,则系统会生成详细的技术分析报告供后续参考使用;这些报告随后被用来重新规划整个操作流程并优化解决方案的实施策略。在文献[93]所提出的系统设计中则进一步细化了这一流程:具体而言是先将整个任务分解为多个子任务并生成相应的三维路径规划方案;随后通过一系列环境检测手段(包括碰撞检测和逆运动学计算)来验证各阶段计划方案的有效性与可行性:若发现任何环节无法满足要求,则会触发失败反馈机制并引导重新规划新的操作方案直至所有检测环节均达标为止
(2) 众包。
在文献[95]中描述了该机制的设计。该机制通过群体智慧来提升代理能力。参与者(如不同代理人)对同一问题提出各自的解答方案。当存在意见分歧时,则会被引导整合其他代理人提供的解决方案,并输出新的解答方案。经过持续迭代后最终收敛至一致的答案。从而促进各参与方能力的发展
(3) 经验积累。
在GITM[16]体系中,代理最初并不具备完成任务的能力。随后,在探索过程中一旦成功完成某一特定任务,则会在其记忆库中记录该任务所需的所有动作序列。对于未来可能遇到的类似任务,在积累足够经验后将能够迅速调用相关知识应对新的挑战。这一机制下的一项改进能力来自于动态自适应的记忆存储与调用机制。Voyager[38]系统通过开发了一套智能技能库系统,在代理与环境互动的过程中能够根据实时反馈机制获取环境反馈数据,并通过自我验证结果不断优化技能表现。经过一段时间的学习与实践后,在这一过程中代理能够通过访问智能技能库高效地执行多样化的业务流程处理。AppAgent[96]设计采用了人机交互界面进行操作指导,并采用人机协同的人工智能学习模式模仿人类操作流程以实现复杂业务流程的学习与执行目标。最终系统会建立一个动态行为数据库作为多类型复杂业务流程处理的知识参考来源。MemPrompt[97]系统则引入了一种新型的人机协作模式,在模拟真实用户行为方面取得显著突破:通过主动学习模式模仿人类操作流程,并利用实时反馈数据不断优化模型性能;同时在模拟真实用户行为方面取得显著突破:通过主动学习模式模仿人类操作流程,并利用实时反馈数据不断优化模型性能;同时
(4) 自驱动演化。
在LMA3[98]中, 代理能够自主设定目标, 并通过环境探索与奖励反馈逐步增强自身能力. 按照这一机制, 代理可根据个人偏好学习并发展技能. 在SALLM-MS[99]中, 将先进的大型语言模型(如GPT-4)融入多代理系统中, 代理能够适应并执行复杂任务, 具备卓越沟通能力, 并在环境互动中实现自我驱动演化. CLMTWA[100]中, 大型语言模型作为教师指导较弱的学习者生成自然语言解释, 通过理论思维提升学习者的推理技能. 教师可依据学生预期效用对解释进行个性化调整, 并适时干预以优化学习过程. NLSOM[101]中, 不同代理通过自然语言交流协作解决单个无法完成的任务. 这种机制体现为多代理间的协同互动与知识共享. 然而与LMA3、SALLM-MS及CLMTWA相比,NLSOM体系允许根据任务需求及其他因素动态调整各代理的角色、任务与关系
备注
在上述章节中, 我们对基于LLM的代理搭建过程进行了深入探讨, 按照系统化的思路着重考察其架构设计与能力获取的关键环节. 通过表1的数据展示可以看出现有工作与上述分类之间存在明显的对应关系. 需要特别指出的是, 在确保全面性的同时我们也涵盖了那些虽未明确提及但与其领域高度相关的潜在研究方向.

3 LLM基础自主代理应用
基于LLMs先进的语言理解和推理能力以及强大的常识处理能力,在多个研究领域中LLM基础自主代理展现出显著的应用潜力。本节将对这些研究进行简要回顾,并按社会科学、自然科学及工程学三个领域进行分类阐述(如图5左侧所示)。
3.1 社会科学
社会科学作为科学的重要组成部分之一,则致力于深入探讨社会结构中的互动模式以及其中个体间的相互关系。基于其卓越的认知能力与强大的逻辑推理能力等特质特征,则LLM基础自主代理得以在该领域取得显著进展与突破性发展成果。以下,则将着重讨论几个LLM基础自主代理可能产生的关键影响领域。
心理学:
在心理学领域中
政治科学与经济:
LLM基础代理同时被应用于研究领域如政治科学与经济学等交叉学科领域,并已在多篇文献中有相关报道。具体而言,在文献[29]中报道了LLM基础代理的应用重点在于其在意识形态检测方面的应用以及对投票模式预测能力的展现。文献[105]着重探讨了LLM基础代理如何解析政治演讲的内容及其说服力构成要素。而在文献[106]中,则通过赋予该模型诸如认知能力、偏好取向与个性特征等因素,并结合模拟场景分析人类经济行为的动态过程。
社会模拟:
以前的研究表明,在人类社会中进行大规模实验往往面临高昂成本、伦理争议以及实际可行性问题[20, 34, 77, 107-110]。随着大型语言模型(LLMs)技术的进步,研究人员致力于开发模拟社会现象的技术,并通过LLM基础代理来研究信息传播等关键议题[20, 34, 77, 107-110]。例如,在[107,108]的研究中,Social Simulacra模型被用来模拟在线社交社区,并探索通过模拟技术优化社区规范的可能性。此外,在[108]的研究中,LLM基础代理被用来分析社交网络中不同行为模式对结果的影响。Generative Agents和AgentSims系统在虚拟环境中构建了多个智能体(agents),以模仿人类日常生活场景[20]。SocialAI School项目则聚焦于利用LLM基础代理来研究儿童社会认知技能的发展过程[109]。S3系统提供了一个专注于信息传播及其影响的社会网络仿真平台[77]。CGMI是一个多智能体(multi-agent)仿真框架,在该框架下通过层级结构管理各智能体的独特性,并构建了一个基于认知模型的信息传播机制[111]。作者通过CGMI实现了一个课堂互动情景的仿真实验。
法学:
LLM基础自主代理可充当法律决策过程中的辅助工具,有助于实现更加明智的判断[112, 113].Blind Judgement[113]借助多个语言模型模拟不同法官的决策思路.该系统能收集多种不同的意见,并采用投票机制整合处理.ChatLaw[112]是基于LLM著名的中国法律模型.其采用了专门设计的数据库结构与关键词检索策略,以缓解这类模型中常见的幻觉现象.此外,该系统还应用了自注意力机制,以减少参考不准确性带来的负面影响.
研究助理:除了在专业领域中的应用外,在社会科学研究领域中也已成为一个越来越普遍的工具。具体而言,在文献[105]中所展示的案例表明,在线学习平台作为知识生产工具具有多方面的辅助功能。这些功能不仅包括生成简洁的文章摘要以及提取关键关键词等基本服务,在为研究制定详细的脚本方面也展现了显著的优势。此外,在文献[114]中详细探讨了这种技术如何通过智能写作辅助工具提升研究人员的能力,并进一步揭示了其在全球化背景下推动学术进步的重要作用
3.2 自然科学
自然科学是一个重要的学科领域,在观察和实验的基础上对自然现象进行解释、探究和预测。伴随着LLMs技术的不断进步,在自然科学领域中应用LLM基础自主代理的人越来越多了。以下将详细介绍多个具有代表性的领域,在这些领域当中LLM基础自主代理发挥着关键作用。
文档和数据管理:
自然科学研究通常需要进行大量文献的收集、整理与综合工作。LLM自主代理展现出在理解和使用互联网以及相关数据库进行文本处理方面的卓越能力。这些能力使代理能够在文档管理和数据分析等领域表现出色[75, 115, 116]。其中,在[115]中,代理能够快速检索并充分利用互联网信息来完成问题解答与实验规划等任务。ChatMOF[116]通过LLM从人类编写的文字中提取关键信息,并制定计划应用相关工具以预测金属有机框架(MOF)的性质及结构特征。此外,在 ChemCrow[75]系统中利用化学数据库对化合物表示的有效性进行了验证,并识别出潜在危险物质的相关指标值。通过这些功能的应用实践,在确保数据准确性的前提下显著提升了科学探究的整体效能
实验助理:
LLM基础自主代理具备独立执行实验的能力,并因此成为科学家开展研究项目的重要工具[75, 115]。例如,在文献[115]中介绍了一个创新的代理系统,在该系统中LLM通过自动化的方式完成科学实验的设计、规划与执行过程。当系统接收实验目标作为输入时,它会通过互联网检索相关信息以获取所需数据,并利用Python代码完成必要的计算工作以及执行相关实验步骤。其中 ChemCrow[75]整合了17个经过精心设计的功能模块来协助研究人员进行化学研究工作,在接收输入目标后 ChemCrow不仅会提供有益的操作建议,并特别指出拟议实验可能存在的安全隐患
自然科学教育:
LLM基础自主代理具备良好的沟通能力,并常用于构建基于代理的教育工具体系[115, 117-119]。例如,在[115]研究中成功开发了基于代理的教育系统框架,默认目标是帮助学习者掌握实验设计、方法论与分析技巧。这些系统旨在通过提升批判性思维与问题解决能力来增强学习效果,并深化对科学原理的理解。Math Agents则致力于帮助研究人员探索未知领域、提出新理论以及验证假设[117]。此外,该代理还提供与人类交流的功能支持学习者理解与运用数学知识[86]。CodeX能力的应用则使它能够自动解答大学水平的数学问题并提供详细解释[86];这一功能可作为教学工具辅助学生深入理解课程内容并掌握解题技巧[86]。CodeHelp作为编程教育代理拥有多种实用功能包如关键词指定与智能反馈等[86];它通过监控学习过程并提供实时反馈帮助提升学习效率与质量[86]。EduChat专为教育领域设计而运作;其通过智能化对话机制为教师、学生及家长提供个性化的支持服务[86];这种机制旨在促进公平且富有同情心的学习环境建立起来联系并及时传递学习信息[86]。FreeText作为利用LLM评估学生回答并给出反馈的技术框架也得到了广泛应用;它特别关注于对开放性问题的回答质量评估并据此提供针对性建议以提升教学效果[86]
3.3 工程学
LLM基础自主代理在辅助推动工程研究与应用方面展现出显著的应用前景。在本节中,我们将系统梳理LLM基础代理在若干重要工程领域的具体应用。
土木工程:
在土木工程领域中
计算机科学与软件工程:
在计算机科学与软件工程领域中,LLM基础代理具备自动化编码、测试、调试以及文档生成等方面的潜力[14, 18, 23, 24, 126-128]。ChatDev[18]提出一个端到端框架,在该框架中多个代理角色通过自然语言对话实现协作与交流,并完成软件开发生命周期的任务。这一框架展现了高效且低成本生成可执行软件系统的可能性。ToolBench[14]适用于代码自动补全与推荐等任务操作。MetaGPT[23]定义了包括产品经理、架构师、项目经理及工程师在内的多个角色模型,并用于监督代码生成流程以提升输出质量。这使得低成本开发变得可行。[24]提出了一种基于LLMs的自我协作框架,在其中多个LLMs被假定为特定子任务专家并协同工作以解决代码生成问题无需人工干预的情况得以实现。LLIFT[139]借助LLMs辅助静态分析并识别潜在代码漏洞实现了平衡准确性和扩展性的目标。ChatEDA[123]为EDA领域提供代理服务整合了任务规划、脚本生成与执行流程简化设计流程所需的复杂性CodeHelp[120]则为开发者与学习者提供了调试与测试工具其核心功能包括详细的错误信息解释潜在修复方案建议以及确保代码质量PENTESTGPT[125]基于LLMs开发出一种渗透测试工具能够有效识别常见漏洞并解析源代码以便于利用发现的问题DB-GPT[41]利用LLMs的能力系统性评估数据库异常的根本原因并通过思维树方法在失败时回溯到前一步骤从而提升了诊断准确性。
工业自动化:
在工业自动化领域中使用LLM基础代理来进行智能规划与生产过程控制。研究者们提出了一个创新框架,并将其整合进大型语言模型(LLMs)与数字孪生系统的结合体中以应对灵活多变的生产需求。该创新性框架通过提示工程构建能够根据数字孪生所提供的信息自适应特定任务所需的LLM代理。这些自适应能力使这些代理能够整合一系列基础功能和服务,在不同层级上完成从简单到复杂的自动化任务。这项研究不仅突显了将LLMs集成到工业自动化系统中的潜力而且为实现更加灵活高效且具有适应性的生产流程提供了创新性的解决方案。其中IELLM[130]系列则聚焦于油气行业展示了其在岩石物理声学反射测量以及连续油管控制等方面的实际应用效果
机器人学与具身人工智能:
最近的工作已构建了高效率强化学习代理以应用于机器人学及具身人工智能领域相关研究[16 38 78 132-135 140-143]。其核心目标是增强自主代理在具身环境中的规划推理与协作能力具体而言 研究团队提出了一种统一代理系统架构该系统旨在实现自主代理在具身推理与任务规划方面的统一管理为此设计了高级命令序列以提升规划效率同时开发了低级控制器以将这些命令转化为具体的执行动作此外 研究人员还提出了一种利用对话机制收集信息的方法以加速优化过程此外 在自主代理驱动下的具身决策与探索机制被深入研究其中 通过生成可执行的计划方案 自动代理能够克服物理限制并灵活应对复杂场景为了实现这一目标 SayCan[78]研究团队致力于开发一系列操作与导航技能该系统结合移动操作器机器人特点 研究出一套全面覆盖559种操作与导航技能的设计涵盖了七个核心技能家族以及多样化物体类型这些技能包括拿起放置倾倒抓取操纵物体等基本动作TidyBot[137]则是一个专门针对个性化家庭清洁任务设计的智能体它通过学习用户的物体摆放方式偏好实现了高效的清洁操作
为了促进LLM基础自主代理的实际应用研究与开发工作,在现有开源库的基础上进一步拓展了相关技术路径与实践方法[19,81,127,144-157]。其中一种关键的技术框架是LangChain[149]系统,在该框架下实现了自动化编码、测试、调试以及文档生成等功能集成。通过整合语言模型与数据源资源,并通过环境交互促进智能化操作与协作机制设计,使得软件开发效率得到显著提升的同时也降低了开发成本[85]。基于这一创新性技术基础,XLang[147]系统不仅提供了完整的工具集合与友好的用户界面设计,并且支持三种典型的应用场景:数据处理型代理系统、插件依赖型代理框架以及网络代理型服务模式;而AutoGPT[81]则是一个完全自动化管理的代理方案,在其运作模式下设定明确的目标并将之分解为具体可执行的任务模块进行持续循环运行直至目标达成目标状态被确认为止[86]。WorkGPT[150]则提供了一种基于智能对话交互机制的代管式服务模式,在该框架下用户可以通过输入指令并调用一组预先定义好的API接口与AI系统展开交互对话过程直至任务完成为止;这种设计思路既避免了传统编程方式的人为干预风险又大幅降低了开发周期投入成本[87]。此外GPT-Engineer[128]SmolModels[126]以及DemoGPT[127]等开源项目则专注于通过提示式代码生成技术实现自动化辅助开发流程从而帮助开发者更高效地完成复杂任务;AGiXT[146]则提供了一种动态智能调度平台支持跨平台资源协同优化以及高效的任务执行能力;而AgentVerse[19]则提供了一种多功能化实验平台支持研究人员快速构建并测试自定义LLM基础代理模拟模型;最后GPT Researcher[152]作为一个研究探索平台利用先进的大型语言模型技术和网络爬虫工具实现了对研究问题的有效建模数据采集以及多源信息整合的能力从而显著提升了知识获取效率
备注

大型语言模型(LLM)为基础的自主智能体的典型应用。
4 LLM基础自主代理评估
类似于LLMs自身特性,在评估LLM基础自主代理的有效性方面同样面临着诸多挑战。本节中将介绍两种主要的评估方法:主观评价和客观测试。对于详细的综述,请参考图5右侧的部分。

4.1 主观评估
基于人类判断的主观评估用于衡量代理能力[...]。它可以应用于缺乏评估数据集或难以量化指标的情境。例如评价代理的智能性和用户体验友好性。以下我们将探讨两种常见的主观评估策略
人类注释:
该评估方法由人类评估员直接对各代理产生的输出进行评分或排序,并引用相关文献支持(如[22,29,105])。例如,在一项研究(如[20])中
图灵测试:
该评估机制要求人类评估员对由代理生成的内容与人工创作的内容加以区分。若在特定任务中,评估员无法分辨代理与人类生成的结果,则表明代理在该任务中的表现相当于人类。例如,在[29]的研究中进行关于自由形式政党文本的实验时,在[20]研究中进行测试时,人类评估员被要求判断行为来源,并在EmotionBench[160]项目中收集了人工标注数据以比较LLM软件与真实参与者的情感状态差异。这种对比方法不仅有助于量化LLM系统的情感处理能力与真实个体之间的差距,并展示了理解代理能力的一种巧妙途径。
注:LLM基础代理通常旨在服务于人类。因而主观代理评估发挥着关键作用,因为它反映了人类的标准。然而该策略面临着高昂的成本、低效的运作以及可能存在的群体偏见等问题亟待解决为此越来越多的研究者正在探索一种更为高效的方法即利用LLMs本身作为中介来进行这些主观评估过程例如在ChemCrow[75]的研究中研究人员采用了GPT这一工具来评估实验结果的过程他们综合考虑了任务完成度与底层过程的准确性等要素类似地ChatEval项目[161]则提出了一种创新方法通过让多个代理以结构化辩论的形式对候选模型生成的结果进行多维度的批评与评估从而实现基于LLMs的客观分析这种基于LLMs的新颖评估方法有望显著提升主观评估的质量与适用范围并有望在未来取代现有的人类评估方式从而有效弥补当前系统评估体系中的局限性随着LLM技术的进步此类方法将更加成熟并获得更广泛的实践应用
4.2 客观评估
客观评估是指基于能够通过量化分析定期进行比较的定量指标来评价LLM基础自主代理能力的表现。与主观性评价相比,在技术层面旨在提供关于代理性能的具体数据支持和可量化的结论。在进行客观性评价时需关注的关键要素包括评估指标的设计、执行协议的具体操作以及选定的标准作为基准来进行比较。下面将详细阐述这些关键要素
指标:
为了科学评估代理的有效性,设计合适的评价标准至关重要,这可能直接影响评估结果的质量以及覆盖范围。理想的评价标准应具备以下两个核心特征:其一能够准确反映代理性能的具体表现;其二能与人类在实际场景中运用这些标准时所获得的感受保持高度一致。(1)任务完成率:这类指标主要衡量代理在执行特定任务过程中达成目标的能力水平。常见的量化指标包括成功率[12,22,57,59](完成率)、奖励/得分[22,59,138](积分)、覆盖范围[16]以及准确率[18,40,102](正确率)。数值越高则表示该代理在执行相关任务时表现越出色。(2)人机一致性评价:这类评价方法旨在量化代理行为与人类行为之间的相似程度或一致性水平。典型的表现形式包括运动轨迹及位置准确性[38, 164]、对话质量相似性[79,102]以及模仿人类语言回应能力[29,102]。(3)运作效率评估:这一类评价标准着重于从另一个角度衡量代理性能的质量。通常涉及的关键指标包括计划规模[57](规划长度)、系统开发成本[18](开发投入)、计算效率[16,38](处理速度)以及对话澄清频率[138](沟通效率)。
协议:
除了基于指标的评估之外,在客观评估中还应关注如何利用这些指标。从前人的研究中可以看出主要采用的几种典型评估协议有:(1)沉浸式环境下的任务执行;例如游戏和交互式模拟器等平台可以让代理自主完成任务,并通过任务成功率和类人度等指标来衡量其能力[16,22,33,38,59,85,138,164,166,170]。(2)复杂社交情境下的行为分析;通过合作任务、辩论以及人类研究等多种手段来考察其社会智能[34,79,102,165,173]。(3)多领域任务组合的应用;这种模式能够有效检验代理在开放领域环境中的泛化能力[29,85,153,165,166,172,173]。(4)软件质量检测的关键环节;包括生成测试用例、复制错误、调试代码以及与开发人员和外部工具交互等多个环节,并通过测试覆盖率和错误检测率等指标来验证LLM基础代理的有效性[162, 163, 169]。
基准:
在制定评估策略时,在满足指标与协议的基础上选择合适的基准成为一项关键任务。这一过程涉及对不同场景下代理性能的系统性考量,并通过设定明确的标准来衡量其表现质量。许多先前的研究实验中都采用了不同的基准以实现这一目标,并根据具体需求选择了最适合的评测标准。研究者们普遍认为,在实际应用中选择合适的评测标准是确保评测结果科学性的重要前提条件之一。
注释。基于多种量化指标对LLM基础代理能力进行了系统性评估,并观察到了显著提升效果的现象
在上述章节中阐述了基于大语言模型的自主代理评估体系。该体系在该领域内具有重要意义。然而由于主观评价存在局限性而客观指标也存在不足二者各有得失鉴于此在实践中应当综合运用以全面审视代理性能同时参考表3所归纳的研究现状与其相关评估策略间的关联

5 相关调查
伴随着大型语言模型的迅速发展,在各个领域都进行了广泛深入的研究与探讨。
另一方面,则重点考察了LLMs在不同应用场景中的实际应用效果及面临的挑战
实现LLMs与人类智能水平对齐的技术研究已成为当前人工智能领域的热门课题之一
上述研究全面涵盖了大型模型的多维度特征与表现形式, 系统性地包含了训练、应用以及评估三个关键环节。然而, 在本文之前, 前者尚未对LLM基础代理这一迅速发展且具有极高潜力的新兴领域进行深入关注。在本研究中, 我们进行了系统收集, 通过筛选整理, 筛选出100篇具有代表性的相关文献, 全面系统地涵盖了从代理构建到实际运用再到性能评估的全过程。
6 挑战
虽然LLM基础自主代理的研究获得了诸多显著的成果(成果),但这一领域仍处在一个初级发展阶段,并在发展过程中面临若干重大的挑战。下面(将在下面),我们将会深入探讨一系列具有代表意义的挑战。
6.1 角色扮演能力
不同于传统的LLMs系统,在自主代理模式中通常需要由特定人员(如程序员、研究人员或化学专家)来扮演不同角色以执行具体任务。因此,在这一过程中展现角色扮演能力显得尤为重要。尽管现有的LLMs系统能够较为精准地模仿许多常见角色(如电影评论家),但在准确捕捉各种复杂角色及其特质方面仍存在明显局限性。首先而言,在现有的训练体系下,LLMs通常是基于大规模网络语料库进行深度学习的训练模式;因此在面对那些在网络语境下讨论极少或尚未成熟的领域时(如某些新兴职业领域),现有模型可能难以提供理想的模拟效果。其次而言,在已有研究[30]的基础上可知,在模仿人类认知心理特征方面现有的LLMs系统仍显不足;这导致在对话交互场景中往往缺乏对自我意识的认知与表现能力。解决这些问题可能需要通过微调现有模型或是设计更为精准的代理提示/架构方案[183]。
为了应对这些问题, 我们可以首先收集真实可靠的人类样本数据, 然后通过这些数据对大语言模型进行系统性训练. 然而, 保证经过优化后的模型仍能出色地完成常规人物塑造任务将会面临新的难题. 此外, 我们还可以开发专门化的辅助提示机制来提升大语言模型在模拟人物对话方面的能力. 然而, 寻找最适合的大语言模型优化方案仍然充满挑战. 因此, 在参数规模和功能设置之间取得平衡仍是巨大的难题.
6.2 泛化人类对齐
人类对齐的概念已得到广泛探讨,并且特别是在传统LLM代理领域中存在诸多关注点
6.3 提示鲁棒性
为了保证代理行为具有理性和一致性,在LLM系统中通常会集成辅助功能模块如记忆与规划系统等附加组件。然而由于这些功能模块的应用通常需要构建更为复杂的指导模式框架以实现统一的操作流程与有效信息交流这一过程往往会导致系统设计变得更加复杂化与技术难度显著提升以往研究[184,185]已指出LLM系统的指导指令鲁棒性存在明显缺陷因为即使是微小的变化也可能导致结果产生根本性的差异当构建自主式代理系统时这一问题的表现形式更加突出因为这类系统不仅包含单一指导指令还需综合考量多个功能组件之间的相互作用其中任何一个组件的功能指令都可能对其他组件产生影响此外不同LLM平台所采用的功能指令框架之间可能存在较大的差异开发一套能够适应多种不同LLM平台并具备弹性的统一式指导指令框架仍然是当前面临的一个关键性挑战也是一个尚未得到解决的重要课题解决这一问题的主要方案有两种选择:第一种方案是通过反复试验与错误修正的方式逐步构建关键式指令元素;第二种方案则是利用GPT等AI模型自动生成相应的指导指令
6.4 幻觉
从理论上讲,在LLMs领域中存在一个本质性的难题即所谓的幻觉现象。这种现象表现在模型倾向于以极强的信心生成虚假信息其显著特征在于倾向于以极强的信心生成虚假信息这使得基于模型的知识生成过程面临严峻挑战尤其是在自主代理系统设计与应用层面同样需要特别注意防范此类潜在风险。如前所述在文献[186]中提到当代理系统在面对简单的指令时可能会表现出明显的幻觉行为这可能导致严重后果如错误代码的安全漏洞以及伦理问题等[186]。为此一种可行的方法是通过将人类纠正反馈机制整合到人机交互系统中来实现持续改进这种方法已经在文献[23]中有具体探讨有关幻觉问题的深入讨论可以在文献[176]中找到进一步的支持与分析
6.5 知识边界
以模仿真实世界人类行为为目标的应用之一是基于LLM的基础自主代理系统[20].
6.6 效率
由于LLMs基于其自回归架构的设计理念,在执行推理任务时一般而言速度较慢。然而,在代理系统中为了完成每一次动作往往需要频繁地依赖LLMs进行查询操作以获取所需信息包括但不限于记忆提取、计划制定等环节。因此,在LLMs推理速度显著影响下代理系统的行动效率不可避免地会受到较大程度的影响
7 结论
本研究系统性地梳理了LLM基础自主代理领域的现有研究成果,并从代理机制的构建、实际应用场景及其应用效果三个方面展开分析,并对现有相关工作进行了系统性综述。针对各个维度的具体表现形式与特征划分方法进行了深入探讨,并通过构建统一的知识框架,在现有研究成果间建立联系。此外,在理论创新的基础上提出了若干关键问题与挑战,并对未来该领域的发展方向提出重要参考
本工作得到了国家自然科学基金项目批准号:62102420;北京市杰出青年科学基金项目编号:BJJWZYJH;由智能治理平台提供技术支持;"双一流"高校建设重大创新与规划跨学科平台给予重点支持;人民大学作为主办单位;公共计算云平台为本研究提供算力保障;人民大学的一流学科建设项目资助;以及智能治理平台的技术支持再次表示衷心感谢
References
Mnih V等人(2015年)发表于《自然》杂志上的一篇文章指出:通过深度强化学习实现了人类级控制
2. Lillicrap T. P., Hunt J. J., Pritzel A., Hees N., Erez T., Tassa Y., Silver D., Wierstra D. Continuous control tasks employing deep reinforcement learning techniques. arXiv preprint (arXIV: 1509.02971), 2015
参考文献:Schulman J等人的Proximal政策优化方法。arXiv预印本arXiv:1707.06347, 2017
Haarnoja T et al., Soft Actor-Critic: An Off-Policy Maximum Entropy Deep Reinforcement Learning Method with a Stochastic Actor, presented at the International Conference on Machine Learning in 2018, pages 1861–1870
Brown T and others. Language models serve as effective few-shot learners. Published in Advances in neural information processing systems, 2020, volume 33: pages 1877–1901.
Language models serve as unsupervised multitask learners.
Achiam J等Adler S等Agarwal S等Ahmad L等Akkaya I等Aleman F L等Almeida D等Altenschmidt J等Altman S等Anadkat Sothers.GPT-4技术报告.arXiv预印本arXiv:2303.08774, 2023
8. 该机构的模型卡片及其对Claude模型的评估。https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf?ref=maginative.com, 2023
An open and efficient foundation for Llama language models has been developed by a team of researchers including Touvron H and others. This innovative approach is detailed in their paper titled 'Llama: Open Efficient Foundation Language Models,' which was published in the arXiv preprint repository as arXiv:2302.13971 in 2023
Touvron H et al. ont publié un article intitulé "Llama 2 : open-source foundation et modèles de chat prédentifiés" dans le repository arXiv en 2023 (arXiv:2307.09288).
Li H et al. Generative adversarial user model for reinforcement learning-based recommendation system. In proceedings of the International Conference on Machine Learning. 2019 (pp. 1052–1061).
12. Shinn N et al., Reflection: Agent systems with verbal-based reinforcement learning. Advances in Neural Information Processing Systems, 2024, 36
(此处编号可做适当调整) Shen Y et al. 展示了基于Hugging Face平台的创新应用:解决人工智能任务的方法与实现。《神经信息处理进展》,2024;36.
工具有一个明确的功能目标:帮助大型语言模型高效掌握16_k_个左右的实际应用编程接口(APIs)。该软件已被广泛应用于多个领域,并已在arXiv上发布了预印本版本(arXiv:2307.16789),发布日期为2023年
Schick T et al. demonstrated that language models possess the capacity to learn and utilize tools. This research was presented at the 2024 conference on Advances in Neural Information Processing Systems.
Zhu et al. explore "Minecraft: The Ghost Dimension," focusing on agents capable of handling complex and dynamic open-world environments through large language models equipped with text-based knowledge and memory. This study is an arXiv preprint (arXiv:2305.17144), published in 2023.
Examining language models' absence of theory of mind: presenting a plug-and-play multi-character belief tracker.
18. Qian C\textsuperscript{1}, Cong X\textsuperscript{1}, Yang C\textsuperscript{1}, Chen W\textsuperscript{1}, Su Y\textsuperscript{1}, Xu J\textsuperscript{1}, Liu Z\textsuperscript{1}, Sun M\textsuperscript{1}. Enhancing communicative agents in software development. arXiv preprint arXiv:2307.07924, 2023
19. al. e C. Agentverse. GitHub - OpenBMB/AgentVerse: 🤖 AgentVerse 🪐 aims to provide support for deploying multiple LLM-powered agents across different application domains, offering two primary functionalities: problem-solving tasks and simulation environments, 2023
Park J S et al. presented Generative systems as interactive representations of human activity at the 36th Annual ACM Conference on Human Factors in Computing Systems. Their work was published in the conference proceedings titled "Interactive Representations of Human Activity in Computing Systems" in 2023.
Wang L., Zhang J., Chen X., Lin Y., Song R., Zhao W.X., Wen J.R.: RecoSim: An innovative framework for evaluating recommendation approaches appears as a preprint on the arXiv platform (link omitted), identified by http://arXIV.org/abs/2306.02552 in 2023
The study by Zhang et al. demonstrates that cooperative embodied intelligent agents can be effectively constructed using advanced large language models and modular techniques. This research was published as an arXiv preprint under the reference number arXiv:2307.02485 in 2023.
23. Hong et al., Zheng et al., Chen et al., Cheng et al., Wang et al., Zhang et al., Wang et al., Yau et al., Lin et al., Zhou et al. (along with other authors), introduced Metagpt as a tool for developing collaborative frameworks in multi-agent systems. This work was published as an arXiv preprint under the identifier arXiv:2308.00352 in 2023.
Dong Y, Jiang X, Jin Z, Li G. Self-collaboration code generation via ChatGPT. arXiv preprint arXiv:2304.07590, 2023
25. Safdari M et al., Personality traits of LLMs. arXiv preprint arXiv:2307.00184, 2023
Johnson J A. Assessing a comprehensive set of dimensions derived from the Big Five personality traits, this study utilized a 120-item instrument to create the IPIP-NEO-120 scale.
(John O’Connor, Donahue E.M., Kentle R.L.) conducted their study on the Big Five Inventory within the Journal of Personality and Social Psychology in 1991.
Dr. Amol Deshpande, Vinita Murahari, Twinkle Rajpurohit, Arun Kalyan Ayyappa, Kiran Narasimhan. Investigation into ChatGPT's operationalization of personas and its implications for language modeling. arXiv preprint arXiv:2304.05335, 2023
Argyle L P et al., From a single source to multiple uses: Employing language models as simulators for human behavior in political analysis. Political Analysis, 2023; 31(3): 337–351
Karl A. Fischer. Reflective linguistic programming (RLP): A landmark in socially-aware AGI (SocialAGI). arXiv preprint arXiv:2305.12647, 2023
Rana K等人的Sayplan系统:通过三维场景图将大型语言模型可靠化以实现可扩展的机器人任务规划。
Zhu A, Martin L, Head A, Callison-Burch C. Calypso is an effective tool for assisting dungeon masters in AI and interactive digital entertainment. Presented at the Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment in 2023, spanning pages 380–390.
Wang Z et al. articulated, elucidated, strategized and chosen: Interactive strategic planning utilizing large language models facilitates the development of open-world multitask agents. (arXiv preprint arXiv:2302.01560)
Li J and Zhao H contributed to the development of Agentsims as an open-source platform designed to provide a controlled environment for comprehensive assessment and refinement of advanced language models. The source is an arXiv preprint available at arXiv:2308.04026 (发布于2023年).
Liang Xing et al., Expanding the potential of unlimited input capacity for large-scale language systems through a self-managed memory architecture. Available as an arXiv preprint (arXiv:2304.13343), 2023.
Ng Y et al., 2023. "Simplyretrieve": A private and efficient retrieval-focused generative AI platform. Open-access research paper available at arXiv:2308.03983
Huang Z et al. introduced a concept called "memory isolation," which emphasizes transparency in managing memory interactions for conversational agents. This study was presented in the proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology as an adjunct paper, focusing on innovative approaches to memory management in AI systems.
Wang G,Xie Y,Jiang Y,Mandlekar A,Xiao C,Zhu Y,Fan L,Anandkumar A.Voyager is an endless self-aware entity equipped with advanced large language models.arXiv preprint arXiv:2305.16291,2023
39. Zhong W, Guo L, Gao Q, Wang Y. Long-term memory repository: Improving large language models through enhancing their long-term memory capabilities. arXiv preprint arXiv:2305.10250; published in 2023
40. Hu C, Fu J, Du C, Luo S, Zhao J, Zhao H.\ Chatdb: aiding language models through database integration as their symbolic memory storage. arXiv preprint arXiv:2306.03901,\ 2023
41. Zhou X, Li G, Liu Z. Llm as dba. arXiv preprint arXiv:2308.05481, 2023
42. Modarressi A, Imani A, Fayyaz M, Schütze H. RetrofitLLM: Aiming to develop a broad read/write memory for large language models. Preprints on arXiv: 2305.14322, 2023
43. Dr.\ Schuurmans\ Memory-augmented\ large\ language\ models\ exhibit\ computational\ completeness\ as\ a\ feature\ of\ their\ architecture;\ this\ is\ an\ important\ property\ for\ enabling advanced processing tasks.\ arXiv preprint (arXiv:\ 2301.\ 04589), 2023
赵阿, 黄大, 熊季度, 林敏, 刘 Y J, 黄谷. The expulsion of large language models as experiential learners. arXiv preprint arXIV:2308.10144, 2023
The chain-of-thought prompting technique is employed to demonstrate the reasoning capability of large language models within the context of advances in neural information processing systems. In volume 35 of the journal Advances in Neural Information Processing Systems, published in 2022, this study is contained within pages 24824–24837.
46. Kojima T, Gu S S, Reid M, Matsuo Y, Iwasawa Y. Large language models function as zero-shot reasoning systems. Published in the proceedings of the 2022 Advances in Neural Information Processing Systems conference under the volume number 35 with page numbers ranging from 22199 to 22213.
47. Raman et al., Cohen, Rosen, Idrees, Paulius, and Tellex propose a novel approach for planning with large language models through active prompting techniques that correct the model's outputs. Their work was presented at the NeurIPS 2022 Workshop on Foundation Models for Decision-Making.
Xu Bo, Peng Zi, Lei Bo, Mukherjee Soumendranath, Liu Yi, Xu Dashun. ReWoo体现了通过分离推理与观察来提高效率的特点,并且该方法通过有效地分离推理过程与观察数据实现了增强型语言模型的高效性。该研究工作发表于arXiv预印本平台,并在2023年正式发布
49. Wang X, Wei J, Schuurmans D, Le Q, Chi E, Narang S, Chowdhery A, Zhou D. Self-consistency enhances chain-of-thought reasoning in language models.
Yao Song Yu Daniel Zhao Jinping Shafran Igor Griffiths Thomas Cao Yang Narasimhan Krishnan. Thoughtful Landscape: Intentional Critical Analysis Using Large Language Models. Advances in Neural Information Processing Systems, 2024, 36
Wang Y,Jiang Z,Chen Z,Yang F,Zhou Y,Cho E,Fan X,Huang X,Lu Y,Yang Y.Recommendation AI:A large language model-powered intelligent agent for recommendations.arXiv preprint arXiv:2308.14296, 2023
该研究团队展示了通过大语言模型解决复杂问题的有效方法。该文作为预印本发布于arXiv上,并于2023年8月被接收。
53. Sel B et al., Al-Tawaha A et al., Khattar V et al., Wang L et al., Jia R et al., Jin M. Intelligence mechanism: Improving information retrieval within advanced language systems. Previously published in the arXiv repository at the specified reference number, 2023
Huang W, Abbeel P, Pathak D, Mordatch I. Language models as zero-shot planners or agents: Extracting practical knowledge for embodied agents. In: International Conference on Machine Learning. 2022, 9118–9147
55. Gramopadhye M, Szafir D. The system creates actionable sequences using environmentally-conscious language models. In: Proceedings of the 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). 2023, 3568–3575
Hao S et al. demonstrate that reasoning capabilities of language models correspond to planning in the world model framework. Their research was published as an arXiv preprint (arXiv:2305.14992) in 2023.
刘博、蒋 York、张翔等人的文章《LLM+P:增强大型语言模型具备最优规划能力》在《计算智能与应用》期刊上发表。
Author names Dagan G, Keller F, and Lascarides A effectively present the concept of dynamic planning using an LLM in their arXiv preprint titled 'Dynamic planning with an LLM,' published in 2023.
Yao S et al. presented React at the Twelfth International Learning Representations Conference in 2023.
Song C H et al., LLM-based planner: few-shot grounded reasoning for embodied systems utilizing large language models. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023, 2998–3009
Huang W et al., 2022. Personalized introspection: Personalized reasoning in a embodied framework using language models. arXiv preprint arXiv:2207.05608
A team comprising Madaan A and his co-authors Tandon N and Gupta P introduced the concept of Self-Refining: an iterative process involving self-feedback in the journal Advances in Neural Information Processing Systems for the year 2024 volume 36.
The authors conducted a Self-checking procedure to employ their individual step-by-step reasoning processes through the use of large language models (LLMs) in a zero-shot manner.
Chen P L, Chang C S. Investigating the opportunities that ChatGPT presents as a collaborative tool. arXiv preprint arXiv:2308.01552, 2023
Chen Z et al. introduced an innovative approach for enhancing chat-based large language models through tool-assisted chain-of-thought reasoning and enhanced knowledge retrieval mechanisms in natural language processing applications.
该文介绍了一种基于浏览器辅助的人工反馈的问答系统:WebGPT(该文编号为arXiv预印本 arXIV: )
67. Ruan J\textsuperscript{,#}, Chen Y\textsuperscript{,#}, Zhang B\textsuperscript{,#}, Xu Z\textsuperscript{,#}, Bao T\textsuperscript{,#}, Du G\textsuperscript{,#}, Shi S\textsuperscript{,#}, Mao H\textsuperscript{,#}, Zeng X\textsuperscript{,#}, Zhao R\textsuperscript{,#}. TPTU: A framework for task planning and tool utilization in AI agents leveraging large language models. arXiv:2308.03427;发布于 2023
68. Patil S G, Zhang T, Wang X, Gonzalez J E. Gorilla platform: A massive language model interacting with a vast array of APIs. Published as an arXiv preprint on the arXiv platform under the identifier arXiv:2305.15334 in 2023
69. Li M et al., An Apibank benchmark for tool-assisted language models. arXiv preprint arXiv:2304.08244, 2023
Song Y, Xiong W, Li S (corresponding author), Tian Y, Li C, Wang K. Corresponding author: Li S. RestGPT: Connecting large language models to real-world applications through a RESTful API approach. arXiv preprint (arXiv: 2306.06624); 2023
Liang Y et al. (2024). Taskmatrix.ai: Efficiently managing task workflows by integrating underlying AI systems through the integration of thousands of APIs. Intelligent Computing, 3: 0063
72. Karpas et al., Mrkl systems present a modular neuro-symbolic framework that unites large language models with external knowledge sources and discrete reasoning capabilities. This is exemplified in their arXiv preprint (arXiv:2205.00445), published in 2022
73. Ge Yanming\ , Hua Weijie\ , Mei Kai\ , Tan Jian\ , Xu Shouhong\ , Li Zhenghe\ , Zhang Yong and others. Openagi: When Large Language Models Interact with Domain Experts. Advances in Neural Information Processing Systems\ , 2024\ , 36
74. Surís D, Menon S, Vondrick C.. Vipergpt!: 通过Python执行实现视觉推理.. arXiv预印本 arXiv:2303.!.08128,, 2023
Bran. A. M., Cox S., White. A. D., and Schwaller P. enhanced large-language models by integrating chemistry tools, as noted in their arXiv preprint (arXiv:2304.05376), published in 2023
76. Yang Z et al., developed the Mm-react framework to facilitate multimodal reasoning and action processes by leveraging ChatGPT as an effective tool. This innovative approach was published in the arXiv preprint repository under the identifier arXiv:2303.11381 in 2023
77. Gao C\textsuperscript{1}, Lan X\textsuperscript{1}, Lu Z\textsuperscript{1}, Mao J\textsuperscript{1}, Piao J\textsuperscript{1}, Wang H\textsuperscript{1}, Jin D\textsuperscript{2}, Li Y\textsuperscript{1}. S3: A social network simulation system utilizing large language models-driven agents. arXiv preprint, arXiv:2307.14984, 2023
78. Ahn M et al. Rather than say what I claim...
Park J S et al. developed Social simulation frameworks to generate mockups for social computing systems. In: Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology. 2022, 1–18
Li G et al., Camel: Communicative agents in exploring the mind of a large-scale language model society. arXiv preprint arXiv:2303.17760, 2023
刘睿等人的研究团队在《训练社会导向的语言模型》一文中提出了一种新的方法,在模拟人类社会中进行了实验验证
Chen L et al. Intuition-based advice: Using large language models for contextual decision-making strategies. arXiv preprint arXiv:2305.11598, 2023
Liu Hao, Sferrazza Chiara, Abbeel Pieter. The chain of hindsight ensures that language models are aligned with feedback. Proceedings of the Twelfth International Conference on Learning Representations, 2023.
Yao S et al. introduced Webshop as a system designed to aim for providing scalable web interaction capabilities with grounded language agents. This study was presented in the Advances in Neural Information Processing Systems conference in 2022, volume 35, pages 20744–20757
86. Researchers such as Dan Y., Lei Z., Gu Y., Li Y., Yin J., Lin J., Ye L., Tie Z., Zhou Y., Wang Y., and others developed an intelligent educational communication system (IECS) based on a large-scale language model. This open-access preprint was published in the journal arXiv under the reference number arXiv:2308.02773 in 2023.
87. Lin B Y et al., Swiftsage: A generative model incorporating both fast-and-slow thinking mechanisms for complex interactive tasks. Advances in Neural Information Processing Systems, 2024, 36
Evans J S B and Stanovich K E. Two-process theories of higher cognitive functions: Contributing to the ongoing discussion. Psychological Science, 2013, 8(3): 223–241
Ref. [Deng X et al.] introduced Mind2web as a comprehensive intelligent agent designed to operate across diverse web environments within the Advances in Neural Information Processing Systems framework. Year: 2024; Pages: 36.
Sun R, Arik S O, Nakhost H, Dai H, Sinha R, Yin P, Pfister T. Sql-palm: Improved large language model adaptation for text-to-sql. arXiv preprint arXiv:2306.00739, 2023
Sun R et al. (2023). "Sql-palm: Improved large language model adaptation for text-to-sql". arXiv preprint arXiv:2306.00739
Yao Wei、Heincke S、Niebles JC、Liu Zhifeng、Feng Yong、Xue Liang(Liannan)、Murthy R、Chen Z、Zhang Jie(Jie)、Arpit D、Xu Ru(Ru)、Mui P、Wang Huan(Huan)、Xiong Cong(Cong)、Savarese S. 董 retropredictor:基于策略优化的大语言模型回顾性分析
Shi Y., Gu H., Zhang P., Zhao H., Liu T., Li D., Gu N. Such as! recsys-assistant-human: The human-central recommendation framework with large language models was published as a preprint on arXiv:2308.09904 in 2023.
93. Mandi Z, Jain S, Song S.. Roco: dialectical multirobot cooperation in large language models.. arXiv preprint arXiv:2307.04738., 2023
Zhang C et al.提出了一种名为"Prefer"的系统,在进行提示集成学习时采用了反馈-反思-精炼策略。该系统通过...模型实现了高效的学习效果。
研究者提出了一种方法来提升语言模型的事实性和推理能力
Yang Z et al., Appagent: Multimodal agents as smartphone users revisited. Preprint on arXIV:2312.13771, 2023
97. Madaan A et al. Memory-assisted prompt editing for enhancing GPT-3 performance post-deployment. Published in the proceedings of the 2023 conference on empirical methods in natural language processing. 2022
98. Colas C, Teodorescu L, Oudeyer P\ Y, Yuan X, Côté M A\ period. Improving self-sufficient agents through integrating large language models\ period. arXiv preprint arXiv:2305\ perioddot12487\ comma\ 2023
Nascimento N, Alencar P, Cowan D. 自适应的大规模语言模型(LLM)基于多智能体系统. 在IEEE国际自组织计算与自排序系统 companion会议论文集(ACSOS-C)中出版于2023年. 卷号-, 第104至109页
探讨是否存在语言模型能否教导较弱代理体的可能性?教师提供的解释是否有助于学生利用理论思维来进行学习?
101. Zhuge M et al., exploring 'Mindstorming' in societies based on natural languages. arXiv preprint arXiv:2305.17066, 2023
Aher G V, Arriaga R I, Kalai A T. By employing large language models to perform model simulation of multiple humans and imitate human subject studies, they presented their findings at the International Conference on Machine Learning in 2023, covering pages 337–371.
103. Akata E et al., conducted research on repetitive games using large language models. Their work appeared as an arXiv preprint with the identifier arXiv:2305.16867 in 2023.
Ma Z, Mei Y, Su Z. Recognizing the advantages and obstacles of employing large language models in conversational support for mental health. In: AMIA Annual Symposium Proceedings. 2023, 1105
105. Ziems C, Held W, Shaikh O, Chen J, Zhang Z, Yang D. Are large language models transforming computational social science? arXiv preprint arXiv:2305.03514, 2023
106. Horton J J. Large language models can be modeled as simulated economic agents; by analyzing the behavior of Homo silcus, what insights can we draw about their potential applications in economic theory? Technical report, National Bureau of Economic Research, 2023
107. Li et al., Is the individual engaged in a masquerade? Investigating both the behavioral characteristics and practical implications of large language model-driven social bots in online social networks, arXiv preprint arXiv:2307.10337, 2023
108. Li C, Su X, Fan C, Han H, Xue C, Zheng C. Assessing the influence of big language models on collective opinion dynamics. arXiv preprint arXiv:2308.03313, 2023
109. Kovaˇc G, Portelas R, Dominey P F, Oudeyer P Y. the program of social AI: provides insights into artificial socio-cultural agents through developmental psychological research. arXiv preprint arXiv:2307.07871, 2023
All authors including Williams R, Hosseinichimeh N, Majumdar A, and Ghaffarzadegan N conducted epidemic modeling using generative agents. This study was published as a preprint on arXIV under the reference number arXIV:2307.04986 in 2023.
Jinxin Scholar, Jiabao Zhao, Yilei Wang, Xingjiao Wang, Jiawen Li, Liang Hong. 可配置的一般多智能体交互框架. 在预印本上发表于arXiv组织:arXiv:2308.12503(2023年)
Cui J et al., ChatLaw: An open-source large language model for law with integrated external knowledgebases. arXiv preprint, arXiv:2306.16092, 2023
H. Hamilton's blind judgment: Agent-based supreme court modeling using GPT is now available as an arXiv preprint (arXiv:2301.05327), published in 2023.
114. Bail C A. Can generative ai improve social science? 2023
Boiko D A, MacKnight R, Gomes G. Emerging self-driven scientific research capabilities of big language models. arXiv preprint arXiv:2304.05332, 2023
Chatmof: An intelligent autonomous system for forecasting and creating metal-organic frameworks. arXIV preprint arXIV:2308.01423, 2023
117. Swan M\textsuperscript{d}, Kido T\textsuperscript{d}, Roland E\textsuperscript{d}, Santos R.P.d.\xspace Math agents: Computational frameworks\textsuperscript{d}, mathematical embeddings\textsuperscript{d}, and genomics. arXiv preprint \textit{arXiv}: 2307.02502\xspace,\ 2023
A novel neural network architecture developed by Drori et al. employs advanced techniques such as program synthesis and few-shot learning to solve complex university-level mathematical problems with precision and reasoning akin to human capability. This groundbreaking research was published in the prestigious Proceedings of the National Academy of Sciences in 2022.
系统性评估专门用于代码理解的高级语言模型
Liffiton M, Sheese B E, Savelka J, Denny P. Codehelp: Deploying large language models with guardrails to provide scalable support in programming classes. In proceedings of the 23rd Koli Calling International Conference on Computing Education Research. 2023, 1–11
Matelsky J K等. 一种强大的语言模型辅助教育工具用于提供反馈给开放性回答. arXiv预印本arXiv:2308.02439, 2023
Grossmann et al. explore how artificial intelligence has evolved in the field of social science research. This groundbreaking study was published in Science in 2023, Volume 380, Issue 6650, on pages 1108–1109.
Z. He, H. Wu, X. Zhang, X. Yao, S. Zheng, H. Zheng, B. Yu. Chateda: A powerful language model-driven self-driven system for eda. In: Proceedings of the 5th ACM/IEEE Workshop on Machine Learning for CAD (MLCAD), held in conjunction with the ACM/IEEE Design Automation Conference (DAC) in 2023. pp. 1–6
124. Huang X, Lian J, Lei Y, Yao J, Lian D, Xie X.* Recommender AI agent: Incorporating advanced language models into interactive recommendation systems.* arXiv preprint arXiv:2308.\textbackslash{}textbackslash{}textbackslash{}textbackslash{}textbackslash{}textbackslash{}textbackslash{}textbackslash{}arXiv:2308\textbackslash{}.16505,\textbackslash{}, 2023
125. Deng Gang, Liu Yang, Mayoral-Vilches V, Liu Peng, Li Yan, Xu Yao, Zhang Tian, Liu Yang, Pinzger Mario, Rass Steve. Pentestgpt: A llm-empowered automatic penetration testing tool. arXiv preprint arXiv:2308.06782,\ 2023
126. al. e S. Smolmodels.\ GitHub - smol-ai/developer: innovative AI-powered developers can integrate this library into their applications!, https://smol-ai.github.io/developer 2023年
127. al. e M U. DemoGPT. GitHub - melih-unsal/DemoGPT: Create 🦜️🔗 LangChain apps by just using prompts🌟 Star to support our work! | 仅凭一句即可搭建LangChain应用程式;星号表示对我们的工作的支持!, 2023
128. al. e A O. GPT engineer.\ [GitHub - gpt-engineer-org/gpt-engineer: Specify what you want it to build, the AI asks for clarification, and then builds it.](https://github.com/AntonOsika/gpt-engineer "GitHub - gpt-engineer-org/gpt-engineer: Specify what you want it to build, the AI asks for clarification, and then builds it."), 2023
129. Xia Y#, Shenoy M#, Jazdi N#, Weyrich M#. Aiming towards the creation of an autonomous system#, the study focuses on a flexible and modular production framework that is equipped with advanced large language model agents#. arXiv preprint arXiv:2304#.14721#, 2023
130. Ogundare O, Madasu S, Wiggins N. Industrial engineering utilizing large language models: A case study examining ChatGPT's effectiveness in addressing oil and gas challenges. arXiv preprint arXiv:2304.14354, 2023
131. 张C、杨K、胡S等. 摘要内容:主动开发积极协作的人工智能系统:利用大规模语言模型的方法.
arXiv预印本arXiv:2308.11339,
202
Facilitating intelligent communication between agents and LLMs: A machine learning-based approach.
Wu Y et al., along with Min S Y and others such as Bisk Y have contributed significantly to the understanding of language models as effective mentors for embodied systems. This research was published in an arXiv preprint under the identifier arXiv:2305.02412 in 2023.
Dr. Zhang et al. demonstrate that large language models belong to the category of semiparametric reinforcement learning-based intelligent agents. This research was published in the journal Advances in Neural Information Processing Systems in the year 2024, volume number 36
135. Di Palo N, Byravan A, Hasenclever L, Wulfmeier M, Heess N, Riedmiller M. Aiming to develop a unified intelligent agent powered by foundation models. In: Workshop on Reincarnating Reinforcement Learning at ICLR 2023. 2023
136. Xiang J\textsuperscript{1}, Tao T\textsuperscript{2}, Gu Y\textsuperscript{3}, Shu T\textsuperscript{4}, Wang Z\textsuperscript{5}, Yang Z\textsuperscript{6}, Hu Z\textsuperscript{7}. Language models intersect with world models: Embodied experiences significantly improve the capabilities of language models. Advances in neural information processing systems highlight cutting-edge advancements and innovations in the field of artificial intelligence and machine learning. 2024, 36
137. Wu Jun et al.\ Tidybot!: Customized robot assistance powered by advanced language systems.\ arXiv preprint arXiv:2305.\05658,\ 2023
138. Mehta N, Teruel M, Sanz P F, Deng X, Awadallah A H, Kiseleva J. Improving the understanding of grounded language in a collaborative setting by engaging with artificial agents through assistive feedback. arXiv preprint arXiv:2304.10750, 2023
139. Li H, Hao Y, Zhai Y, Qian Z. As a hitchhiker's guide to program analysis: A trip through the landscape of big language models. arXiv preprint arXiv:2308.00245, 2023
140.Dasgupta I, Kaeser-Chen C, Marino K, Ahuja A, Babayan S, Hill F, Fergus R. Working with language models in the realm of embodied reasoning. arXiv preprint arXiv:2302.00763, 2023
141. Zhou W, Peng X, Riedl M. 对话塑造:通过NPC交互来增强智能体。arXiv预印本arXiv:2307.15833, 2023
142. Nottingham K, Ammanabrolu P, Suhr A, Choi Y, Hajishirzi H, Singh S, Fox R.\ The pixelated sheep are imagined by embodied agents in the Workshop on Reincarnating Reinforcement Learning held at ICLR 2023 (Year).
Wu Z et al., proposed an embodied task planning method based on large language models. This study was presented as an arXiv preprint under the identifier arXiv:2307.01848 in 2023.
144. al. e R. AgentGPT.[GitHub - reworkd/AgentGPT: 🤖 Assemble, configure, or deploy autonomous AI agents within your web interface].](https://github.com/reworkd/AgentGPT "GitHub - reworkd/AgentGPT: 🤖 Assemble, configure, or deploy autonomous AI agents within your web interface"), 2023
145. al-Eric. [GitHub - eumemic/ai-legion: An LLM-powered autonomous agent platform; posted in 2023]
al. e J X. Agixt.\ [GitHub - Josh-XT/AGiXT: AGiXT functions as an advanced AI Agent Automation Platform designed to efficiently coordinate instruction management and complex task execution across various AI platforms.\ Integrating adaptive memory capabilities with intelligent automation strategies, AGiXT provides robust solutions for managing intricate workflows within different AI ecosystems.\ Its versatile architecture supports seamless integration with diverse plugin systems to enhance operational efficiency.\ The platform's comprehensive approach ensures optimal performance in handling sophisticated computational tasks., 2023
编号147的al.e.C.Xlang项目(GitHub上的xlang-ai开源项目:OpenAgents...),发布于2023年
第148位 al.e.N. Babyagi, yoheinakajima (Yohei Nakajima) · GitHub, 2023
149. Chase H. langchain. 🦜️🔗 LangChain, 2023
150. al. e. A. M.\ WorkGPT.GitHub - team-openpm/workgpt: An AI assistant framework for invoking APIs, 2023
farizrahman4u团队开发的LoopGPT框架采用模块化设计实现了自动生成功能并已发布至GitHub平台具体代码可访问GitHub - farizrahman4u/loopgpt: Modular Auto-GPT Framework于2023年8月1日上线
- al. e A E. GPT-researcher (https://github.com/assafelovic/gpt-researcher "GitHub - assafelovic/gpt-researcher: Utilizing GPT technology to develop an autonomous intelligent agent dedicated to conducting comprehensive online research on any specific topic"), 2023
153. Qin Y et al. . 基于基础模型的任务学习. arXiv预印本 arXiv:2304.08354, 2023
Face H., the transformation-based intelligent agent, is accessible via the link: https://huggingface.co/docs/transformers/transformation-based-intelligent-agents, last updated in 2023
155. al. e, E, Miniagi, (GitHub - muellerberndt/mini-agi: MiniAGI is a simple general-purpose autonomous entity built upon the OpenAI API, Year 2023)
156. al. e T. Superagi. [GitHub - TransformerOptimus/SuperAGI: <⚡️> 超agi - 一种专为开发者设计的开源自主AI平台框架(An open-source AI platform designed for a developer-first approach)。Empowering developers to create, maintain, and deploy useful autonomous agents efficiently and reliably.] (https://github.com/TransformerOptimus/SuperAGI "GitHub - TransformerOptimus/SuperAGI: <⚡️> 超agi - 一种专为开发者设计的开源自主AI平台框架(An open-source AI platform designed for a developer-first approach)。Empowering developers to create, maintain, and deploy useful autonomous agents efficiently and reliably."), 2023
WU Q, BANSAL G, ZHANG J, WU Y, ZHANG S, ZHU E, LI B, JIANG L, ZHANG X, WANG C. AUTOGEN: Facilitating next-gen LLM applications through a multi-agent communication framework. ARXIV PREPRINT ARXIV:2308.08155, 2023
Lee M et al. Assessing the interaction between human and language models. arXiv preprint arXiv:2212.09746, 2023.
Krishna R et al., 2022. 基于社会互动的人工智能系统能够通过与人类互动来实现学习. Proceedings of the National Academy of Sciences, 119(39): e21-15730-0-
Huang J T et al., explore whether language models are emotionally detached or compassionate through the emotionbench framework. Their research appears as an arXiv preprint (arXiv:2308.03656) in 2023.
序号为161的文献
162. Kang S, Yoon J, Yoo S. Large language models serve as few-shot based testers: Investigating llm-based general bug reproduction. In: 2023 IEEE/ACM 45th International Conference on Software Engineering (ICSE). 2023, 2312–2323
Jalil S, Rafi S, LaToza T D, Moran K, Lam W. ChatGPT and software testing education: Opportunities and challenges. In: 2023 IEEE International Conference on Software Testing, Verification and Validation Workshops (ICSTW). 2023, 4130–4137
Chen A等人的研究表明,在大型语言模型(LLMs)的多步推理过程中存在两个关于自洽性的失败
Choi M et al. What do LLMs understand about social knowledge? Assessing the interactivity of large language models through a socket benchmark. arXiv preprint arXiv:2305.14938, 2023
Zhang D et al. introduced Mobile-Environment as a platform and benchmark for evaluating interactive agents within the large language model (LLM) era.
Chalamalasetti K et al. Clembench: By employing game-based interaction techniques, the study assesses the performance of enhanced language models designed for conversational interfaces. arXiv preprint arXiv:2305.13455, 2023
168. Lin J, Tomlin N, Andreas J, Eisner J. 基于决策导向的人工智能交流. arXIV预印本 arXIV:20076, 2023
Aim to develop self-operating test automation tools through chat-based large language models. Feldt R, Kang S, Yoon J, Yoo S. arXIV preprint arXIV:2306.05152, 2023
Li et al.\ introduced Tachikuma as a comprehensive framework for analyzing intricate interactions involving multi-character entities and novel objects through advanced language models.
171. Zhou S\ , Xu F F\ , Zhu H\ , Zhou X\ , Lo R\ , Sridhar A\ , Cheng X\ , Bisk Y\ , Fried D\ , Alon U and others. An authentic web-based platform designed to facilitate the development of autonomous systems was introduced as Webarena in this study. a preprint submission on arXiv with the identifier arXiv:2307.13854 published in 2023.
172. Liu X,, Yu H,, Zhang H,, Xu Y,, Lei X,, Lai H,, Gu Y,, Ding H,, Men K,, Yang K.\ others . AgentBench: Assessing LLMs as agents. arXiv preprint arXiv:2308.03688\,\ 2023
173. Liu Z, Yao W, Zhang J, Xue L, Heinecke S, Murthy R, Feng Y, Chen Z, Niebles J C, Arpit D,& others. Bolaa: Establishing and coordinating LLM-augmented autonomous agents. arXiv preprint arXiv:2308.05960,,\ 2023
Xu B 等人. Gentopia.ai: 一个协作平台用于工具增强的大语言模型. 在: 《Empirical Methods in Natural Language Processing: System Demonstrations》一书的第2023年会议论文集. 2023年, 第237-245页
A comparative evaluation of chatbots driven by LLMs: a study on approaches and indicators. arXiv preprint arXIV:2308.04624, 2023
176. Zhao W X et al., A systematic analysis of large language models. arXiv preprint arXiv:2303.18223, Year 2023
177. Yang J, Jin H, Tang R, Han X, Feng Q, Jiang H, Zhong S, Yin B, Hu X. Exploiting the capacity of llms in practical applications: A comprehensive survey of chatGPT and its subsequent advancements. ACM Transactions on Knowledge Discovery from Data, 2023
Wang Y et al., Conducting a survey on aligning large language models with human. A study on this topic is presented in this paper.
Huang and Chang have conducted a comprehensive survey on the reasoning mechanisms within big language models. This study was published as an arXiv preprint under the title "Towards Reasoning in Large Language Models" in 2022.
Mialon G等(包括Dessì R、Lomeli M等)合著的一篇题为《系统性分析增广语言模型》的文章已发布于《增广语言模型:一项系统性研究》一文中
Number 181. Chang Y et al., conducted a comprehensive survey on the evaluation of large language models. Their study was published in the prestigious ACM Transactions on Intelligent Systems and Technology journal in 2023.
182. Chang T A and Bergen B K. An in-depth exploration of the behavior of language models: a thorough examination of their operational dynamics. Computational Linguistics, 2024, 1–58
183. Li et al.\ EmotionPrompt:\ A Psychological Approach to Enhancing Large Language Models Through Emotional Stimulation.\ arXIV e-print,\ 2023,\ arXIV–2307
- Zhuo T Y 等(或Zhuo T Y, Li Z 等),在《arXiv预印本》上发表的文章《On robustness of prompt-based semantic parsing with large pre-trained language model: An empirical study on codex》中进行了实证研究。
Investigating the stability of dialogue interaction modeling in conversation-based question retrieval: conducting a detailed examination and introducing an innovative prompt-driven approach.
Ji Z及其团队对自然语言生成中的幻觉情况进行综述,在《ACM Computing Surveys》期刊上发布的研究综述中于2023年发布在第55卷第12期的期刊上,并详细讨论了相关技术及应用前景。
