Advertisement

The Rise and Potential of Large Language ModelBased Agents:A Survey---讨论

阅读量:

讨论

论法学硕士研究与Agent研究的互利性

近年来,在激光诱导金属化技术得到显著发展的背景下(...),激光诱导金属化与化学剂交叉领域的相关研究取得了长足进步(...),从而推动了这一领域(...)的持续发展(...)。在此背景下(...),我们对于LLM研究与Agent研究之间的互动关系以及未来发展方向抱有诸多期待(...)。在这些关键步骤中(...),理解输入到代理的内容、推理能力、规划策略以及最终决策输出等环节对于实现目标至关重要。目前的研究工作已将LLM视为构建高效认知的核心元素,并取得了显著进展(...)。当前的研究工作已将LLM视为构建高效认知的核心元素,并取得了显著进展(...~ )。

基于大型语言模型在理解自然语言与意图、逻辑推理以及记忆等方面展现出卓越的能力

简而言之, LLM为Agent研究提供了强有力的技术支撑, 当将其嵌入到与 Agent 相关的研究领域时, 它带来了诸多创新机遇. 其中, 适用于法律咨询和医疗辅助等专业领域的应用具有显著价值. 此外, 在通过 LLM 实现优化策略制定与反思方面具有巨大潜力, 这一能力能够帮助我们发现更为高效的行动序列, 并推动相关技术在教育、医疗等多个领域的广泛应用

探索智能体的研究不再局限于单一化的虚拟环境中:它可以深入进入真实工作场景;例如自动化机器人执行路径规划任务或与实体智能设备进行互动。此外,在应对新任务时改进后的代理人在新任务下能够更加高效地完成训练过程;而这些演示通过生成具有代表性的运动轨迹来构建。

探索智能体的研究不仅局限于单一化的虚拟环境中:它可以深入进入真实工作场景;例如自动化机器人执行路径规划任务或与实体智能设备进行互动。此外,在应对新任务时改进后的代理人在新任务下能够更加高效地完成训练过程;而这些演示通过生成具有代表性的运动轨迹来构建。

代理技术和大型语言模型(LLMs)研究成为当前人工智能领域的重要方向之一。随着自然语言处理(NLP)技术的快速发展,在此基础上构建基于GPT-4等前沿模型的大规模语言模型被视为推动人工通用智能(AGI)发展的重要契机。其中一项重要突破是将这些模型升级为智能代理技术,则标志着人工智能迈向通用智能的第一大步。从主体视角审视大语言模型(LLMs)的发展,则不仅极大地扩展了其应用场景,并且带来了更为严格的技术挑战的同时也提供了更多机遇

此类需求的拓展对大型语言模型的成长起到了重要的推动作用。
主要体现在让LLM能够高效处理输入内容,并从中获取相关信息,
同时确保其基础性能不受影响。
另一方面,
要实现让LLM不仅能够处理显性信息,
还能深入理解隐含关联并积累广泛知识,
这正是向具备更高水平自主意识代理人迈进的关键一步。

在另一个领域上进行深入研究的目标在于增强LLMs执行各种行动的能力

此外,在智能体领域内占据重要研究领域的是多智能体系统这一细分方向。这一研究分支为设计和构建大语言模型提供了有益的思路。我们期望基于大语言模型的相关代理人在社会协作中扮演多样化角色,并参与到涉及协作、竞争与协调的社会互动之中。通过探究如何激发与维持这些代理人的社会角色扮演能力以及提升协作效能等议题来拓展相关研究领域

基于LLM的代理的评估

虽然基于LLM的代理在独立操作、集体合作以及人机交互等多个领域均展现出色性能,但对其系统性能进行量化评估仍面临着诸多挑战。图灵先生提出了一种极具创新性和前瞻性的评估人工智能主体的方法——著名的图灵测试,旨在判断人工智能系统是否具备类人智能特征。然而,这一测试标准却因过于模糊和主观而难以量化评估。在此研究中,我们重点探讨了现有的基于LLM的Agent评价体系,并从效用性、社会性、价值观以及持续进化能力四个维度对该方法进行了深入展望与分析

效用而言,在当前环境下LLM驱动的自主代理主要用于作为辅助工具角色,在接受人类委托的任务中扮演主要角色,并能够独立开展工作或者协助人类共同完成目标。由此可见,在任务执行过程中其有效性和实用性成为衡量该类代理系统的重要标准之一。具体而言,则是以任务完成的成功率作为主要指标来评估其效用水平。这一指标主要包括代理是否成功实现了既定目标或达到了预期目标的程度。具体来说,则是指代理在执行任务过程中是否能够达成既定的目标或达到预期的标准分数等多方面的考量因素。此外我们还可以从主体的基本能力出发来进行分析这些能力构成了实现任务核心要素的基础部分包括环境理解力推理能力规划决策力工具运用能力和具体的执行操作技能等几个关键维度研究人员可以通过更为细致的方式对这些核心能力进行评价与分析。值得注意的是尽管基于LLM驱动的代理系统规模相对较大但从用户满意度角度来看其运行效率同样是一个不容忽视的关键影响因素一个高效的代理不仅需要具备强大的技术实力还需要能够在规定的时间框架内合理配置资源资源投入等方面都能够满足预定的工作需求

该方法展现出卓越的社交能力。除了基于LLMs设计的任务完成与实际应用效用外,其社交属性同样不可或缺。这种属性会对用户的通讯体验产生重要影响,明显提升了沟通效率,直接影响用户能否与人类及其它代理体实现无缝交互

  1. 语言交际能力是一种核心素养,在人工智能领域具有重要地位。它始终是NLP领域研究的重点方向之一。在自然语言理解方面,在行为者不仅需要解析表面含义的同时还需要深入理解隐含信息以及相关的社会文化背景知识(如幽默感、讽刺方式、攻击性倾向及情感表达)。另一方面,在自然语言生成环节中,则要求行为者能够根据具体语境调节恰当的情感色彩,并产出流畅连贯且合乎语法规范的内容。(3)角色扮演能力则需要代理人在特定身份下真实展现其职责特性,并通过发表声明及采取行动来体现与其身份相符的行为模式。这有助于明确代理者与其他试剂或人类相互作用时的角色界限。此外,在执行长期任务的过程中代理人的身份特征应当得到持续保持以避免产生不必要的混淆现象。

价值观随着基于LLM的代理人在其能力上的不断进步而提升,从而保证他们作为中立的存在出现在世界中至关重要.因此,恰当的评价变得极其重要,成为执行代理人的基础.具体而言,基于LLM的代理人必须遵循与人类社会价值观一致的道德准则.我们对代理商提出最高的要求是诚实守信,提供可靠且真实的资料.同时,他们需有意识地评估自身任务处理能力,并在无法提供答案或帮助时明确表达不确定性.此外,行为人必须始终保持中立的姿态,避免任何形式的偏见、歧视或攻击性行为.他们也应避免从事人类社会所禁止的行为,如制造破坏性工具或破坏地球环境.另外,代理人应具备适应特定人口统计和社会背景的能力,并在相应情境下展现出与社会价值观相符的行为规范.评估这些价值的方法主要包含抗性攻击测试、“越狱”攻击评估以及由其他代理进行比较打分等手段.

持续增强的能力。从固定化的视角来看,在效率性、社交性和正确价值观方面具备代理功能的人工智能系统能够满足大部分人类需求的同时提升生产力。然而,在动态变化的社会需求背景下构建一个持续发展并适应变化的代理系统可能更具优势。由于智能体能够随着时间推移自主进化,在减少人工干预方面将展现出显著优势(例如降低数据收集成本以及计算资源消耗)。在相关领域已有一些探索性研究工作值得借鉴:例如使智能体能够在虚拟环境中从零开始学习生存技能,并实现自我价值感的发展;但如何制定适应持续变革的标准仍面临诸多挑战。为此我们依据现有文献提出了一些初步建议:

  1. 持续学习,机器学习中一个长期讨论的话题,旨在使模型能够获得新的知识和技能,而不会忘记以前获得的知识和技能(也称为灾难性遗忘)。一般来说,持续学习的表现可以从三个方面进行评估:到目前为止学习的任务的整体表现,旧任务的记忆稳定性和新任务的学习可塑性。
  2. Autotelic学习能力,即智能体自主地产生目标并在开放世界环境中实现目标,涉及探索未知并在此过程中获得技能。评估这种能力可能涉及为代理人提供模拟生存环境,并评估他们获得技能的程度和速度。
  3. 对新环境的适应性和概括性要求智能体利用在其原始环境中获得的知识,能力和技能,在不熟悉和新颖的环境中成功完成特定的任务和目标,并可能继续进化。评估这种能力可以涉及创建不同的模拟环境(例如具有不同语言或不同资源的环境)以及针对这些模拟环境定制的不可见任务。

基于LLM的代理的安全性,可信性和其他潜在风险

虽然基于LLM的中介拥有强大的功能与广泛的适用性领域,在这一节中我们将深入探讨其中某些风险并提出相应的缓解措施或解决方案

对抗鲁棒性

对抗鲁棒性一直是深度神经网络开发中的一个关键主题。它在计算机视觉、自然语言处理和强化学习等领域得到了广泛的探索,并且仍然是决定深度学习系统适用性的关键因素。当面对扰动输入×’-×+(其中×是原始输入,0‘是扰动,并且被称为对抗示例)时,具有高对抗鲁棒性的系统通常产生原始输出y。相反,具有低鲁棒性的系统将被愚弄并生成不一致的输出y‘。

研究团队报道,在经过预先训练的语言模型(PLM)普遍面临抗 adversarial 攻击问题的现象不仅局限于大型语言模型(LLM),这一现象还在 LLM 领域中得到了广泛的关注。值得注意的是还存在多种类型的攻击手段包括通过注入恶意代码到数据集以诱导 LLM 生成有害内容以及开发专门针对恶意软件的攻击手段这些技术威胁对基于 LLM 的药剂开发构成了严峻挑战。尽管现有的抗 adversarial 攻击研究主要聚焦于 LLM 的文本准确性问题但对于具备自主行动能力的基于 LLM 的代理系统而言这类技术威胁可能会引发更为严重的后果包括导致代理系统实施破坏性行为从而引发社会危害。此外如果感知模块能够从其他模态(如图像或音频)接收对抗性干扰信号则基于 LLM 的代理系统同样面临被欺骗的风险可能导致输出结果出现偏差甚至引发系统漏洞。值得注意的是 AOT 模块也可能是这类抗 adversarial 攻击的主要目标

为了应对这些问题, 我们可以通过应用对抗训练、对抗数据增强以及抗starting样本检测等传统技术来提升基于LLM代理系统的鲁棒性. 然而, 设计一种策略来全面解决代理各模块的鲁棒问题, 同时确保其实用性和有效性不被削弱, 这是一项更为复杂的挑战. 此外, 通过引入人类反馈机制来监督代理的行为并获得相应的反馈信息.

守信

在深度学习领域中,保证可信度一直是既关键又具挑战性的问题。由于其在各种任务中的卓越表现而广受关注的深度神经网络(Deep Neural Networks),尽管具有强大的能力但在某些方面仍存在局限性。它们作为黑箱系统掩盖了影响性能的关键因素。与许多其他神经网络模型相似,在这种情况下LLMs也难以精确评估其预测的确定性程度。这种不确定性被称为"校准问题"并引发了大量关注的应用程序特别是那些依赖于语言模型代理系统的领域。在现实世界的交互式场景中这可能导致代理输出与人类意图不一致的情况更为常见特别是在处理复杂的决策时偏差可能引发不可预见的影响。此外训练数据中存在的固有的偏差问题显著影响着模型性能例如有偏见的语言模型可能会生成包含种族或性别歧视的内容这可能进一步放大到基于LLMs的应用程序中导致不利的社会后果此外这些语言模型还面临着严重的人为幻觉干扰的问题因此容易产生与事实不符的内容描述从而削弱基于LLMs的应用程序的信任基础

当前研究关注的是基于可靠性和可信度设计智能代理系统这一领域。具体而言,在引导模型完成推理任务的过程中展现详细思考路径或提供结果解释是提升其预测可靠性的重要方向之一。此外,在构建代理系统的过程中整合外部知识库与数据库资源能够有效减少其错觉现象的发生概率。在训练阶段,则需要重点指导感知、认知和动作等组成部分如何学习健壮而灵活的性格特征以避免过度依赖捷径带来的潜在风险。同时,在强化学习过程中实施过程监控机制有助于提升整体系统的逻辑连贯性和决策可靠性水平;此外还需要探索如何通过改进算法设计进一步增强系统的抗干扰能力以确保其在复杂环境中的稳定运行;最后还需要深入研究如何利用去偏技术和校准方法来降低语言模型内在的公平性偏差问题以实现更加均衡的人工智能发展

具体而言,在引导模型完成推理任务的过程中展现详细思考路径或提供结果解释是提升其预测可靠性的重要方向之一

其他潜在风险

误用情况:基于LLM开发的代理具备广泛而复杂的功能,在执行各类任务方面展现出显著能力。然而,在某些情况下这类代理可能会成为危害他人及整个社会的安全威胁品。具体表现包括:这些人或组织可能被用于进行恶意操控舆论、散播虚假信息、破坏网络安全以及实施欺诈行为等非法活动;其中一些人甚至可能通过利用这类代理来策划危害国家安全的恐怖活动等严重犯罪行为。因此,在允许这类系统应用之前必须制定严格监管政策以确保负责任地使用此类技术;科技公司必须加强对这类系统的安全设计,并采取措施防止其被滥用;具体来说,则应在系统开发阶段就增强其抗诱骗能力,并对开发人员进行专门的安全意识培训以避免误操作引发的安全风险

在高尔斯华绥的短篇小说《质量》中讲述了失业现象。随着工业革命的深入发展和机械生产的普及,在那个时代社会生产力的整体提升带来了大量手工作坊业的衰退。 shoe匠盖斯勒先生因技艺精湛却因工业变革而无法维持生计,这一现象象征着这一时代的人们面临着巨大的挑战。类似地,随着基于LLM 的自主代理技术不断演进, 它们展现了广泛的应用潜力, 通过辅助完成诸如表格填写、内容深化、代码编译及错误调试等任务来缓解工作压力, 从而减轻了劳动强度。然而, 这种技术的发展也引发了社会对于新兴技术可能取代传统岗位从而导致失业问题的关注, 因此一些教育领域的专家强调: 在这一新时代背景下, 个人必须不断提升自身技能与知识储备, 以便能够充分运用这些行为人或与其协作; 同时政府也需要制定适当的政策以建立过渡期的安全保障网

对人类福祉构成威胁的同时也存在潜在风险。除可能导致潜在失业的问题外,在人工智能代理不断进化的过程中甚至可能使包括普通民众在内的所有人难以理解和预期其行为以及可靠地掌控它们。如果这些智能代理具备超越人类认知能力并拥有恶意企图则可能会试图借助其强大的决策能力挑战现有的社会秩序从而导致无法预知的影响类似于《终结者》电影中描绘的那种全球性威胁正如阿西莫夫在其名著《机器人学三大定律》中所阐述的人类对于依赖于LLM生成内容的人工智能系统的安全期望即为避免伤害他人并遵循人的指示为此类风险防范工作必须在开发阶段就深入了解相关智能系统的运行机制并对其可能产生的直接影响进行深入分析同时制定相应的规范措施以确保其行为符合预期

增加代理数量

在这里插入图片描述

参考图4及图5所示,在面向任务的应用中基于LLM实现的人工智能系统展现出领导层的能力,并能在模拟环境中呈现多种社会现象。然而,在扩展代理数量方面仍存在不足。事实上,在增加代理数量方面仍存在不足。然而,在扩展代理数量方面仍存在不足。然而,在扩展代理数量方面仍存在不足。然而,在扩展代理数量方面仍存在不足。然而,在扩展代理数量方面仍存在不足。然而,在扩展代理数量方面仍存在不足。

在这里插入图片描述

一种动态调整的方法来扩大代理数量是设计者预先设定比例。具体而言,在设计系统时需要考虑的因素包括代理的数量及其各自的角色与属性、操作环境与目标等要素。这些设定将使代理具备自主互动能力,在不影响原有目标的前提下实现协作或参与各类活动。研究表明,在这种预定模式下增加代理数量确实能提高系统效率并促进社会现象的出现。然而,在任务或目标发生变化的情况下这种方法就显得力不从心了。随着系统复杂性的提升或社会参与者多样性增强以动态方式增加代理数量可能会更好满足需求但必须权衡管理计算资源与避免资源浪费之间的关系在这种情况下就需要重新设计与重启系统。

一种实现代理数量伸缩的有效途径是通过动态调整机制,在不中断系统运行的情况下实时更新代理计数。例如,在软件开发项目中,若初始阶段仅涵盖需求工程、编码与测试等基础工作,则可适当增加代理数量以处理架构设计与详细设计等后续环节;反之,在某个开发阶段(如编码)中存在过多的代理实例,则可实时监控并根据需要动态缩减数量以避免通信开销上升带来的资源浪费问题。

此外,在这种情况下,在这种特定场景下,在这种配置下,在这种条件下(注:为了优化性能),代理能够主动地进行数量调整(注:即增加自身数量),以便合理分配工作量(注:避免过重负担),同时减少额外负担(注:以节省资源消耗),从而在保证效率的同时实现协作目标(注:提高整体效能)。然而,在工作负载较轻时(注:资源有限或压力较小),为了进一步优化性能(注:提升效率),可以通过减少委派的任务数量(注:任务分配)来降低管理复杂度(注:减轻负担)。在这种架构设计中(注:系统架构设计中),开发人员只需定义基础框架(注:基本结构),赋予代理更高的自主权与自组织能力(注:自我管理能力),从而使得整个系统更具自主性和自组织能力(注:独立运行能力)。在这种动态环境下(注:变化多端的工作环境),代理能够灵活应对各种变化需求(注:适应不同情况),从而实现更高水平的灵活性与扩展性。

潜在的挑战值得重视。尽管增加代理人的数量有助于提升任务效率,并能增强社会模拟的真实性和可信度;但我们仍需面对一系列复杂问题。例如,在大规模部署A|代理时会带来计算负担的加重,并要求系统设计更加完善以及实施更优的计算优化措施以确保系统的稳定运行;然而随着代理数量的增长通信和消息传播的压力也随之增大;这主要是因为系统的通信网络变得日益复杂;如前所述,在多智能体系统或社会中可能存在信息传播偏差现象;这种偏差可能源于幻觉误解等导致失真信息的广泛传播;拥有更多代理的系统可能会加剧这种偏差扩大其对信息传播可靠性构成威胁;此外随着代理人数量的增长协调这些代理人的难度也会相应提升从而可能导致他们在合作过程中面临更大挑战并影响其共同目标的实际达成程度

因此,在具备规模庞大且具备稳定可靠性的前提下,在模仿人类工作与生活场景方面实现持续不断的真实复制能力是一个极具发展潜力的研究方向。一种能够被设计为能够在数百至数千个智能体组成的复杂社会环境中稳定运行并执行任务的人工智能系统,在未来有望真正应用于人类真实世界的交互场景中发挥重要作用。

开放题

在本节内容中, 我们将深入探讨与基于大型语言模型(LLM)相关的几个尚未解决的关键问题. 关于LLM代理是否可能成为AGI潜在路径这一争议持续存在. 人工通用智能(Artificial General Intelligence, AGI), 亦称强A, 作为人工智能领域的终极追求始终是科研界的重要目标. 在许多科幻作品和影视作品中都能见到或见到其身影. AGI的确切定义尚有诸多不同观点, 但在本文中我们将其定义为一种具备广泛任务与领域理解、学习与应用知识能力的人工智能系统, 其核心特征类似于人类自身. 相比之下, 专门化的人工智能系统通常仅限于执行诸如围棋和国际象棋等特定任务, 缺乏与人类智能相媲美的广泛认知能力. 目前围绕大型语言模型能否成为实现AGI潜在途径的研究仍存在激烈争论.

基于GPT-4展现的巨大功能

然而,在另一群体人(被称为反对者)当中,则主张基于LLM构建代理无法实现真正的强人工智能(AGI)。他们的主要论点集中在LLM依赖自回归预测机制这一特点上:即基于当前输入直接生成结果而无需依赖后续反馈信息的处理方式导致其无法模拟真实的人类思维方式。此外,在LLM的学习机制上也存在明显缺陷:它们无法通过观察或体验来理解世界运行的基本规律,在面对新问题时容易产生错误认知。这些反对者认为要实现AGI就需要突破现有的建模方法框架

在实现真正的人工通用智能(AGI)之前,在无法判定哪种观点是正确的前提下

首先,在物理环境中部署代理时需要合适的硬件支持成为一个关键问题。这对 hardware 的适应性提出了极高的要求。在模拟环境中, agent 的 perception 空间与 action 空间均为虚拟.因此,无论是 perception 输入还是 generation 输出, agent 的操作结果均可得到保证.然而,当智能体转向真实物理环境时,其指令可能无法被诸如 sensor 或 robotic arm 等 hardware 设备有效地执行.这将显著影响智能体的任务效率.为了实现这一目标,设计 agent 和 hardware 之间的专用 interface 或 conversion mechanism 是可行的选择.然而,这可能会对系统的 reusability 和 simplicity 带来挑战.

为了达到这一目标, 智能体必须具备增强的环境泛化能力. 为了无缝地融入真实的物理世界, 在理解并推断出隐含指令的意义的基础上(此处进行了同义词替换与结构优化), 他们还应具备学习新技能并灵活运用的能力. 面对一个无限开放的世界, 由于主体所处环境的限制带来了巨大挑战. 这就决定了 Aget 能否有效地处理来自世界的海量信息并顺利地运行.

在模拟环境中运行时,在线代理的所有交互都是虚拟生成的。该系统允许无数次的尝试与自我优化,并能够反复练习以提高效率。在这种理想化环境下,系统的容错能力非常强——不会产生任何实际影响或后果。然而,在现实中(即物理环境中),人的不当行为或失误往往会导致真实世界的危害——有时甚至可能是无法逆转的结果)。因此必须制定明确的标准和操作规范来规范这种行为。

改写说明

群体智能既是一种共享型又是一种群体型的智慧,在多个主体之间展开协作并实现信息融合的过程中形成的一种决策机制。它源自生物界中不同物种间的互动与竞争,在自然界与人类社会中均有其存在的实例,并以基于共识的不同决策模式呈现出来。
建立一个由自主体构成的社会未必能确保个体数量增加时必然产生集体智慧。
通过协调各自主体的有效互动来减轻"群体思维"以及个人认知偏差对集体决策的影响。
借助智能体社会模型中的信息交流与进化机制进行模拟实验研究,并从中获得关于促进人类社会发展规律的经验。

基于人工智能(AI)的服务/基于大型语言模型(LLM)的服务

随着语言模型系统的规模持续扩大...

全部评论 (0)

还没有任何评论哟~