Advertisement

Large Multimodal Agents: A Survey大模型综述论文概要总结

阅读量:

港大译 整合所有GPT代码Large Multimodal Agents: A Survey

首先,我们阐述了开发lma所涉及的关键组成要素,并将其研究领域划分为四个互为补充的研究方向。随后,在深入总结构建协作体系的方法论基础上,提出了增强整体效能的具体策略。最后,在系统性分析的基础上,提出了新的评估机制框架

首先,在论文中阐述了其主要模块(即第2节),并构建了针对现有研究的新分类体系(第3节),并对现有的协作架构展开了深入探讨(第4节)。就评估问题而言,在第5节中对现有LMA绩效评价框架的综述研究进行了系统性地归纳分析。接着,在应用部分详细阐述了多模态代理及其相关任务的实际应用场景(第6节)

四个核心要素

感知、规划、行动和记忆

感知、规划、动作和记忆

感知:收集、处理和解释环境信息。

规划是指对当前任务进行细致地分析,并制定相应的策略和步骤。这些内容包括四个主要方面:模型类别(分为开源与闭源),格式化流程、检查与反思机制以及规划类型(静态规划和动态调整)。

动作:分三类(TEV)、两种类型(提示与学习)

记忆:(长期、短期)

LMA分类法

类型I: 无长期记忆的封闭源模型充当规划角色(视觉问答、图像编辑以及视觉定位)

类型II:没有长期记忆的微调LLMs作为规划者

类型III:具有间接长期记忆的规划者。

类型IV:具有本地长期记忆的规划者

多代理协作

探索型代理主要负责对目标应用程序界面进行全面离线分析,并创建基于UI元素的潜在工作流程清单后将其保存于程序内存中。当系统进入在线处理模式时 选择型代理将依据用户的指令以及当前显示状态来识别需要执行的具体工作流程项。推理型代理则会进一步解析所选工作流程项所需的基础操作步骤并借助LLM工具来完成这些操作步骤;与此同时 回忆型代理在遇到与先前学习内容高度相似的任务请求时可以直接调用并执行从内存中预存的相关工作流程项及其对应的操作步骤。

评估

主观(多样性、用户友好性、可扩展性、价值和安全性)

客观(指标、基准)

应用

总结

LMAs与人机交互领域的交汇代表着未来应用的一个重要方向

全部评论 (0)

还没有任何评论哟~