Advertisement

RobotGPT:利用ChatGPT的机器人操作学习框架,三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文

阅读量:

引言
大型语言模型(LLMs)在多种领域展现出显著的应用潜力,在文本生成、翻译以及代码合成等方面展现出令人瞩目的能力。近期研究致力于将LLMs——尤其是ChatGPT——与机器人技术深度融合,在任务如零次系统规划等方面取得显著进展。然而目前LLMs在机器人技术应用领域的潜力尚未完全挖掘出来。人机交互的发展不仅受益于LLMs的进步,在自然语言交互方面也取得了重要进展。ChatGPT凭借其强大的代码生成能力和对话灵活性脱颖而出,在用户与机器人交互方面展现出独特优势。先前的研究证实了ChatGPT在无人机导航和物体操纵等任务中的有效性

近年来,在中国工程院外籍院士张建伟教授、孙富春教授以及方斌教授的指导下(下文中将环境线索转换为自然语言),开发出RobotGPT系统,并致力于探索ChatGPT在机器人操控应用中的具体应用(该系统旨在使ChatGPT能够为智能体(Agent)训练生成精确的动作代码)。该创新框架赋予机器人利用自然语言与智能体进行理性互动的能力(通过此类能力机器人可轻松执行如拾取与放置等基本任务)。研究团队深入探讨了合适的提示策略(Prompt),并就ChatGPT的任务边界及其系统的稳定性提供了关键见解(虽然该方案存在局限性与潜在的安全风险问题)。团队的主要贡献在于构建了这一创新框架,并对ChatGPT在机器人任务执行中的能力范围进行了深入分析

2 方法

在这里插入图片描述

图1 整体架构

图1展示了本文所设计系统的整体架构。在该系统中 ChatGPT扮演着三个主要角色:作为决策型机器人负责制定任务方案;作为评估型机器人负责验证程序运行结果;以及作为纠正型机器人负责修复程序中的问题。操作者通过指示使机器完成任务后 根据接收到来自环境的数据与具体指令自动生成用于指导后续操作的自然语言提示语句。随后 决策型机器人将利用收到的提示信息自动生成可执行代码 并使这些代码依次运行每一行 如果出现错误 将会向决策者传递错误信息及出错的具体代码行 以便修正直至程序能够正常运行 此时 评估型机器人将会利用Eval Code模型对可执行代码进行测试 如果程序无法通过则纠正型机器人会分析导致失败的原因 并将这些原因反馈给决策者进行修复 最终 当满足所有评估条件后 可用生成的有效程序来创建一套可靠的演示数据集 经过充分训练后 智能化系统能够可靠地部署到实际应用中

2.1 提示方案概述
该提示方案由五个关键模块构成:背景分析模块、对象识别模块、环境交互模块、任务定义模块以及示例演示模块。在背景分析模块中, 研究人员详细描述了实验环境的基本特征, 包括环境的目的性、布局规划以及相关实体属性等基本信息。对象识别模块则负责明确各类对象的基本信息, 包括它们的名称、形状特征以及姿态状态等细节内容。在环境交互模块中, 本方案详细说明了机器人与ChatGPT之间的交互流程及操作规范, 包括API函数调用的具体方式与使用场景等关键点。任务定义模块则着重阐述了ChatGPT的主要职责, 即根据给定的工作场景生成相应的Python代码实现方案。最后,在示例演示模块中, 通过提供若干典型代码实例, 进一步帮助理解和验证各功能组件的实际应用效果。参考OpenAI的相关指导原则, 本研究将背景分析内容与机器人API调用相关内容统一纳入系统消息配置, 从而能够获得更加优化和准确的响应结果。

2.2 自纠正过程
当处理复杂的任务生成时, ChatGPT偶尔会在生成响应中出现一些小错误或语法问题,这些都需要通过我们的交互式方法来进行修正。本文提出了一种用于修正ChatGPT生成内容的互动式方法。具体操作步骤如下:首先在模拟器中运行生成的代码并评估其结果,随后会逐行执行生成的代码,当错误发生时,这些错误信息包括错误提示及其发生位置,将会被代码错误捕捉模块捕获记录下来。接着,这些数据会被发送回给ChatGPT决策机器人进行进一步分析判断,如果结果未能通过检验,则认为存在潜在的问题需要解决。在这种情况下,纠正机器人会基于提供的提示信息分析问题根源所在,并给出一个解释任务失败原因的具体回复方案。最后,原始的ChatGPT决策机器人将根据纠正机器人提供的优化建议重新运行并修正相关的指令逻辑或参数设置等细节问题。通过这种反馈机制循环迭代三次以上后, ChatGPT最终能够输出准确无误的结果以满足实际需求的各种场景要求

如图1所示,在项目中开发了一个名为评估机器人的智能系统来生成评估代码。该系统与决策机器人在提示信息上存在差异。具体而言,在函数is_task_success()被定义为任务成功的唯一标准时(如图1所示),该系统将执行相应的逻辑运算以完成评估功能。对于生成的代码存在疑问的情况(如图1所示),人类将介入进行详细审核和必要的修正以确保系统的可靠性和准确性)。

2.4 机器人学习

在这里插入图片描述

图2 机器人学习网络架构

在本文中, 采用SDQfD算法完成机器人学习任务, 基于等变ASR网络, 如图2所示. 损失函数由n-step TD损失与严格的大边缘损失组成.

3 实验结果
3.1 实验设置
表1呈现了八个实验的具体数据结果。值得注意的是,在每次输入相同的提示时(尽管提示内容完全相同),由于决策机器人的temperature参数设定为1.0值的原因(即温度设置为1.0),所输出的代码及其运行结果均存在明显的差异性。此外,在本研究中采用的ChatGPT生成的代码不仅存在语法错误和逻辑错误(即生成的代码存在语法或逻辑上的缺陷),而且该模型本身也未能有效识别这些缺陷。值得注意的是,在大多数情况下(即绝大多数情况下),由于ChatGPT最初无法生成成功的代码(即初始生成未能通过测试),因此该实验的整体成功难度会显著增加

对于ChatGPT来说,显而易见的是,在任务难度增加时,其成功率明显降低。简单、中等和困难任务的成功率分别为0.880.390.21。与之相比,本文提出的RobotGPT模型在各类任务上均展现出卓越的稳定性,在模拟实验中能够稳定达到0.915的成功率,在真实世界实验中的表现同样出色,在基于模拟数据训练的情况下也实现了0.86的成功率。

3.2 AB测试

在这里插入图片描述

为了评估本文中LLM驱动的机器人系统在应对那些现有非LLM技术无法处理的任务方面的能力,研究团队设计并实施了两个开放式的实验项目.第一个实验设计了一个家庭物品整理任务,要求参与者整理40个不同种类的家庭用品;第二个实验则是一个字母拼接游戏,目标是从字母A到L中选择字母组合成最长且有意义的单词.此外,在这项研究中还招募了人类受试者参与相同的任务.

与传统人工编码方式相比,在代码质量及运行效率方面表现出明显优势

4 结论
在本研究中, 我们的团队成功地构建了一个高效的提示机制, 旨在显著提升该模型对机器人环境及其所需执行任务的理解能力. 通过模拟人类问题解决过程, 我们提出了名为RobotGPT的新框架, 这一创新性设计使得系统能够更加稳定地处理复杂任务. 在实验研究中, 我们设计了一种评估任务难度的新方法, 并观察到随着任务难度的增加, 在此框架下完成任务的成功率显著下降.

相比而言,该人工智能系统(RobotGPT)展现出91.5%的有效效能,在执行各类任务时表现尤为出色)。此外,在实际应用场景中已成功实现其部署配置)。借助神经网络模型技术作为辅助工具,在训练过程中可显著提升系统的泛化能力)。与直接采用ChatGPT作为单一任务规划器相比,则提供了一种更为稳定可靠的技术方案)。通过一系列AB测试实验表明,在多项开放领域应用任务中表现出了显著的优势),这主要得益于该系统内置的巨大先验知识库所带来的强大支持)。综合来看,在机器人学研究领域中将大型语言模型(LLMs)与传统机器人技术相结合仍处于早期探索阶段)。本研究团队认为,在这一新兴领域的发展进程中将有一大部分工作需要聚焦于如何恰当地整合并充分利用ChatGPT技术优势

全部评论 (0)

还没有任何评论哟~