Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
abs
强化学习(RL)有望自主获取复杂机器人的操作技能;然而,在现实环境中实现这一潜力确实面临诸多挑战。我们的研究表明,在环视条件下实施强化学习系统能够有效促进灵巧操作能力的发展;该系统在灵巧操作任务方面展现出令人 impressions超凡的能力;包括动态操作、精确组装与双臂协调等多个关键环节的表现均达到了显著水准;其中我们研究的核心在于将人工纠正与示范学习相结合的技术基础与高效的RL算法以及系统的级联优化策略相结合;经过1至2.5小时的训练后,这些策略模型达到了几乎完美的成功率达到并呈现快速迭代的能力;研究表明该方法显著优于基于模仿学习的方法;其成功率较基准方法提升了约两倍同时运行效率较之前提升了一倍多以上;通过多组实验数据及深入分析我们对系统的性能表现获得了全面评估并得出了具有说服力的研究结论:即该系统能够在实际应用中有效推广以满足工业场景下的多样化需求
1. Introduction
作业是机器人技术中的核心议题,在动态灵巧的操作任务中达到人类水平的性能始终是该领域的重要追求(Cui & Trinkle, 2021)。基于试错的学习机制有望使复杂的灵巧机器人技能自动生成。通过系统化的经验积累和能力进化原则应该能够获得高度熟练的能力这些能力是专为执行特定物理特性设计的。这可能不仅超越传统手工设计的控制器还可能超过由专业人员远程操控的效果。然而由于样本复杂性准确奖励函数假设以及优化稳定性等问题在真实环境中兑现上述目标仍具挑战性。现有研究表明rl方法在模拟环境下的训练表现优异(HwangBo等人2019 Lee等人2020 Chen等人2023 Loquercio等人2021)同时也能有效应对广泛泛化的大型真实数据集(Kalashnikov等人2018 2021)。这些方法不仅被用于手工设计的基础特征还被应用于狭义定制的任务场景中。然而要开发出通用视觉驱动的方法以有效获取物理复杂能力并超越模仿学习与传统设计 controller的表现仍然充满困难我们相信如果能在这一领域取得根本突破将开创新的技术先河随后这种突破也将推动真正高性能 robot操作策略的发展。
本文介绍了一种强化学习系统(RL),该系统专注于实现视觉操作中的精确与灵巧任务。
旨在解决政策优化过程中的稳定性问题, 我们采用了预训练视觉主干网络作为基础. 为了应对样本复杂度问题, 我们采用了基于RLPD (Ball et al., 2023) 的高效非策略强化学习算法框架, 并整合了人类演示数据及修正机制. 此外, 经过精心设计的低层控制器将被激活, 其主要作用是在policy训练过程中实时监控并保证系统的安全性. 在这一过程中, 系统会请求人工干预以修正潜在的问题. 我们发现, 这一环节对于使policy从错误中学习并提升性能具有重要意义, 尤其是在本文所涉及的关键挑战任务上表现尤为突出. 这些任务因其高度复杂性难以实现零样本学习效果.
如图1所示,在我们的系统中所处理的任务包括动态翻转锅中的物体操作:从塔内取出一个方块积木,在双臂间放置物体以及组装复杂设备(如计算机主板、Ikea货架、汽车仪表盘或定时器组件),这些都需要单个或双个机械臂协同完成。这些任务在涉及高度复杂的动力学特性和高维的状态空间与动作空间方面提出了巨大挑战。其中一些技能曾被认为是在真实环境中直接运用RL进行训练所不具备的能力(例如双臂操作任务或当前机器人技术难以高效解决的任务),但近年来的研究表明:即使是在这些看似困难的任务中也能实现令人惊叹的表现——例如精确操作任务需采用反应性闭环控制策略或难以预设的精细开环行为策略(如Jenga游戏)。然而令人尤为称道的是:我们发现系统能够在几乎所有任务中成功训练出RL政策,在仅约1至2.5小时的实际训练时间内即可实现近乎完美的成功率(仅比模仿学习方法高出约101%,且循环时间提升了约1.8倍)。这一发现极为重要:因为它表明基于视觉的操作策略可以在实际训练时间内直接从真实数据中学习到广泛的人工智能技能——这是早期方法认为不可能实现的关键突破之一。此外:RL展现出超越模仿学习与手工设计控制器的能力水平
为了系统性地评估我们的系统性能, 我们采用了多种方法与现有的几种代表性的RL方法进行了对比, 并进行了消融实验来评估各个组件的作用。研究表明, 相比现有的基准方法, 我们的系统不仅在性能上表现突出, 而且实证结果的良好表现得益于这些组件的精细整合。进一步分析表明, 该系统的成功运行机制主要源于精确识别关键状态的能力; 同时, 也揭示了基于视觉信息生成高效动作策略的有效性, 这一发现为我们后续优化控制策略提供了重要参考
总体而言,在适当的系统级设计选择下
基于本文得出的研究成果, 我们期待这项工作能成为未来智能机器人领域的重要里程碑. 展望未来, 这项技术有望推动我们正朝着通用机器人操作的目标迈进, 尤其是具备适应不同环境与任务的能力, 从而实现可靠且易于部署的人工智能机器人的基本操作技能.
2. Related Work
该系统基于强化学习技术来应对灵巧操作的任务,并对现实世界中的机器人强化学习方法及其相关的系统研究进行了深入探讨,在此基础上还分析了处理类似灵巧操作任务的不同解决方案
Algorithms and systems for real-world RL
机器人强化学习(RL)在处理高维输入(如机载感知)方面的要求较高,并且能够轻松指定奖励与重置机制(easy specification of rewards and resets)。现有研究已证明了多种算法在现实世界中实现高效学习的能力(Riedmiller等人, 2009; Levine等人, 2016; Luo等人, 2021; Yang等人, 2020; Zhan等人, 2021; Tebbe等人, 2021; Popov等人, 2019; Zhao等人, 2022; Hu等人, 2019; Hu等人等, 2024b; Johannink等人, 2019; Hu等人等, 2024a; Rajeswaran等人, 2018; Schoettler等人, 2020; Luo等人等, 2024a)。这些方法包括基于离线策略的强化学习(Kostrikov等人等, 2023)、基于模型的方法(Hester与Stone, 2013; Wu等人等, 以及基于模型的强化学习方法(Nagabandi等人等)。然而这些方法通常需要较长的训练时间才能取得理想效果
我们探讨了最相关的SERC(罗等2024a)这一核心工作,并构建了一个强化学习体系用于操作任务。相较于SERC的方法论而言,在具体实施上存在显著差异:我们整合了人类示范与修正策略来训练强化学习政策;而SERC则仅依赖于人类示范完成任务教学)。尽管这种差异看似微小,在实验结果中我们发现:集成修正(integrate corrections)这一策略对于使agent从错误中学习并提升操作性能起着至关重要的作用;尤其是在agent难以通过自身经验快速掌握新任务的场景下表现尤为突出。此外,SERC专注于处理视野相对有限且较为简单的操作任务, 并未涉及双臂协调动作或动态操作问题)。在此基础上,我们提出的主要贡献在于:成功证明了基于视觉的操作策略能够高效泛化至多种具有不同物理特性的任务类型;这使得我们的系统与其前驱研究工作存在本质区别
Dexterous robotic manipulation
对于本文中涉及的一些任务,在先前的研究工作中已经提出了一些替代方案。在插入任务领域中,相关研究主要采用了基于模型的方案(tang et al., 2016; jin et al., 2021)以及具备主动适应能力的末端执行器工具机制(morgan* et al., 2021; su et al., 2022)。这些方案往往建立在无感知状态的state-based模型上,并且需要针对特定任务进行定制开发,这限制了其泛化能力和适应性。另一种方案则是在多阶段pipeline架构中采用视觉伺服技术实现机械臂与目标物体的对齐,并通过语句搜索完成插入操作(spector et al., 2022;chang et al., 2024;song等人, 2015)。然而,在这一过程中特征可靠性和对齐精度仍是主要挑战之一。相比之下,在我们的方法中采用的是更为严格的感知-动作循环框架,在闭环式的学习过程中能够同时获取任务相关的视觉特征和视觉运动策略(astrom和murray, 2008)。从控制理论的角度来看,在此框架下学习得到的动作策略可以被视为一种输出反馈控制的具体实现形式
此外,在探讨本文所涉及的动态操作任务方面已有相关研究(Mason 和 Lynch, 1993)。Kormushev等人于2010年采用动作捕捉系统与动态运动原语(Ijspeert等, 2013)来学习翻转锅中的物体。然而,在我们的系统中直接使用像素输入以减少对精确动作捕捉系统的依赖,并实现了显著更高的成功率。Fazeli等人于2019年提出了一种准静态方法用于从塔中推出Jenga块。然而,在我们的方法中使用Workpiece动态删除Jenga块并提出了更具挑战性的任务——张紧器与正时皮带之间的协调必须既快速又精确才能实现有效的动态调整。尽管有关柔性对象操作的研究已取得进展(Luo et al., 2024b; Jin et al., 2019; Viswanath et al., 2023; Shivakumar et al., 2023; Viswanath et al., 2022),但本文中的正时皮带装配任务要求两个臂之间具备高度反应灵敏且精确的协同能力以便动态调节紧固器与正时皮带的位置。与此前关于电缆操纵的研究相比这项任务更具挑战性
3. Human-in-the-Loop Reinforcement Learning System
在本节中, 我们将对所述的方法进行阐述。对于概述所提出方法的动画片, 请参考适合观看。
3.1. Preliminaries and Problem Statement
机器人强化学习任务可以通过 mdp

定义,其中

是状态观察(例如,图像与机器人的本体感受状态信息相结合),

是动作(例如,所需的末端执行器扭曲 the desired end-effector twist),

是初始状态的分布,

是依赖于系统动力学的未知和潜在随机转移概率,

将它称为奖励函数,在其中的任务进行描述。最优 policy 𝜋 被定义为累计奖励的期望最大化方法。

,其中期望是关于初始状态分布、转移概率和 policy 𝜋 取的。在实践中,policy

通常被建模为由神经网络参数化的高斯分布 。
机器人任务的强化学习算法必须由我们精心选定合适的状态观察空间来实现

和动作空间

这一过程涉及正确选择合适的相机、机器人本体觉知状态以及相关的低阶控制器组。对于我们的所有任务而言,在此过程中我们采用了稀疏奖励函数。该函数通过训练好的分类器对任务的成功与否进行二元判断。在此配置下设定优化目标

致力于提高各个轨迹的成功几率。在最理想的情况下,在算法收敛时,policy 应该在每一次尝试中都达到成功状态。
基于 ball 等人 2023 年的研究成果提出的核心底层 rl 算法为 rlpd.该算法重点强调了其在样本利用效率和整合历史数据能力上的优势.在每一个训练阶段中,rlpd 通过均衡地从先验知识库与策略经验库中选取样本,形成一批用于训练的典型集(song 等人, 2023).随后,根据各自损失函数计算出的梯度信息依次更新 q 函数的相关参数

和policy

的参数

其中

属于目标网络(Mnih团队于2013年提出),actor损失采用通过自适应调节参数𝛼进行熵正则化(Haarnoja团队于2018年提出)。
3.2. System Overview
我们的系统由三个主要组件构成:actor过程、learner过程以及嵌入在learner过程中的延迟重放区(RFB),所有这些均采用分布式架构运行(如图2所示)。actor过程通过在机器人上执行当前policy并与其交互,并将获取的数据发送至重放区。环境被精心设计为模块化结构 ,从而提供灵活的设备配置选项。这包括集成多种摄像头(如RGB相机),整合了spacemouse等输入设备以实现远程操作 ,以及支持不同类型的控制器以操作可变数量的机器人手臂的能力。为了评估任务的成功性需要设计好的奖励函数 ,该任务通常基于基于人工演示的人工智能离线训练策略(Offline RL)。在actor流程中,人类可以通过spacemouse干预机器人控制,并在此过程中将spacemouse从rl policy接管机器人控制权的过程得以实现。我们采用了两个重放区:一个是用于存储离线人工演示数据(称为演示缓冲区),其大小通常维持在20-30范围内;另一个是用于存储与策略相关的数据存储区域(称为rl缓冲区)
learning agent equally samples data from both demonstration and rl-prioritized slow-ring buffer, employing rlpd to optimize the policy. every few steps, the updated policy is transmitted to the actor process. in the remaining portion of this section, we will elaborate on our design choices for each component.
3.3. System Design Choices
该系统的样本效率不容忽视,因为持续的数据采集与训练活动会消耗资源成本.鉴于此,为了保证训练过程的有效性,必须维持在合理区间内,尤其是在处理复杂输入场景时.此外,下游机器人系统需确保与rl策略兼容,从而实现平滑的学习过程.例如,实际的低级机器人控制器将格外谨慎,特别是在执行那些精确接触丰富的任务时.这些操作不仅要求精确性,还需具备高度的安全性,以使rl算法能够在随机动作探索阶段稳定运行.为了能够在真实环境中有效执行样本高效策略学习的任务,我们进行了如下关键设计决策.
Pretrained Vision Backbones
为了提高训练效率并优化视觉处理效果,在本研究中我们采用了基于预训练视觉主干的图像数据处理方法。尽管这种方法已成为计算机视觉领域的常用策略,并且其目的是为了增强模型的鲁棒性和泛化能力(Radford等人, 2021; Dosovitskiy等人, 2021年; Kolesnikov等人, 2020年),但在强化学习(RL)领域中采用这种处理方法带来了额外的优势(Yang和Wang, 2019; Du等人, 2020),从而特别适用于现实世界的机器人RL训练。我们的神经网络架构基于相同的预 trained 视觉主干模型,并从相机传感器获取多幅图像进行处理。具体来说,在ImageNet (Deng et al. , 2009)上经过 预 training 的ResNet-15 模型(He et al. , 2015)被用来生成输出嵌入特征向量;随后将这些嵌入特征向量连接起来并与经过处理后的本体感受信息进行集成融合(如图 3 所示),从而实现了更为高效与有效的学习过程。

图 2展示了hil-serl架构概览。该架构由三个关键组件构成:actor过程、learner过程及回放缓冲区。该架构通过异步通信机制实现高效的数据流动传输。具体而言,在actor过程中端负责接收 learner进程中最新版本的policy参数,并与环境进行交互操作;随后将处理完毕的数据输出至慢速缓冲区以便后续处理使用。此外,在环境设计上进行了充分模块化优化以适应多种外围设备及多套机械臂系统需求;操作者可通过空间鼠标等远程操作工具对系统进行干预调控;在学习机制方面,则采用均匀采样策略从两个慢速缓冲区中获取数据样本并结合rlpd算法对策略进行持续更新优化;特别地,在夹具控制相关任务中则采用dqn算法额外训练抓取策略以提升整体系统的抓取成功率。
Reward Function
强化学习系统的核心要素之一是奖励函数,在指导智能体行为并评估策略有效性方面发挥着重要作用。尽管先前的研究主要依赖于采用奖励塑造 reward shaping 的方法来加快学习进程(ng et al., 1999; florensa et al., 2018; 2017),但这一过程通常是针对特定任务且耗时定制的。然而对于一些高度复杂的任务而言,在实际操作中实施这种 rewards shaping 变得困难起来。我们的研究表明一种简单有效的设置能够适应多种不同的应用场景具体而言我们发现通过收集离线数据集并针对每个具体的任务训练一个二元分类器可以在仅在成功完成目标时给予正向反馈其余情况下均不给予任何激励
Downstream Robotic System
为适应policy学习过程的关键需求,在机器人系统的设计中做出了若干重要决策。为了便于在空间中进行泛化处理,在相对坐标系中表示机器人的本体感受状态 ,这种表示方式允许以自身为中心来进行自我定位。本质上,在每个训练集中机器人末端执行器的姿态被均匀分布在预设区域 作为初始状态。机器人的本体感受信息基于末端执行器初始姿势建立相对帧表示 ,而policy输出的动作则与其当前所处的位置密切相关。这一机制模拟了仿生学中基于相对运动感知的目标跟踪机制,在面对物体运动或实验过程中可能出现的各种干扰时仍能有效运行(如luo等人, 2024a)。对于涉及接触操作的任务,在实时层采用一种带有限制的阻抗控制器来确保系统的安全性;虽然这种开环控制不包含闭环反馈调节机制,但经过实验验证其能够完成所需的任务要求。而对于动态环境下的操作,则通过末端执行器坐标系施加预判性wrenches以加速机器人手臂运动,并发现这种简单的控制策略足以实现预期目标。
Gripper Control
针对夹具控制相关的任务,在本研究中我们采用了单独的一个 critic 网络来评估其离散抓取动作的效果。然而这种方法虽然看似需要额外资源或显得不太常规,在实际应用中表现出色尤其是在结合人类演示和修正的情况下。由于夹持器动作具有离散性质,在本文考虑的任务范围内逼近它们变得更具挑战性特别是当涉及到复杂操作时。通过采用离散动作的方式我们可以有效地简化整个训练流程并且显著提升了强化学习系统的整体效能具体而言我们在这些任务中成功解决了两个独立的人工智能体各自的MDP问题

和

,其中

分别可以被划分为连续型和离散型的动作空间,并且它们都从环境中感知到了相同的state observations, 包括图像信息, 本体感觉数据以及抓手的状态信息等. 离散型动作空间

由一系列离散的动作构成。对于单个夹具来说,这些动作包括打开、关闭以及停留。当有两个夹具时,则扩展了动作范围。

个组合,考虑到每个夹具可以采取的所有可能动作。

基于DQN框架的标准实现(Mnih et al., 2013),此外还引入了一个补充的目标网络用于提升训练稳定性),如上所述:

其中

目标网络代表其可以通过执行与当前网络参数的Polyak平均更新过程来确定其参数值(van hasselt等人, 2015)。在训练过程中或推理阶段, 我们首先根据上述方法更新目标网络的参数值。

中的 policy 查询连续动作,然后通过对评论家的输出取 argmax 从

中的 critic 查询离散动作**;然后,我们将连接的动作应用于机器人。
3.4. Human-in-the-Loop Reinforcement Learning
基于系统的决策框架下
为了解决现实世界机器人RL训练中的这一难题,在RL算法中我们通过整合环内反馈机制来指导学习过程,并帮助政策模型更高效地探索潜在策略。具体来说,在训练过程中, 人类操作员会对机器人进行实时监控, 并根据需要提供必要的纠正指令. 参考图2所示的界面设计, 在此过程中, 我们能够实时观察到系统的运行状态. 对于从时间步长获取的数据进行处理和分析.

的自主推出轨迹,人类可以在任何时间步长 𝑡𝑖 进行干预,其中

在干扰时间段里,机器人受到了人类共计N次的操作。作为图2中红区所展示的片段,可以在一个轨迹中实施多样化的干预方式。当人类进行干扰时,他们会按照既定程序执行相应的指令

应用于机器人,而不是policy的动作

我们将干预数据存入演示界面 demonstration 和 RL数据缓冲区 RL data buffers 中。然而,在 RL 缓冲区 buffer 中仅用于记录策略的变化(即干预前后状态与动作)。该方法已在提升政策训练效率方面取得了显著成效。
这种干预针对政策引发机器人处于无法恢复或不希望状态的情况至关重要;或者当政策陷入局部最优状态时,则可能需要大量时间,在无需人工干预的情况下才能克服这一挑战。此过程类似于hg-dagger(kelly et al., 2018),该方法主要关注于当政策表现不佳时的人类接管行为来进行数据采集;然而我们采用强化学习而非监督学习的方法进行政策优化(luo等人, 2023)。在我们的实验环境中设定中,默认由人类操作者与Spacemouse 3D三维鼠标交互,并通过其提供机器人所需的纠正指令。
在训练初期阶段,在某些情况下人类会对系统进行频繁干预以提供必要的纠正动作。随着政策的有效性逐步提升,在后续阶段此类干预的频率将逐渐降低。根据我们的实践经验,在操作员向系统发出特定类型更正指令时观察到该系统的学习效率明显提升,并且能够促进机器人进行自主探索。
3.5. Training Process
为了清晰地阐述我们的系统训练流程以及方便读者复现实验结果,在每个实验的具体环节中操作步骤进行了全面梳理。
首先,我们选择了最佳配置的相机组合。这些设备凭借其自中心视角特点,在提升对空间泛化的适应能力方面具有显著优势。然而,在单一的手腕摄像头无法覆盖整个环境时,则会并安装若干个侧面摄像头辅助观测。对于所有设备而言,在完成拍摄后我们都会对所拍图像进行裁剪以聚焦于感兴趣的部分,并统一将图像尺寸调整至128x128像素大小进行后续处理
接下来,我们将采集数据以训练奖励分类器,并将其作为构建指导学习流程的关键步骤之一。具体而言,我们采用机器人远程操作执行任务的方式采集正样本 200 个和负样本 1000 个。考虑到每个轨迹通常持续约10秒,在线获取这些数据集所需时间约为5分钟。为了确保系统的鲁棒性,在训练完成后我们计划补充额外的数据以解决奖励分类器可能出现的假阴性和假阳性问题。实验表明,在标准测试集上该模型达到了95%以上的识别准确率
然后我们采用了主动学习的方法收集了20-30条人类演示轨迹来应对各种复杂任务 并将其用于初始化离线回放缓冲区
4. Experiment Results
在本节中,我们将探讨我们的实验设置及所得数据。随后将介绍与该实验相关的设置及所得数据,并进行详细分析。接着将深入分析这些数据及其所反映的意义
4.1. Overview of Experiments
我们对涵盖不同特征的七个实验任务进行了研究,请参见图3所示结果。这些挑战涵盖了多种操作类型:包括动态物体处理(如锅中翻转)、精确细致处理(如SSD放入匹配槽)、动态精准插入(如随目标移动时添加组件)、灵活组件装配(如组装定时器带子),以及多阶段复杂作业(如 IKEA 架子组装)。我们采用单臂或多臂配置,并结合视觉与动作协调的方法完成这些任务。
观察空间可包含由手腕安装与侧面摄像头提供的影像数据、末端执行器的姿态信息、物体的扭转情况以及操作臂当前抓取工具的状态。对于动态任务,在末端执行器坐标系中施加预馈力矩被视为必要的加速度指令。
观察空间可包含由手腕安装与侧面摄像头提供的影像数据、末端执行器的姿态信息、物体的扭转情况以及操作臂当前抓取工具的状态。对于动态任务,在末端执行器坐标系中施加预馈力矩被视为必要的加速度指令。
对于其他任务而言,动作空间可被定义为每个手臂的6维笛卡尔twist目标并应用于下层触觉控制模块;而对于抓取相关的任务,则需单独定义夹持器的动作方案**。在本节中所述的所有任务中(除非另有特别说明),我们都采用了统一的学习框架来进行训练:具体而言,在每一种任务中都建立了二类分类器来完成奖励检测功能,并将手腕部及/或侧置摄像头捕获到的画面信息作为输入信号来源;为了获得高质量的训练数据集,在完成主数据采集后还补充了一些潜在的人为假阳性与假阴性示例** 。所有实验过程的具体实施细节均可在附录中找到** 。在实际操作过程中,我们发现引入夹持器动作的小负惩罚能够有效抑制策略在不必要的夹持操作上的过度行为;此外,在每个学习周期开始前都会采用随机化策略设定初始状态** 。为了全面评估所设计框架的有效性,在后续章节中我们将分别对每一种典型应用任务进行详细阐述,并对比分析其性能指标与现有先进方法的表现差异** 。
4.2. Description of Tasks
在本节里,我们将阐述我们在实验中所设定的任务描述.为了全面覆盖各种操作难题,我们在实验中选择了包含丰富场景、协调运作以及灵活处理的对象作为核心内容.通过整合这些挑战的方式进行组织,使得各个部分更加协调.随后,我们设计了两项针对复杂环境中的精准执行动作的任务.接着,安排了三套需运用双臂协同完成的操作方案,其中一项重点是灵活对象的处理.最后,进行了两项基于动态过程的操作测试.每个具体细节均可在图3中找到.
Motherboard Assembly 主板装配
主板装配作业涉及四个具体步骤:首先,在内存插槽内安装内存卡;其次,在PCI-E接口上接驳固态硬盘;接着,在桌面上选取一根可自由活动的USB线,并将其可靠地连接到指定插槽;最后使用夹具稳固住这条数据线以确保不会移动
IKEA Assembly
该 IKEA 装配任务要求组装一个包含四个面板的 IKEA 架子,并将其分解为三个具体子任务:其中机器人首先要将两侧的面板固定在桌面上完成组装;随后在完成这两边安装后需将顶部(panel)组件安装到两侧已有的基础上方位置上;如果所有组件正确地组合并构建出完整的货架,则认为该装配过程是成功的;对于每一个子任务,在此过程中我们假设各板块均由机器人预先进行抓取操作;然而,在实际操作中我们会定期将这些组件放置回夹具后重新进行抓取以引入更多变化
Car Dashboard Assembly
如图3所示,在汽车仪表板装配过程中有两个主要阶段:首先需正确捕获工件的合适位置,并将其举起以便进行下一步骤——将它们整合到仪表板上。若所有引脚均已被准确插入至相应孔位,则可判定此装配过程已顺利完成。此过程要求精确的操作配合以及双手协调:两臂须同步运动与夹具闭合的时间以使工件准确向上并同时对齐多个引脚。
Object Handover
Timing Belt Assembly
Jenga Whipping
Object Flipping
4.3. Experimental Results
在本小节中,我们呈现了上述所有任务的具体实验结果。对于每个任务的具体表现指标而言,我们详细记录了其成功率、循环时间以及训练时间的具体数值。训练时间特别包含了所有脚本运行机器人运动、策略迭代以及预期终止条件的计算步骤 。除特殊说明外,默认所有结果均为基于100次独立评估运行实验所获得的数据。在整个评估过程中,在机器人执行脚本指令或人工随机化初始状态设置的基础上运行实验(即机器人运动或初始状态随机化),我们采用了统一的评估协议来进行性能测试。这些具体细节均可以在补充材料中找到详细的描述
本文的主要观点是 Hil-SRL 方法优于基于人类远程操作的模仿学习方法。为了进一步证明这一观点,在等效条件下公正地比较相关的方法至关重要。正如 (ross et al., 2011) 所指出的那样,简单的模仿学习容易受到错误复合问题的影响。Dagger及其变体通过结合人工校正结合监督学习细化策略来解决这个问题。我们的方法也利用人工校正但采用基于特定任务奖励的强化学习来优化策略。为此,在使用相同数量的人类演示进行训练时我们将基线设置为 HG-Dagger(kelly et al., 2018)。具体来说我们首先使用相同数量的人类演示进行行为克隆预训练基础策略然后运行该策略并收集人类专家提供的更正以使干预措施的数量与强化学习中的训练相匹配。随后我们运行与我们的方法相同数量的任务并收集更多的干预措施以保证数据的一致性
该比较限定于除 jenga_whping 外的所有任务,并排除了对象翻转方案。这些干预措施均呈现高度的难度与不足。对于这类任务而言,在现有方法的基础上我们采用的方法是通过收集50至200个离线示例并训练相应的BC政策作为基准策略**(即 baselines)。这种方法提供的样本数量远超现有方法(通常在20至30个样本之间)。
在所有实验中, 我们基于成功率与周期时间的主要指标, 对比不同方法以评估其性能. 研究结果表明我们的政策逐步优化, 在理论上预测的理想状态下能够实现完全自主的操作.

如图4所示:实验任务的学习曲线。该图分别展示了hil-serl和dagger在少数代表性任务中的成功率、周期时间和干预率(均为20次发作的连续平均值)。对于hil-serl,在整个训练过程中其成功率迅速上升到100%,同时其干预率和周期时间逐渐下降并稳定在0%。而对于hg dagger来说,其成功率在整个训练过程中呈现波动性变化趋势,并不一定随着训练的深入而持续增加。值得注意的是,在此研究中由于干预措施的频繁实施导致了成功结果的真实policy的成功率可能低于所展示的曲线值。此外,在后续的时间里干预率并未持续降低的趋势表明policy未能稳步改进这一点也体现在循环时间上即循环时间没有得到改善因为dagger缺乏在提供的训练数据之外提升性能的有效机制。补充材料中提供了其他地块的数据供进一步分析参考

(a)不同任务下的BC与RL的成功率及循环时间进行对比分析。值得注意的是,在宜家整体组装任务中仅经历了10次实验过程;而对于其余所有实验项目,则均进行了至少100次以上的重复测试以确保数据可靠性。
采用基于行为克隆的方法进行基准模型训练;其中在控制阶段以及干预阶段所消耗的时间与强化学习方法相当。
值得注意的是,在Jenga鞭打与物体翻转等特定场景中,
我们采用了"flat"策略来进行强化学习辅助策略优化;
其中在Jenga鞭打过程中经历了54秒的平均控制时长,
而在完成物体翻转动作时则需要投入约294秒的时间。
首先,如表1所示,在经过1至2.5小时的真实训练后,HIL-SERL获得了完美的成功率。这一成绩显著超越了基于HG-DAgger的传统方法(该基准方法平均获得约49.7%的成功率)。对于需要执行复杂操作的任务类别而言,两者的性能差异更为显著——Jenga操作、插入RAM棒以及完成时间带组装等任务表现尤为突出。
我们还统计了图4中几乎所有任务的人工干预频率数据。具体而言,在计算过程中我们采用了时间步比例的方法,并将结果以运行均值的形式进行了呈现统计结果表明该数值显著高于20集(集合)。从图表中可以看出随着训练周期的推进干预频率呈现出下降趋势这表明相关策略正在逐步优化变得越来越独立于人工干预这一现象值得进一步探讨此外我们在观察到总体干预时长出现显著下降的情况下发现初始阶段当策略尚未完全成熟时我们会发出较为频繁且稀疏的人工干预指令而待策略逐步完善后只需发出较短的指令即可有效纠正相应问题相比之下基于hg-dagger架构设计的策略由于其固有的特性仍需采用更为频繁的干预手段以维持性能稳定但其总持续时间未必会随着训练时长的增长而持续减少
基于强化学习的核心优势, 我们的算法在性能上超越了hg-dagger模型
要考虑到的一个重要因素是循环时间或其他关键因素。从数据来看, hg-dagger政策在完成任务所需的平均周期上表现更为突出,其平均运行时约为9.6秒,而我们提出的方法则能够将这一数值降至5.4秒,即降低了约42%。这一改进并非完全意外,因为我们观察到模仿学习方法未能有效处理人类演示中的次优行为机制。相比之下,强化学习(RL)能够通过动态规划优化奖励的折现总和,从而实现更高的效率与稳定性。对于折扣因子α=0.95的情况

这种方法促进 policy 更快地获取奖励,并非模仿人类演示而获得的奖励所能比的是更快捷的方式。
在这些实验中发现的方法显示出高度通用性和有效性;能够生成符合各具体需求的开环与闭环策略。针对精确操作的任务如组装定时带或插入ram棒;该方法使机器人能够将与任务相关的视觉特征与适当的扭转运动联系起来;随后该策略能够持续执行视觉伺服操作并在实时反馈中调整动作直至完成目标;相比之下;在jenga游戏以及物体翻转等任务中;通过交互学习预判动作后果;随后该策略能够细致优化动作细节并维持操作一致性;此外我们深入分析了所学行为并将详细讨论推迟至后文部分
4.4. Robustness Results
为了评估我们所提出的方法在零样本学习场景下的鲁棒性,图5展示了若干定性实验结果。这些实验表明该策略不仅表现出良好的动态适应能力,在处理外界干扰方面也展现出显著优势。具体而言,在夹持器被恶意 humans 意识到并主动移除物体的任务中表现良好;同时,在夹持器在任务执行期间意外打开容器盖等外部干扰情况下仍能有效完成抓取动作。完整的视频剪辑片段及详细实验条件可在附录部分以及补充材料中的网站 https://hil-serl.github.io/ 中获取。

图5详细展示了通过该方法学习得到的policy在不同干扰下的稳定性分析。(a) 在外部干扰下插入ram以模拟移动主板的状态。(b) 当夹具被强行打开时,在转移任务期间会尝试重新执行操作。(c-d)动态调整策略以应对正时皮带任务中的外部干扰与变形情况。(e-f)当仪表板装配过程中出现多个夹具被强行打开时,在抓取阶段 policy 会主动释放已固定物品并重新定位。(g-h)在处理usb插头插入问题时,policy 会先释放固定住的物品然后重新尝试插拔以解决接触不良的问题
在处理定时带装配时能够承受任何形式的变化。
机器人在处理定时带装配时能够承受任何形式的变化。
而施加的人工干预与实时调整是保证policy鲁棒性的关键因素。
这些干扰包括人工干预与实时调整两种情况:一种是人工干预皮带形状;另一种是在装配过程中动态重新定位它。
基于机器人自身的感知系统能够准确捕捉到目标位置的变化;因此我们能够在装配过程中根据检测到的信息进行相应的调整。
该策略成功实现了ram棒的插入。
针对汽车仪表板组装与对象切换的任务;在抓取完成后强制夹持器打开以完成后续操作。
为了模拟较差的抓取姿态;我们对usb连接器施加了特定的姿态约束;随后通过释放连接器并重新抓取其以达到理想的工作状态。
这些稳健的行为是通过rl训练阶段的自主探索来实现的。
然而这些行为通常难以通过模仿学习方法实现因为缺乏这种机制来自主探索和学习它们的动作的结果。
4.5. Additional Baseline Comparisons
为了验证我们所提出的方法中设计选择的有效性, 我们重点考察了汽车仪表板面板组装(双臂协调)任务、ram插入(精确操作)任务以及对象翻转(动态操作)任务的表现特征。通过将我们的方法与现有的几种先进方法进行对比分析, 我们深入揭示了其性能优势的不同维度。进一步探讨了人类干预在提升系统性能中的作用机制, 并通过消融实验分析了不同数量的人类演示样本及其修正版本的比例关系。在此基础上, 我们展示了我们的模型如何有效地整合并利用人类演示数据来提升性能水平。此外, 在对比过程中特别引入了扩散策略(Chi等人, 2024)作为基准方案进行评估, 并对其表现特征进行了详细分析
我们首先发现了从头开始的RL策略,在无演示或校正的情况下,在所有任务上的成功率均为零(成功率:0%)。为了验证在线人工校正的作用及其重要性,我们将 serl 系统中 10折离线缓存区内的演示样本数量从常规设置下的20提升至200.然而,在完全缺乏在线校正支持的情况下,与 Hil-Serl 方法相比,该方法的成功率明显下降,特别是在涉及复杂操作如汽车仪表板组装等任务时几乎完全失败(成功率:0%)。这些结果验证了在线干预在强化学习框架中提升策略性能的关键作用.此外,这些发现进一步证明了离线演示及政策内部的人类干预对于指导强化学习过程的重要意义,尤其是在需要连续反应行为的任务中。
在对象翻转任务中,我们通过训练两个不同规模(20和200)的bc policies来进行学习。这两个策略表现出高度一致性,在测试中的准确率分别为47%和46%。即便进行了十倍于当前数量的示范学习,在本研究中发现仅模仿人类行为仍然无法有效解决这一问题(该问题在很大程度上属于开环操作)。
另一个重要的考量是如何处理与他人的演示之间的差异。为了便于对比分析,在每个任务中我们收集了 200 个示范样本。值得注意的是,在这种方法中离线阶段的示范数量相对较少。具体而言,在离线缓存机制中通常维持在约二十到三十之间。针对残差RL和IBRL算法,在每一步训练过程中我们会使用这些示范样本来构建行为克隆策略,并将其整合进各自的算法架构。特别地,在DAPG策略设计阶段,则会将全部两百份示范样本集中管理在一个专用缓冲区域,并对其相应的策略执行进行规范化约束。综合来看...在性能指标上明显优于上述各项基准方法。
可以这样理解:残差 rl 建立在预训练的基础政策之上,并通过这种方式促进学习过程。然而,在需要精确操作的任务中——例如汽车仪表板装配或 ram 插件安装——这种方法可能会遇到挑战。模仿学习的方法在这些任务中效果欠佳;因此这可能导致 rl 学习过程出现重大问题。对于 ibrl 来说,在参与者的策略中融合了 bc 和 rl 策略;这种情况下参与者采用的是 bc 和 rl 策略的融合体,并使行为更加接近于 bc 方式。尽管如此,在这些情况下 ibrl 仍需面对挑战;而 dapg 方法则通过直接规定执行演示操作的方式确保其性能水平与基于行为复制的方法不相上下。
我们方法的有效性源自底层rl算法的非策略特性 ,该算法通过动态考虑人类数据与当前policy优化目标的相关性来加权人类数据 。与johannink等人(2019);hu等人(2024a);rajeswaran等人(2018)相比;我们的方法并不过分依赖于高质量的人类演示;而是提供了一个机制,在训练初期就能有效利用人类数据,并使agent能够逐步超越甚至超越人类水平的表现。关键在于这一机制能够避免agent受到人类演示的限制,在从演示中获得指导的同时鼓励自主探索以发现更加优秀且创新的战略。
为了比较扩散 policy (chi et al., 2024) 的性能表现,在每个任务中我们进行了200次演示训练policies的过程,并将结果与其方法中所使用的离线回放缓冲区中的演示数量进行了对比。通过采用最佳算法参数(例如动作分块长度和观察序列长度)以及参考补充材料中所使用的动作序列长度来呈现实验结果。在ram插入和汽车仪表板面板任务上, 扩散 policies的成功率分别为27% 和 28%. 在对象翻转任务上, 成功率达到了56%. 这一结果低于我们的方法甚至低于hg-dagger基准线. 这一结果并不令人意外, 因为扩散 policies的主要优势在于学习更具有表现力的policy分布. 然而, 这些任务往往需要更复杂的闭环反应行为, 例如连续视觉伺服控制以纠正运动偏差. 因此, 虽然扩散 policies在学习表达policy分布方面具有显著优势, 但这一优势并未直接转化为这些任务中的性能提升
5. Result Analysis
为了对我们的结果进行深入分析,我们系统性地研究了已掌握的 policies。这项研究特别关注两个关键维度:可靠性和稳定性以及相关的行为模式。我们不仅探究了这些策略为何能在各种任务中表现出色,并且探索了促进策略稳定性的因素。此外,在深入了解这些政策所具有的行为特征时,特别关注反应与预测策略之间的差异。通过系统性分析,我们希望揭示出该方法在处理复杂操作任务中潜在优势的关键原因。
5.1. Reliability of the Learned Policies
high reliability represents a critical feature of the hil-serl performance. it has achieved a 100% success rate across all tasks. reinforcement learning accomplishes this ability through policy sampling and self-corrective mechanisms. whereas imitation learning methods, including interactive approaches, do not incorporate such self-corrective mechanisms, making it more challenging to achieve comparable performance using the same amount of data. despite existing theoretical work on q-learning convergence (papavassilio and russell, 1999; bhandari et al., 2018; jin et al., 2020; yang and wang, 2019), our analysis focuses on providing an intuitive understanding of the training dynamics.
为了阐述这一过程 我们进行了深入分析 其中ram插入任务具有特殊性 因为其要求操作精确 并且在x和y方向上的对称随机化使得其易于可视化。基于末端执行器的y和z坐标 我们制作了图6中不同政策检查点在跨时间步状态访问计数上的热图。通过policy学习过程 我们发现连接初始状态与目标位置呈现出漏斗状逐渐演变的特点 当空白区域被填满时 随着接近目标区域逐渐收缩 这一现象表明policy的学习效果正在提升 其置信度与定位精度均有所增强 随后随后我们引入了‘临界状态critical states’的概念 定义为q函数方差较大的状态 使用以下公式计算该方差:$$
\sigma^2(s) = \text{Var}(Q(s,a))
 对于每个数据点及其相关的policy检查点,在每个状态下我们对动作施加均匀分布于[-0.2, 0.2]范围内的随机噪声(并将其归一化至[-1, 1]区间),并通过100个样本的蒙特卡罗方法评估q函数的方差。较高的q函数方差表明相应状态对于policy的成功至关重要,因为采取不同动作通常会导致显著差异(通常较小)的q值。图6展示了q值分布及其在各状态下的方差情况,并显示具有较高q值的状态不仅不仅具有较高的方差而且能够有效区分不同策略表现 > > >  本研究通过图6展示了policy在动态训练过程中的可视化结果。 在Hil-SerL阶段进行 policy 训练期间的状态访问热力图显示,在此阶段 policy 的分布呈现出明显的漏斗状特征。 在整个 policy 训练过程中观察到 q 值方差随时间变化的趋势。 值得注意的是,在 Hil-Dagger 阶段进行 policy 训练期间的状态访问热力图并未表现出明显的漏斗状特征。 相比之下,在同一任务条件下(如图6所示),HG-DAgger的状态访问计数热图显示出更为稀疏的状态访问分布特征。与RL方法相比,则呈现出非漏斗状且较为分散的状态访问特征——这主要是由于RL方法能够实施自主式的探索策略,并借助于基于任务奖励机制的动力学规划方法来进行路径优化;而DAgger仅能在现有策略附近展开试探性操作。因此,在保证性能水平的同时实现与DAgger相当的效果,则需要引入更多的人工指导和校正措施,并对操作者进行高度的关注以保证数据质量 该领域的稳定行为已在基于状态灵巧操作与运动规划的技术中得到深入探究(Burridge等人, 1999;Tedrake等人, 2010)。然而, 我们的方法区别在于, 直接利用感知输入信息, 并通过强化学习探索实现对漏斗的自主构建。在最优控制领域有类似的思路, 即通过局部反馈机制维持在预设路径周围的操作(Astrom和Murray, 2008)。就我们的案例而言, 演示与校正过程可视为围绕预设路径运行的操作, 而强化学习方法则以此为基础发展出适应性稳定的漏斗结构以实现持续优化 ### 5.2. Reactive Policy and Predictive Policy 针对大多数高精度操作任务的要求下, 必须设计一个闭环反应式的策略, 该策略能够迅速响应实时的感觉反馈, 从而实现精准的操作效果。 而对于动态处理的任务, 如Jenga鞭打与物体翻转等场景, 我们则采用开环预测式的策略, 即通过提前规划并协调性地执行动作来实现目标。 基于这两个具有代表性的案例进行了详细分析, 在图7中展示了这两个案例下的计算动作 > > >  > 图7:反应行为与预测行为的区别主要体现在...。(a-d)仪表板装配任务中的一系列反应行为:当触控受阻时...迅速抬起双臂以解除接触;然后当接近目标时重新建立触点;最后成功完成插入动作。(e)在ram插入任务中训练好的高斯policies的方差图显示...显著下降至接近于零。(f)ram插入任务中训练好的高斯policies的平均表现值范围为-1到1。(g)jenga鞭打任务中的方差图始终维持在极低水平(接近于零),这表明执行过程具有良好的稳定性并呈现出开环特性。(h)jenga鞭打任务中的平均表现值同样在-1到1之间,并且三条轨迹表现出高度一致性。 对于这两项任务的研究中,在绘制policies在时间上的标准偏差与平均值变化情况时发现了一些有趣的模式。虽然在两种情况下平均值都覆盖了广泛的数值范围,并且标准差揭示了不同的policy行为特征。在Jenga鞭打任务中,观察到标准偏差在整个时间步长上始终保持较低水平(非常接近0),这表明policy展现出极强的稳定性与一致性,并且非常适合那些不需要精确预测的开环操作环境。这种特性类似于网球运动员通过预先计划好的动作序列来执行精确反射的行为模式:通过与环境的相互作用不断优化动作策略以减少预测误差并实现高度一致性的执行过程。然而,在RAM插入任务中则呈现出完全不同的动态特征:初始阶段的标准偏差较高(约达0.6),这反映了系统在接近目标时所面临的不确定性;但随着时间推移这一指标逐渐下降并趋于稳定(如图7所示)。这种动态变化表明,在精度要求较高的复杂操作场景下(例如仪表盘面板安装或正时皮带装配)传统预测控制方法不再适用而必须采用一种高度反应式的策略才能保证成功完成任务目标:这种能力不仅有助于迅速适应环境变化还能有效应对操作过程中的不确定因素以及需要多次尝试调整才能最终达成目标的情形 值得注意的是,**agent通过与环境交互获得了这种反应行为。换句话说,agent“免费”开发了这种行为——我们没有明确地为特定的动态行为制定要解决的问题** 。相反,通过持续的交互,所需的响应自然地成为解决方案的一部分。之前的工作marcucci等人(2017);霍根和罗德里格斯(2016);aceituno cabezas和rodriguez(2020)试图将这些接触操纵问题表述为混合整数规划,以得到混合系统,这使得policy能够规划不同的接触模式和适应运动。然而,随着规划范围的增加,**这些方法在计算上很快就会变得难以处理,因为可能的接触模式的数量随着规划范围长度的增加呈指数级增长** 。此外,它们需要精确的状态估计器,但这并不总是适用于许多现实世界的任务。 相比之下,在交互过程中它编码了获取解决当前情境所需基本动态的能力,并未将这些动态视为问题描述的一部分。然而,在问题描述中包含了复杂或棘手的动态特征会导致难以推导出有效的解决方案,并降低了系统的扩展性。 总体上讲我们的方法在统一算法框架下训练不同策略类型的能力很强。经由与环境的互动并监测其行为结果后该方法能根据每个任务的需求进行调整这种灵活应对的能力让系统能够有效处理各种需要不同行为的任务从而应对广泛的挑战 ## 6\. Discussion 所呈现的结果在机器人操纵领域展现了重要的进步,并推动了现有技术前沿的发展 除了其结果之外,在这项工作中提出的方法能够带来更为广泛的影响。它不仅可作为一个通用框架工具,还能提供高性能以及适应变化的操作技能,特别在高混合低产量(HMLV)制造或"按订单生产"领域具有重要价值(Jina等人, 1997;Shah和Ward, 2003;Gan等人, 2023)。这种生产方法能够在电子、半导体、汽车以及航空航天等行业展现出巨大潜力,因为它们通常需要较短的产品生命周期以及高度灵活的定制化能力以应对快速变化的需求 我们识别出未来工作领域丰富的潜力。首先介绍的是该方法不仅适于生成高质量的数据集用于训练机器人基础模型,并且展现了显著的效率优势(brohan等人, 2023b;a;collaboration等人, 2024;team等人, 2024:kim等人, 2024.)。考虑到每项任务所需训练时间相对短暂,并且整个训练流程具有高度的自主性特点,在这种背景下我们可以采用该框架系统来培养各类核心技能。随后通过执行收敛策略来收集数据并将其提炼为多面手模型的能力基础。其次虽然当前阶段所需总时长较短但每个具体任务仍需从头开始进行详细设计与实现。为了进一步提升效率我们可以考虑构建一个通用值函数网络来进行预训练这一过程该网络将整合不同机器人实例下解决一系列多样化任务的一般操作模式从而实现性能上的质的飞跃之后只需对该预训练网络进行快速微调即可满足特定任务需求 我们认识到我们的方法存在一些局限性。尽管我们在解决各种具有挑战性的任务方面取得了成功,在这些任务中发现样本复杂性问题更加显著。然而,在实验中我们并未进行广泛的随机化测试,并未在非结构化环境中验证该方法的泛化能力。本文的重点在于证明该方法在实现多种高性能操作技能方面具有通用性。此外,请参考Luo等人(2021)的研究成果,在延长policies的训练时间和提升随机化水平后可解决随机化问题;同时通过构建大规模多样化数据集上的视觉基础模型可有效解决泛化问题 我们致力于这项工作为应对这一技术挑战提供基础,并在性能上取得显著进展。 ## B. Reward Classifier Training Details 在奖励分类器的设计中,**我们采用预训练ResNet-10作为特征提取模块,并将其实现整合至一个双层MLP架构中**,随后基于交叉熵损失评估的数据集构建并优化网络结构以完成任务学习过程**. 其采用Adam优化算法进行参数更新,其学习率设置为3×10^−4. 经过总计100次迭代后完成模型训练. 为了获取训练数据集, 我们通过远程操控机器人完成任务, 并利用SpaceMouse设备记录图像与标签信息. 当机器人顺利完成任务后, 我们点击了SpaceMouse按钮, 并将其标记为1号样本; 反之则将其标记为0号样本. 在部分实验中, 我们还特意采集了额外的假阳性与假阴性样本, 以便提升分类器的整体性能水平. 具体案例可在图24中展示 > > >  > > > > 图24:为训练RAM插入任务的奖励分类器而收集的示例图像。 > > ## D. Robot Controller and Proprioceptive Information Representation ### D.1. Proprioceptive Information Representation 让机器人的基架为{𝑠};对于policy推出的第i个episode,我们将  表示为在特定时间步长𝑡相对于{𝑠}的末端执行器坐标系; 其中  对于每一集,  从指定随机化区域的均匀分布中采样。我们想表达关于  本体的感知信息。 因此,在机器人末端执行器与目标之间的相对空间距离保持一致的情况下,则该policy将在新位置适用。 该方法可防止对参考系{𝑠}中的特定全局位置过度拟合。 我们通过应用以下齐次变换来实现这一点:
T = \begin{pmatrix}
R & d \
0 & 1
\end{pmatrix}
 其中,我们使用  表示帧{𝑎}和{𝑏}之间的齐次变换矩阵。我们将从  中提取的位置和旋转信息馈送到policy。这里我们用  来表示帧{𝑎}和{𝑏}之间的齐次变换矩阵,定义为:  在大部分场景中,在机器人系统当前感知到的环境中执行策略生成六自由度(6dof)姿态变化操作。  。从数学上,6自由度扭转作用  在时间步长𝑡的坐标系  在该系统中进行表示描述。为了建立机器人控制软件的连接通路,在基帧{𝑠}中进行动作描述要求。  ,我们应用伴随映射:  式中  是齐次变换  的函数,定义为:  在两个动态操作任务中,在当前环境中由 policy 输出的一个 3 dof 前馈 wrench运动量 亦即 对应于当前接收观察的参考坐标系。  接着将该值传递至低阶机器人控制器。随后,在基于当前时间步长$t$的情况下,将该值与雅可比矩阵的转置矩阵相乘,从而得到关节扭矩。 ### D.2. Robot Controller 在多数情况下,低级机器人控制器是一个运行在1000赫兹频率上的阻抗控制装置,在这种系统中会接收到由policy模块计算得到的10赫兹频率的目标值作为输入信号。如(Luo等人,在2024a年)所述,在这项研究中我们对其进行了额外优化处理以确保其在多数接触密集的操作场景中能够维持稳定的训练过程。考虑到一个典型的无前馈项阻抗控制装置:  式中  ,𝑝为被测姿态,𝑝𝑟𝑒𝑓为上游控制器计算的目标姿态,  为期望的前馈力,  为计算科里奥利力,则需将雅可比矩阵的转置与零空间力矩的偏移相乘以将目标转换至关节空间中的力矩。其功能类似于一个弹簧-阻尼系统,在设定值𝑝𝑟𝑒𝑓附近维持平衡状态;其中刚度系数为𝑘𝑝而阻尼系数为𝑘𝑑。正如所述,在𝑝𝑟𝑒𝑓远离当前姿态时该系统会产生较大的作用力这可能导致手臂在接触物体时产生硬性碰撞甚至损坏因此必须对其产生的相互作用加以约束然而单纯地减少增益可能会削弱控制器的整体精度因此建议引入一个约束条件使得|𝑒|≤Δ随后基于弹簧-阻尼系统所生成的作用力将会被限制  ,𝑓是控制频率**。 对于两个动态操作任务来说,在1000Hz频率下采用前馈 wrench控制器。该控制器接收由政策计算得到的每10Hz更新值,并通过将雅可比矩阵转置并结合偏移量与零空间扭矩相乘来实现其功能:即将其所需的扳手动作转化为相应的关节扭矩输出。
