Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

阅读量：

abs

强化学习（RL）有望自主获取复杂机器人的操作技能；然而，在现实环境中实现这一潜力确实面临诸多挑战。我们的研究表明，在环视条件下实施强化学习系统能够有效促进灵巧操作能力的发展；该系统在灵巧操作任务方面展现出令人 impressions超凡的能力；包括动态操作、精确组装与双臂协调等多个关键环节的表现均达到了显著水准；其中我们研究的核心在于将人工纠正与示范学习相结合的技术基础与高效的RL算法以及系统的级联优化策略相结合；经过1至2.5小时的训练后，这些策略模型达到了几乎完美的成功率达到并呈现快速迭代的能力；研究表明该方法显著优于基于模仿学习的方法；其成功率较基准方法提升了约两倍同时运行效率较之前提升了一倍多以上；通过多组实验数据及深入分析我们对系统的性能表现获得了全面评估并得出了具有说服力的研究结论：即该系统能够在实际应用中有效推广以满足工业场景下的多样化需求

1. Introduction

作业是机器人技术中的核心议题，在动态灵巧的操作任务中达到人类水平的性能始终是该领域的重要追求（Cui & Trinkle, 2021）。基于试错的学习机制有望使复杂的灵巧机器人技能自动生成。通过系统化的经验积累和能力进化原则应该能够获得高度熟练的能力这些能力是专为执行特定物理特性设计的。这可能不仅超越传统手工设计的控制器还可能超过由专业人员远程操控的效果。然而由于样本复杂性准确奖励函数假设以及优化稳定性等问题在真实环境中兑现上述目标仍具挑战性。现有研究表明rl方法在模拟环境下的训练表现优异（HwangBo等人2019 Lee等人2020 Chen等人2023 Loquercio等人2021）同时也能有效应对广泛泛化的大型真实数据集（Kalashnikov等人2018 2021）。这些方法不仅被用于手工设计的基础特征还被应用于狭义定制的任务场景中。然而要开发出通用视觉驱动的方法以有效获取物理复杂能力并超越模仿学习与传统设计 controller的表现仍然充满困难我们相信如果能在这一领域取得根本突破将开创新的技术先河随后这种突破也将推动真正高性能 robot操作策略的发展。

本文介绍了一种强化学习系统（RL），该系统专注于实现视觉操作中的精确与灵巧任务。

旨在解决政策优化过程中的稳定性问题, 我们采用了预训练视觉主干网络作为基础. 为了应对样本复杂度问题, 我们采用了基于RLPD (Ball et al., 2023) 的高效非策略强化学习算法框架, 并整合了人类演示数据及修正机制. 此外, 经过精心设计的低层控制器将被激活, 其主要作用是在policy训练过程中实时监控并保证系统的安全性. 在这一过程中, 系统会请求人工干预以修正潜在的问题. 我们发现, 这一环节对于使policy从错误中学习并提升性能具有重要意义, 尤其是在本文所涉及的关键挑战任务上表现尤为突出. 这些任务因其高度复杂性难以实现零样本学习效果.

如图1所示，在我们的系统中所处理的任务包括动态翻转锅中的物体操作：从塔内取出一个方块积木，在双臂间放置物体以及组装复杂设备（如计算机主板、Ikea货架、汽车仪表盘或定时器组件），这些都需要单个或双个机械臂协同完成。这些任务在涉及高度复杂的动力学特性和高维的状态空间与动作空间方面提出了巨大挑战。其中一些技能曾被认为是在真实环境中直接运用RL进行训练所不具备的能力（例如双臂操作任务或当前机器人技术难以高效解决的任务），但近年来的研究表明：即使是在这些看似困难的任务中也能实现令人惊叹的表现——例如精确操作任务需采用反应性闭环控制策略或难以预设的精细开环行为策略（如Jenga游戏）。然而令人尤为称道的是：我们发现系统能够在几乎所有任务中成功训练出RL政策，在仅约1至2.5小时的实际训练时间内即可实现近乎完美的成功率（仅比模仿学习方法高出约101%，且循环时间提升了约1.8倍）。这一发现极为重要：因为它表明基于视觉的操作策略可以在实际训练时间内直接从真实数据中学习到广泛的人工智能技能——这是早期方法认为不可能实现的关键突破之一。此外：RL展现出超越模仿学习与手工设计控制器的能力水平

为了系统性地评估我们的系统性能, 我们采用了多种方法与现有的几种代表性的RL方法进行了对比, 并进行了消融实验来评估各个组件的作用。研究表明, 相比现有的基准方法, 我们的系统不仅在性能上表现突出, 而且实证结果的良好表现得益于这些组件的精细整合。进一步分析表明, 该系统的成功运行机制主要源于精确识别关键状态的能力; 同时, 也揭示了基于视觉信息生成高效动作策略的有效性, 这一发现为我们后续优化控制策略提供了重要参考

总体而言，在适当的系统级设计选择下

基于本文得出的研究成果, 我们期待这项工作能成为未来智能机器人领域的重要里程碑. 展望未来, 这项技术有望推动我们正朝着通用机器人操作的目标迈进, 尤其是具备适应不同环境与任务的能力, 从而实现可靠且易于部署的人工智能机器人的基本操作技能.

该系统基于强化学习技术来应对灵巧操作的任务，并对现实世界中的机器人强化学习方法及其相关的系统研究进行了深入探讨，在此基础上还分析了处理类似灵巧操作任务的不同解决方案

Algorithms and systems for real-world RL

机器人强化学习（RL）在处理高维输入（如机载感知）方面的要求较高，并且能够轻松指定奖励与重置机制（easy specification of rewards and resets）。现有研究已证明了多种算法在现实世界中实现高效学习的能力（Riedmiller等人, 2009; Levine等人, 2016; Luo等人, 2021; Yang等人, 2020; Zhan等人, 2021; Tebbe等人, 2021; Popov等人, 2019; Zhao等人, 2022; Hu等人, 2019; Hu等人等, 2024b; Johannink等人, 2019; Hu等人等, 2024a; Rajeswaran等人, 2018; Schoettler等人, 2020; Luo等人等, 2024a）。这些方法包括基于离线策略的强化学习（Kostrikov等人等, 2023）、基于模型的方法（Hester与Stone, 2013; Wu等人等, 以及基于模型的强化学习方法（Nagabandi等人等）。然而这些方法通常需要较长的训练时间才能取得理想效果

我们探讨了最相关的SERC（罗等2024a）这一核心工作，并构建了一个强化学习体系用于操作任务。相较于SERC的方法论而言，在具体实施上存在显著差异：我们整合了人类示范与修正策略来训练强化学习政策；而SERC则仅依赖于人类示范完成任务教学）。尽管这种差异看似微小，在实验结果中我们发现：集成修正（integrate corrections）这一策略对于使agent从错误中学习并提升操作性能起着至关重要的作用；尤其是在agent难以通过自身经验快速掌握新任务的场景下表现尤为突出。此外,SERC专注于处理视野相对有限且较为简单的操作任务, 并未涉及双臂协调动作或动态操作问题）。在此基础上,我们提出的主要贡献在于:成功证明了基于视觉的操作策略能够高效泛化至多种具有不同物理特性的任务类型；这使得我们的系统与其前驱研究工作存在本质区别

Dexterous robotic manipulation

对于本文中涉及的一些任务，在先前的研究工作中已经提出了一些替代方案。在插入任务领域中，相关研究主要采用了基于模型的方案（tang et al., 2016; jin et al., 2021）以及具备主动适应能力的末端执行器工具机制（morgan* et al., 2021; su et al., 2022）。这些方案往往建立在无感知状态的state-based模型上，并且需要针对特定任务进行定制开发，这限制了其泛化能力和适应性。另一种方案则是在多阶段pipeline架构中采用视觉伺服技术实现机械臂与目标物体的对齐，并通过语句搜索完成插入操作（spector et al.， 2022;chang et al.， 2024;song等人, 2015）。然而，在这一过程中特征可靠性和对齐精度仍是主要挑战之一。相比之下，在我们的方法中采用的是更为严格的感知-动作循环框架，在闭环式的学习过程中能够同时获取任务相关的视觉特征和视觉运动策略（astrom和murray, 2008）。从控制理论的角度来看，在此框架下学习得到的动作策略可以被视为一种输出反馈控制的具体实现形式

此外，在探讨本文所涉及的动态操作任务方面已有相关研究（Mason 和 Lynch, 1993）。Kormushev等人于2010年采用动作捕捉系统与动态运动原语（Ijspeert等, 2013）来学习翻转锅中的物体。然而，在我们的系统中直接使用像素输入以减少对精确动作捕捉系统的依赖，并实现了显著更高的成功率。Fazeli等人于2019年提出了一种准静态方法用于从塔中推出Jenga块。然而，在我们的方法中使用Workpiece动态删除Jenga块并提出了更具挑战性的任务——张紧器与正时皮带之间的协调必须既快速又精确才能实现有效的动态调整。尽管有关柔性对象操作的研究已取得进展（Luo et al., 2024b; Jin et al., 2019; Viswanath et al., 2023; Shivakumar et al., 2023; Viswanath et al., 2022），但本文中的正时皮带装配任务要求两个臂之间具备高度反应灵敏且精确的协同能力以便动态调节紧固器与正时皮带的位置。与此前关于电缆操纵的研究相比这项任务更具挑战性

3. Human-in-the-Loop Reinforcement Learning System

在本节中, 我们将对所述的方法进行阐述。对于概述所提出方法的动画片, 请参考适合观看。

3.1. Preliminaries and Problem Statement

机器人强化学习任务可以通过 mdp

定义，其中

是状态观察（例如，图像与机器人的本体感受状态信息相结合），

是动作（例如，所需的末端执行器扭曲 the desired end-effector twist），

是初始状态的分布，

是依赖于系统动力学的未知和潜在随机转移概率，

将它称为奖励函数，在其中的任务进行描述。最优 policy 𝜋 被定义为累计奖励的期望最大化方法。

，其中期望是关于初始状态分布、转移概率和 policy 𝜋 取的。在实践中，policy

通常被建模为由神经网络参数化的高斯分布 。

机器人任务的强化学习算法必须由我们精心选定合适的状态观察空间来实现

和动作空间

这一过程涉及正确选择合适的相机、机器人本体觉知状态以及相关的低阶控制器组。对于我们的所有任务而言，在此过程中我们采用了稀疏奖励函数。该函数通过训练好的分类器对任务的成功与否进行二元判断。在此配置下设定优化目标

致力于提高各个轨迹的成功几率。在最理想的情况下，在算法收敛时，policy 应该在每一次尝试中都达到成功状态。

基于 ball 等人 2023 年的研究成果提出的核心底层 rl 算法为 rlpd.该算法重点强调了其在样本利用效率和整合历史数据能力上的优势.在每一个训练阶段中,rlpd 通过均衡地从先验知识库与策略经验库中选取样本,形成一批用于训练的典型集（song 等人, 2023）.随后,根据各自损失函数计算出的梯度信息依次更新 q 函数的相关参数

和policy

的参数

其中

属于目标网络（Mnih团队于2013年提出），actor损失采用通过自适应调节参数𝛼进行熵正则化（Haarnoja团队于2018年提出）。

3.2. System Overview

我们的系统由三个主要组件构成：actor过程、learner过程以及嵌入在learner过程中的延迟重放区（RFB），所有这些均采用分布式架构运行（如图2所示）。actor过程通过在机器人上执行当前policy并与其交互，并将获取的数据发送至重放区。环境被精心设计为模块化结构 ，从而提供灵活的设备配置选项。这包括集成多种摄像头（如RGB相机），整合了spacemouse等输入设备以实现远程操作 ，以及支持不同类型的控制器以操作可变数量的机器人手臂的能力。为了评估任务的成功性需要设计好的奖励函数 ，该任务通常基于基于人工演示的人工智能离线训练策略（Offline RL）。在actor流程中，人类可以通过spacemouse干预机器人控制，并在此过程中将spacemouse从rl policy接管机器人控制权的过程得以实现。我们采用了两个重放区：一个是用于存储离线人工演示数据（称为演示缓冲区），其大小通常维持在20-30范围内；另一个是用于存储与策略相关的数据存储区域（称为rl缓冲区）

learning agent equally samples data from both demonstration and rl-prioritized slow-ring buffer, employing rlpd to optimize the policy. every few steps, the updated policy is transmitted to the actor process. in the remaining portion of this section, we will elaborate on our design choices for each component.

3.3. System Design Choices

该系统的样本效率不容忽视,因为持续的数据采集与训练活动会消耗资源成本.鉴于此,为了保证训练过程的有效性,必须维持在合理区间内,尤其是在处理复杂输入场景时.此外,下游机器人系统需确保与rl策略兼容,从而实现平滑的学习过程.例如,实际的低级机器人控制器将格外谨慎,特别是在执行那些精确接触丰富的任务时.这些操作不仅要求精确性,还需具备高度的安全性,以使rl算法能够在随机动作探索阶段稳定运行.为了能够在真实环境中有效执行样本高效策略学习的任务,我们进行了如下关键设计决策.

Pretrained Vision Backbones

为了提高训练效率并优化视觉处理效果，在本研究中我们采用了基于预训练视觉主干的图像数据处理方法。尽管这种方法已成为计算机视觉领域的常用策略，并且其目的是为了增强模型的鲁棒性和泛化能力(Radford等人, 2021; Dosovitskiy等人, 2021年; Kolesnikov等人, 2020年)，但在强化学习（RL）领域中采用这种处理方法带来了额外的优势(Yang和Wang, 2019; Du等人, 2020)，从而特别适用于现实世界的机器人RL训练。我们的神经网络架构基于相同的预 trained 视觉主干模型，并从相机传感器获取多幅图像进行处理。具体来说，在ImageNet (Deng et al. ， 2009)上经过预 training 的ResNet-15 模型(He et al. ， 2015)被用来生成输出嵌入特征向量；随后将这些嵌入特征向量连接起来并与经过处理后的本体感受信息进行集成融合（如图 3 所示），从而实现了更为高效与有效的学习过程。

图 2展示了hil-serl架构概览。该架构由三个关键组件构成：actor过程、learner过程及回放缓冲区。该架构通过异步通信机制实现高效的数据流动传输。具体而言，在actor过程中端负责接收 learner进程中最新版本的policy参数，并与环境进行交互操作；随后将处理完毕的数据输出至慢速缓冲区以便后续处理使用。此外，在环境设计上进行了充分模块化优化以适应多种外围设备及多套机械臂系统需求；操作者可通过空间鼠标等远程操作工具对系统进行干预调控；在学习机制方面，则采用均匀采样策略从两个慢速缓冲区中获取数据样本并结合rlpd算法对策略进行持续更新优化；特别地，在夹具控制相关任务中则采用dqn算法额外训练抓取策略以提升整体系统的抓取成功率。

Reward Function

强化学习系统的核心要素之一是奖励函数，在指导智能体行为并评估策略有效性方面发挥着重要作用。尽管先前的研究主要依赖于采用奖励塑造 reward shaping 的方法来加快学习进程（ng et al., 1999; florensa et al., 2018; 2017），但这一过程通常是针对特定任务且耗时定制的。然而对于一些高度复杂的任务而言，在实际操作中实施这种 rewards shaping 变得困难起来。我们的研究表明一种简单有效的设置能够适应多种不同的应用场景具体而言我们发现通过收集离线数据集并针对每个具体的任务训练一个二元分类器可以在仅在成功完成目标时给予正向反馈其余情况下均不给予任何激励

Downstream Robotic System

为适应policy学习过程的关键需求，在机器人系统的设计中做出了若干重要决策。为了便于在空间中进行泛化处理，在相对坐标系中表示机器人的本体感受状态 ，这种表示方式允许以自身为中心来进行自我定位。本质上，在每个训练集中机器人末端执行器的姿态被均匀分布在预设区域 作为初始状态。机器人的本体感受信息基于末端执行器初始姿势建立相对帧表示 ，而policy输出的动作则与其当前所处的位置密切相关。这一机制模拟了仿生学中基于相对运动感知的目标跟踪机制，在面对物体运动或实验过程中可能出现的各种干扰时仍能有效运行（如luo等人, 2024a）。对于涉及接触操作的任务，在实时层采用一种带有限制的阻抗控制器来确保系统的安全性；虽然这种开环控制不包含闭环反馈调节机制，但经过实验验证其能够完成所需的任务要求。而对于动态环境下的操作，则通过末端执行器坐标系施加预判性wrenches以加速机器人手臂运动，并发现这种简单的控制策略足以实现预期目标。

Gripper Control

针对夹具控制相关的任务，在本研究中我们采用了单独的一个 critic 网络来评估其离散抓取动作的效果。然而这种方法虽然看似需要额外资源或显得不太常规，在实际应用中表现出色尤其是在结合人类演示和修正的情况下。由于夹持器动作具有离散性质，在本文考虑的任务范围内逼近它们变得更具挑战性特别是当涉及到复杂操作时。通过采用离散动作的方式我们可以有效地简化整个训练流程并且显著提升了强化学习系统的整体效能具体而言我们在这些任务中成功解决了两个独立的人工智能体各自的MDP问题

和

，其中

分别可以被划分为连续型和离散型的动作空间，并且它们都从环境中感知到了相同的state observations, 包括图像信息, 本体感觉数据以及抓手的状态信息等. 离散型动作空间

由一系列离散的动作构成。对于单个夹具来说，这些动作包括打开、关闭以及停留。当有两个夹具时，则扩展了动作范围。

个组合，考虑到每个夹具可以采取的所有可能动作。

基于DQN框架的标准实现（Mnih et al., 2013），此外还引入了一个补充的目标网络用于提升训练稳定性），如上所述：

其中

目标网络代表其可以通过执行与当前网络参数的Polyak平均更新过程来确定其参数值（van hasselt等人, 2015）。在训练过程中或推理阶段, 我们首先根据上述方法更新目标网络的参数值。

中的 policy 查询连续动作，然后通过对评论家的输出取 argmax 从

中的 critic 查询离散动作**；然后，我们将连接的动作应用于机器人。

3.4. Human-in-the-Loop Reinforcement Learning

基于系统的决策框架下

为了解决现实世界机器人RL训练中的这一难题，在RL算法中我们通过整合环内反馈机制来指导学习过程，并帮助政策模型更高效地探索潜在策略。具体来说，在训练过程中, 人类操作员会对机器人进行实时监控, 并根据需要提供必要的纠正指令. 参考图2所示的界面设计, 在此过程中, 我们能够实时观察到系统的运行状态. 对于从时间步长获取的数据进行处理和分析.

的自主推出轨迹，人类可以在任何时间步长 𝑡𝑖 进行干预，其中

在干扰时间段里,机器人受到了人类共计N次的操作。作为图2中红区所展示的片段,可以在一个轨迹中实施多样化的干预方式。当人类进行干扰时,他们会按照既定程序执行相应的指令

应用于机器人，而不是policy的动作

我们将干预数据存入演示界面 demonstration 和 RL数据缓冲区 $RL$ data buffers 中。然而，在 $RL$ 缓冲区 buffer 中仅用于记录策略的变化（即干预前后状态与动作）。该方法已在提升政策训练效率方面取得了显著成效。

这种干预针对政策引发机器人处于无法恢复或不希望状态的情况至关重要；或者当政策陷入局部最优状态时，则可能需要大量时间，在无需人工干预的情况下才能克服这一挑战。此过程类似于hg-dagger(kelly et al., 2018)，该方法主要关注于当政策表现不佳时的人类接管行为来进行数据采集；然而我们采用强化学习而非监督学习的方法进行政策优化（luo等人, 2023）。在我们的实验环境中设定中，默认由人类操作者与Spacemouse 3D三维鼠标交互，并通过其提供机器人所需的纠正指令。

在训练初期阶段，在某些情况下人类会对系统进行频繁干预以提供必要的纠正动作。随着政策的有效性逐步提升，在后续阶段此类干预的频率将逐渐降低。根据我们的实践经验，在操作员向系统发出特定类型更正指令时观察到该系统的学习效率明显提升，并且能够促进机器人进行自主探索。

3.5. Training Process

为了清晰地阐述我们的系统训练流程以及方便读者复现实验结果，在每个实验的具体环节中操作步骤进行了全面梳理。

首先，我们选择了最佳配置的相机组合。这些设备凭借其自中心视角特点，在提升对空间泛化的适应能力方面具有显著优势。然而，在单一的手腕摄像头无法覆盖整个环境时，则会并安装若干个侧面摄像头辅助观测。对于所有设备而言，在完成拍摄后我们都会对所拍图像进行裁剪以聚焦于感兴趣的部分，并统一将图像尺寸调整至128x128像素大小进行后续处理

接下来，我们将采集数据以训练奖励分类器，并将其作为构建指导学习流程的关键步骤之一。具体而言，我们采用机器人远程操作执行任务的方式采集正样本 200 个和负样本 1000 个。考虑到每个轨迹通常持续约10秒，在线获取这些数据集所需时间约为5分钟。为了确保系统的鲁棒性，在训练完成后我们计划补充额外的数据以解决奖励分类器可能出现的假阴性和假阳性问题。实验表明，在标准测试集上该模型达到了95%以上的识别准确率

然后我们采用了主动学习的方法收集了20-30条人类演示轨迹来应对各种复杂任务并将其用于初始化离线回放缓冲区

4. Experiment Results

在本节中，我们将探讨我们的实验设置及所得数据。随后将介绍与该实验相关的设置及所得数据，并进行详细分析。接着将深入分析这些数据及其所反映的意义

4.1. Overview of Experiments

我们对涵盖不同特征的七个实验任务进行了研究，请参见图3所示结果。这些挑战涵盖了多种操作类型：包括动态物体处理（如锅中翻转）、精确细致处理（如SSD放入匹配槽）、动态精准插入（如随目标移动时添加组件）、灵活组件装配（如组装定时器带子），以及多阶段复杂作业（如 IKEA 架子组装）。我们采用单臂或多臂配置，并结合视觉与动作协调的方法完成这些任务。

观察空间可包含由手腕安装与侧面摄像头提供的影像数据、末端执行器的姿态信息、物体的扭转情况以及操作臂当前抓取工具的状态。对于动态任务，在末端执行器坐标系中施加预馈力矩被视为必要的加速度指令。

对于其他任务而言，动作空间可被定义为每个手臂的6维笛卡尔twist目标并应用于下层触觉控制模块；而对于抓取相关的任务，则需单独定义夹持器的动作方案**。在本节中所述的所有任务中（除非另有特别说明），我们都采用了统一的学习框架来进行训练：具体而言，在每一种任务中都建立了二类分类器来完成奖励检测功能，并将手腕部及/或侧置摄像头捕获到的画面信息作为输入信号来源；为了获得高质量的训练数据集，在完成主数据采集后还补充了一些潜在的人为假阳性与假阴性示例** 。所有实验过程的具体实施细节均可在附录中找到** 。在实际操作过程中，我们发现引入夹持器动作的小负惩罚能够有效抑制策略在不必要的夹持操作上的过度行为；此外，在每个学习周期开始前都会采用随机化策略设定初始状态** 。为了全面评估所设计框架的有效性，在后续章节中我们将分别对每一种典型应用任务进行详细阐述，并对比分析其性能指标与现有先进方法的表现差异** 。

4.2. Description of Tasks

在本节里,我们将阐述我们在实验中所设定的任务描述.为了全面覆盖各种操作难题,我们在实验中选择了包含丰富场景、协调运作以及灵活处理的对象作为核心内容.通过整合这些挑战的方式进行组织,使得各个部分更加协调.随后,我们设计了两项针对复杂环境中的精准执行动作的任务.接着,安排了三套需运用双臂协同完成的操作方案,其中一项重点是灵活对象的处理.最后,进行了两项基于动态过程的操作测试.每个具体细节均可在图3中找到.

Motherboard Assembly 主板装配

主板装配作业涉及四个具体步骤：首先，在内存插槽内安装内存卡；其次，在PCI-E接口上接驳固态硬盘；接着，在桌面上选取一根可自由活动的USB线，并将其可靠地连接到指定插槽；最后使用夹具稳固住这条数据线以确保不会移动

IKEA Assembly

该 IKEA 装配任务要求组装一个包含四个面板的 IKEA 架子，并将其分解为三个具体子任务：其中机器人首先要将两侧的面板固定在桌面上完成组装；随后在完成这两边安装后需将顶部(panel)组件安装到两侧已有的基础上方位置上；如果所有组件正确地组合并构建出完整的货架，则认为该装配过程是成功的；对于每一个子任务，在此过程中我们假设各板块均由机器人预先进行抓取操作；然而，在实际操作中我们会定期将这些组件放置回夹具后重新进行抓取以引入更多变化

Car Dashboard Assembly

如图3所示，在汽车仪表板装配过程中有两个主要阶段：首先需正确捕获工件的合适位置，并将其举起以便进行下一步骤——将它们整合到仪表板上。若所有引脚均已被准确插入至相应孔位，则可判定此装配过程已顺利完成。此过程要求精确的操作配合以及双手协调：两臂须同步运动与夹具闭合的时间以使工件准确向上并同时对齐多个引脚。

Object Handover

Timing Belt Assembly

Jenga Whipping

Object Flipping

4.3. Experimental Results

在本小节中，我们呈现了上述所有任务的具体实验结果。对于每个任务的具体表现指标而言，我们详细记录了其成功率、循环时间以及训练时间的具体数值。训练时间特别包含了所有脚本运行机器人运动、策略迭代以及预期终止条件的计算步骤 。除特殊说明外，默认所有结果均为基于100次独立评估运行实验所获得的数据。在整个评估过程中，在机器人执行脚本指令或人工随机化初始状态设置的基础上运行实验（即机器人运动或初始状态随机化），我们采用了统一的评估协议来进行性能测试。这些具体细节均可以在补充材料中找到详细的描述

本文的主要观点是 Hil-SRL 方法优于基于人类远程操作的模仿学习方法。为了进一步证明这一观点，在等效条件下公正地比较相关的方法至关重要。正如 (ross et al., 2011) 所指出的那样，简单的模仿学习容易受到错误复合问题的影响。Dagger及其变体通过结合人工校正结合监督学习细化策略来解决这个问题。我们的方法也利用人工校正但采用基于特定任务奖励的强化学习来优化策略。为此，在使用相同数量的人类演示进行训练时我们将基线设置为 HG-Dagger（kelly et al., 2018）。具体来说我们首先使用相同数量的人类演示进行行为克隆预训练基础策略然后运行该策略并收集人类专家提供的更正以使干预措施的数量与强化学习中的训练相匹配。随后我们运行与我们的方法相同数量的任务并收集更多的干预措施以保证数据的一致性

该比较限定于除 jenga_whping 外的所有任务，并排除了对象翻转方案。这些干预措施均呈现高度的难度与不足。对于这类任务而言，在现有方法的基础上我们采用的方法是通过收集50至200个离线示例并训练相应的BC政策作为基准策略**（即 baselines）。这种方法提供的样本数量远超现有方法（通常在20至30个样本之间）。

在所有实验中, 我们基于成功率与周期时间的主要指标, 对比不同方法以评估其性能. 研究结果表明我们的政策逐步优化, 在理论上预测的理想状态下能够实现完全自主的操作.

如图4所示：实验任务的学习曲线。该图分别展示了hil-serl和dagger在少数代表性任务中的成功率、周期时间和干预率（均为20次发作的连续平均值）。对于hil-serl，在整个训练过程中其成功率迅速上升到100%，同时其干预率和周期时间逐渐下降并稳定在0%。而对于hg dagger来说，其成功率在整个训练过程中呈现波动性变化趋势，并不一定随着训练的深入而持续增加。值得注意的是，在此研究中由于干预措施的频繁实施导致了成功结果的真实policy的成功率可能低于所展示的曲线值。此外，在后续的时间里干预率并未持续降低的趋势表明policy未能稳步改进这一点也体现在循环时间上即循环时间没有得到改善因为dagger缺乏在提供的训练数据之外提升性能的有效机制。补充材料中提供了其他地块的数据供进一步分析参考

（a）不同任务下的BC与RL的成功率及循环时间进行对比分析。值得注意的是，在宜家整体组装任务中仅经历了10次实验过程；而对于其余所有实验项目，则均进行了至少100次以上的重复测试以确保数据可靠性。
采用基于行为克隆的方法进行基准模型训练；其中在控制阶段以及干预阶段所消耗的时间与强化学习方法相当。
值得注意的是，在Jenga鞭打与物体翻转等特定场景中，
我们采用了"flat"策略来进行强化学习辅助策略优化；
其中在Jenga鞭打过程中经历了54秒的平均控制时长，
而在完成物体翻转动作时则需要投入约294秒的时间。

首先，如表1所示，在经过1至2.5小时的真实训练后，HIL-SERL获得了完美的成功率。这一成绩显著超越了基于HG-DAgger的传统方法（该基准方法平均获得约49.7%的成功率）。对于需要执行复杂操作的任务类别而言，两者的性能差异更为显著——Jenga操作、插入RAM棒以及完成时间带组装等任务表现尤为突出。

我们还统计了图4中几乎所有任务的人工干预频率数据。具体而言，在计算过程中我们采用了时间步比例的方法，并将结果以运行均值的形式进行了呈现统计结果表明该数值显著高于20集（集合）。从图表中可以看出随着训练周期的推进干预频率呈现出下降趋势这表明相关策略正在逐步优化变得越来越独立于人工干预这一现象值得进一步探讨此外我们在观察到总体干预时长出现显著下降的情况下发现初始阶段当策略尚未完全成熟时我们会发出较为频繁且稀疏的人工干预指令而待策略逐步完善后只需发出较短的指令即可有效纠正相应问题相比之下基于hg-dagger架构设计的策略由于其固有的特性仍需采用更为频繁的干预手段以维持性能稳定但其总持续时间未必会随着训练时长的增长而持续减少

基于强化学习的核心优势, 我们的算法在性能上超越了hg-dagger模型

要考虑到的一个重要因素是循环时间或其他关键因素。从数据来看, hg-dagger政策在完成任务所需的平均周期上表现更为突出,其平均运行时约为9.6秒,而我们提出的方法则能够将这一数值降至5.4秒,即降低了约42%。这一改进并非完全意外,因为我们观察到模仿学习方法未能有效处理人类演示中的次优行为机制。相比之下,强化学习（RL）能够通过动态规划优化奖励的折现总和,从而实现更高的效率与稳定性。对于折扣因子α=0.95的情况

这种方法促进 policy 更快地获取奖励，并非模仿人类演示而获得的奖励所能比的是更快捷的方式。

在这些实验中发现的方法显示出高度通用性和有效性；能够生成符合各具体需求的开环与闭环策略。针对精确操作的任务如组装定时带或插入ram棒；该方法使机器人能够将与任务相关的视觉特征与适当的扭转运动联系起来；随后该策略能够持续执行视觉伺服操作并在实时反馈中调整动作直至完成目标；相比之下；在jenga游戏以及物体翻转等任务中；通过交互学习预判动作后果；随后该策略能够细致优化动作细节并维持操作一致性；此外我们深入分析了所学行为并将详细讨论推迟至后文部分

4.4. Robustness Results

为了评估我们所提出的方法在零样本学习场景下的鲁棒性，图5展示了若干定性实验结果。这些实验表明该策略不仅表现出良好的动态适应能力，在处理外界干扰方面也展现出显著优势。具体而言，在夹持器被恶意 humans 意识到并主动移除物体的任务中表现良好；同时，在夹持器在任务执行期间意外打开容器盖等外部干扰情况下仍能有效完成抓取动作。完整的视频剪辑片段及详细实验条件可在附录部分以及补充材料中的网站 https://hil-serl.github.io/ 中获取。

图5详细展示了通过该方法学习得到的policy在不同干扰下的稳定性分析。（a）在外部干扰下插入ram以模拟移动主板的状态。（b）当夹具被强行打开时，在转移任务期间会尝试重新执行操作。（c-d）动态调整策略以应对正时皮带任务中的外部干扰与变形情况。（e-f）当仪表板装配过程中出现多个夹具被强行打开时，在抓取阶段 policy 会主动释放已固定物品并重新定位。（g-h）在处理usb插头插入问题时，policy 会先释放固定住的物品然后重新尝试插拔以解决接触不良的问题

在处理定时带装配时能够承受任何形式的变化。
机器人在处理定时带装配时能够承受任何形式的变化。
而施加的人工干预与实时调整是保证policy鲁棒性的关键因素。
这些干扰包括人工干预与实时调整两种情况：一种是人工干预皮带形状；另一种是在装配过程中动态重新定位它。
基于机器人自身的感知系统能够准确捕捉到目标位置的变化；因此我们能够在装配过程中根据检测到的信息进行相应的调整。
该策略成功实现了ram棒的插入。
针对汽车仪表板组装与对象切换的任务；在抓取完成后强制夹持器打开以完成后续操作。
为了模拟较差的抓取姿态；我们对usb连接器施加了特定的姿态约束；随后通过释放连接器并重新抓取其以达到理想的工作状态。
这些稳健的行为是通过rl训练阶段的自主探索来实现的。
然而这些行为通常难以通过模仿学习方法实现因为缺乏这种机制来自主探索和学习它们的动作的结果。

4.5. Additional Baseline Comparisons

为了验证我们所提出的方法中设计选择的有效性, 我们重点考察了汽车仪表板面板组装(双臂协调)任务、ram插入(精确操作)任务以及对象翻转(动态操作)任务的表现特征。通过将我们的方法与现有的几种先进方法进行对比分析, 我们深入揭示了其性能优势的不同维度。进一步探讨了人类干预在提升系统性能中的作用机制, 并通过消融实验分析了不同数量的人类演示样本及其修正版本的比例关系。在此基础上, 我们展示了我们的模型如何有效地整合并利用人类演示数据来提升性能水平。此外, 在对比过程中特别引入了扩散策略(Chi等人, 2024)作为基准方案进行评估, 并对其表现特征进行了详细分析

我们首先发现了从头开始的RL策略，在无演示或校正的情况下，在所有任务上的成功率均为零（成功率：0%）。为了验证在线人工校正的作用及其重要性,我们将 serl 系统中 10折离线缓存区内的演示样本数量从常规设置下的20提升至200.然而,在完全缺乏在线校正支持的情况下,与 Hil-Serl 方法相比,该方法的成功率明显下降,特别是在涉及复杂操作如汽车仪表板组装等任务时几乎完全失败（成功率：0%）。这些结果验证了在线干预在强化学习框架中提升策略性能的关键作用.此外,这些发现进一步证明了离线演示及政策内部的人类干预对于指导强化学习过程的重要意义,尤其是在需要连续反应行为的任务中。

在对象翻转任务中，我们通过训练两个不同规模（20和200）的bc policies来进行学习。这两个策略表现出高度一致性，在测试中的准确率分别为47%和46%。即便进行了十倍于当前数量的示范学习，在本研究中发现仅模仿人类行为仍然无法有效解决这一问题（该问题在很大程度上属于开环操作）。

另一个重要的考量是如何处理与他人的演示之间的差异。为了便于对比分析，在每个任务中我们收集了 200 个示范样本。值得注意的是，在这种方法中离线阶段的示范数量相对较少。具体而言，在离线缓存机制中通常维持在约二十到三十之间。针对残差RL和IBRL算法，在每一步训练过程中我们会使用这些示范样本来构建行为克隆策略，并将其整合进各自的算法架构。特别地，在DAPG策略设计阶段，则会将全部两百份示范样本集中管理在一个专用缓冲区域，并对其相应的策略执行进行规范化约束。综合来看...在性能指标上明显优于上述各项基准方法。

可以这样理解：残差 rl 建立在预训练的基础政策之上，并通过这种方式促进学习过程。然而，在需要精确操作的任务中——例如汽车仪表板装配或 ram 插件安装——这种方法可能会遇到挑战。模仿学习的方法在这些任务中效果欠佳；因此这可能导致 rl 学习过程出现重大问题。对于 ibrl 来说，在参与者的策略中融合了 bc 和 rl 策略；这种情况下参与者采用的是 bc 和 rl 策略的融合体，并使行为更加接近于 bc 方式。尽管如此，在这些情况下 ibrl 仍需面对挑战；而 dapg 方法则通过直接规定执行演示操作的方式确保其性能水平与基于行为复制的方法不相上下。

我们方法的有效性源自底层rl算法的非策略特性 ，该算法通过动态考虑人类数据与当前policy优化目标的相关性来加权人类数据 。与johannink等人(2019)；hu等人(2024a)；rajeswaran等人(2018)相比；我们的方法并不过分依赖于高质量的人类演示；而是提供了一个机制，在训练初期就能有效利用人类数据，并使agent能够逐步超越甚至超越人类水平的表现。关键在于这一机制能够避免agent受到人类演示的限制，在从演示中获得指导的同时鼓励自主探索以发现更加优秀且创新的战略。

为了比较扩散 policy (chi et al., 2024) 的性能表现，在每个任务中我们进行了200次演示训练policies的过程，并将结果与其方法中所使用的离线回放缓冲区中的演示数量进行了对比。通过采用最佳算法参数（例如动作分块长度和观察序列长度）以及参考补充材料中所使用的动作序列长度来呈现实验结果。在ram插入和汽车仪表板面板任务上, 扩散 policies的成功率分别为27% 和 28%. 在对象翻转任务上, 成功率达到了56%. 这一结果低于我们的方法甚至低于hg-dagger基准线. 这一结果并不令人意外, 因为扩散 policies的主要优势在于学习更具有表现力的policy分布. 然而, 这些任务往往需要更复杂的闭环反应行为, 例如连续视觉伺服控制以纠正运动偏差. 因此, 虽然扩散 policies在学习表达policy分布方面具有显著优势, 但这一优势并未直接转化为这些任务中的性能提升

5. Result Analysis

为了对我们的结果进行深入分析，我们系统性地研究了已掌握的 policies。这项研究特别关注两个关键维度：可靠性和稳定性以及相关的行为模式。我们不仅探究了这些策略为何能在各种任务中表现出色，并且探索了促进策略稳定性的因素。此外，在深入了解这些政策所具有的行为特征时，特别关注反应与预测策略之间的差异。通过系统性分析，我们希望揭示出该方法在处理复杂操作任务中潜在优势的关键原因。

5.1. Reliability of the Learned Policies

high reliability represents a critical feature of the hil-serl performance. it has achieved a 100% success rate across all tasks. reinforcement learning accomplishes this ability through policy sampling and self-corrective mechanisms. whereas imitation learning methods, including interactive approaches, do not incorporate such self-corrective mechanisms, making it more challenging to achieve comparable performance using the same amount of data. despite existing theoretical work on q-learning convergence (papavassilio and russell, 1999; bhandari et al., 2018; jin et al., 2020; yang and wang, 2019), our analysis focuses on providing an intuitive understanding of the training dynamics.

为了阐述这一过程我们进行了深入分析其中ram插入任务具有特殊性因为其要求操作精确并且在x和y方向上的对称随机化使得其易于可视化。基于末端执行器的y和z坐标我们制作了图6中不同政策检查点在跨时间步状态访问计数上的热图。通过policy学习过程我们发现连接初始状态与目标位置呈现出漏斗状逐渐演变的特点当空白区域被填满时随着接近目标区域逐渐收缩这一现象表明policy的学习效果正在提升其置信度与定位精度均有所增强随后随后我们引入了‘临界状态critical states’的概念定义为q函数方差较大的状态使用以下公式计算该方差：$$
\sigma^2(s) = \text{Var}(Q(s,a))

T = \begin{pmatrix}
R & d \
0 & 1
\end{pmatrix}

全部评论 (0)

还没有任何评论哟~

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

abs 强化学习rl有望实现复杂机器人操作技能的自主获取，但在现实环境中实现这种潜力具有挑战性。我们提出了一种人在环视觉的rl系统，该系统在各种灵巧操作任务上展示了令人印象深刻的性能，包括动态操作、精...

SPIN Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

SPINSMPLoPtimizationINtheloop papertitle:LearningtoReconstruct3DHumanPoseandShapeviaModelfittinginth...

(3D-HPE)Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

LearningtoReconstruct3DHumanPoseandShapeviaModelfittingintheLoopICCV2019 github:https://seas.upenn.e...

[论文阅读] Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

时间：2018/08/01 会议：Robotics:ScienceandSystemsXIV 摘要&introduce 灵巧的多指手操作由于高维数和大量的潜在接触，有效地控制仍然具有挑战性。

阅读笔记DAPG：Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

WordsandExpressions dexterous灵活的 tocombatdistributiondrift inprinciple …whichnecessitate… intheorder...

[论文阅读] Learning Dexterous Manipulation Policies from Experience and Imitation

时间：2016/11/15 作者相关：VikashKumar:SeniorResearchScientistinRoboticsandEmbodiedAIvikashplus.github.io 摘要...

RVT-2: Learning Precise Manipulation from Few Demonstrations

是对上一篇RVT的改进。发表时间：12Jun2024 作者单位：NVIDIA Motivation：为了在工业和家庭领域很有用，这样的系统应该能够用很少的演示来学习新任务，并精确地解决它们。

[论文阅读] CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation

开源：CyberDemo:AugmentingSimulatedHumanDemonstrationforRealWorldDexterousManipulation Abstract cyberde...

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

综述本文介绍第一代推理模型DeepSeekR1Zero和DeepSeekR1。 DeepSeekR1Zero是一种通过大规模强化学习RL训练的模型，无需监督微调SFT作为初步步骤，表现出卓越的推理能...

Reinforcement Learning in Deep Learning: Unlocking the Power of AI

1.背景介绍人工智能（AI）已经成为现代科学技术的一个重要领域，其中深度学习（DeepLearning）是其中的一个重要技术。深度学习是一种通过模拟人类大脑结构和学习过程来自动学习和提取知识的计算机...

是否确定退出登录?

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

abs

1. Introduction

2. Related Work

Algorithms and systems for real-world RL

Dexterous robotic manipulation

3. Human-in-the-Loop Reinforcement Learning System

3.1. Preliminaries and Problem Statement

3.2. System Overview

3.3. System Design Choices

Pretrained Vision Backbones

Reward Function

Downstream Robotic System

Gripper Control

3.4. Human-in-the-Loop Reinforcement Learning

3.5. Training Process

4. Experiment Results

4.1. Overview of Experiments

4.2. Description of Tasks

Motherboard Assembly 主板装配

IKEA Assembly

Car Dashboard Assembly

Object Handover

Timing Belt Assembly

Jenga Whipping

Object Flipping

4.3. Experimental Results

4.4. Robustness Results

4.5. Additional Baseline Comparisons

5. Result Analysis

5.1. Reliability of the Learned Policies

全部评论 (0)

相关文章推荐

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

SPIN Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

(3D-HPE)Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

[论文阅读] Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

阅读笔记DAPG：Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

[论文阅读] Learning Dexterous Manipulation Policies from Experience and Imitation

RVT-2: Learning Precise Manipulation from Few Demonstrations

[论文阅读] CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Reinforcement Learning in Deep Learning: Unlocking the Power of AI