Advertisement

SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning

阅读量:

abs

近年来,机器人强化学习(rl)领域取得了重大进展,使处理复杂图像观察、在现实世界中训练以及结合辅助数据(如演示和先前经验)的方法成为可能。然而,尽管取得了这些进步,机器人强化学习仍然很难使用。从业者普遍认为,这些算法的具体实现细节对性能的影响通常与算法的选择同样重要(如果不是更重要的话) 。我们认为,机器人强化学习的广泛采用以及机器人强化学习方法的进一步发展面临的一个重大挑战是这些方法相对难以接近 the comparative inaccessibility 。为了应对这一挑战,我们开发了一个精心实现的库,其中包含一个示例高效的非策略深度rl方法,以及计算奖励和重置环境的方法,一个广泛采用的机器人的高质量控制器,以及许多具有挑战性的示例任务。我们提供这个库作为社区的资源,描述它的设计选择,并展示实验结果。也许令人惊讶的是,我们发现我们的实现可以实现非常有效的学习,平均每policy需要25到50分钟的培训,就可以获得pcb板组装、电缆布线和对象重新定位的policies,从而改善了文献中类似任务报告的state-of-the-art结果。这些policies实现了完美或近乎完美的成功率,即使在扰动下也具有极高的鲁棒性,并表现出紧急恢复和校正行为。我们希望这些有希望的结果和我们高质量的开源实现将为机器人社区提供一种工具,以促进机器人强化学习的进一步发展。我们的代码、文档和视频可以在https://serl-robot.github.io/

1. Introduction

近年来,机器人强化学习(RL)取得了相当大的进展,取得了令人印象深刻的成果,机器人打乒乓球(Bu M chler等人,2022),从原始图像中操纵物体(Gupta等人,2021;Kalashnikov等人,2021;Levine等人,2016b),抓取各种物体(Levine等人,2018;Mahler等人,2017),并掌握了广泛的其他技能。然而,尽管在底层算法方面取得了重大进展,但RL在解决现实世界的机器人学习问题方面仍然具有挑战性,实际应用也更加有限。我们认为,部分原因是RL算法的实现,特别是对于现实世界的机器人系统,提供了非常大的设计空间,而限制采用的是导航这个设计空间的挑战,而不是算法本身的局限 性。该领域的从业者通常承认,RL算法实现中的细节可能与算法的特定选择同样重要(如果不是更重要的话)。此外,现实世界的学习带来了额外的挑战,包括奖励规范、环境重置的实施、样本效率、合规和安全控制, 以及其他给这个问题带来更大压力的困难。因此,现实世界机器人RL的采用和进一步研究进展很可能会在实现上而不是在新的算法创新上遇到瓶颈。

为了应对这一挑战,我们在本文中的目标是提供一个开源软件框架,我们称之为样本高效机器人强化学习(SERL),旨在促进RL在现实世界机器人中的更广泛采用。SERL由以下部分组成:(1)高质量的RL实现 ,面向现实世界的机器人学习,支持图像观察和演示;(2) 与图像观察兼容的几种奖励规范方法的实现 ,包括分类器和对抗训练;(3) 支持学习"forward-backward"控制器,可以在试验之间自动重置任务(Eysenbach等人,2018);(4) 原则上可以将上述RL组件连接到任何机器人操纵器的软件包;以及(5)阻抗控制器设计原理 ,其对于处理接触丰富的操纵任务特别有效。我们在这篇论文中的目的不是提出新的算法或方法,而是为社区提供一种资源 ,为机器人专家提供一个精心设计的基础,为未来机器人RL的研究以及可能将机器人RL用作子程序的其他方法奠定基础。然而,在评估我们的框架的过程中,我们也做出了一个科学上有趣的实证观察:当在精心设计的软件包中正确实施时,当前高效的机器人RL方法可以在相对较少的训练时间内获得非常高的成功率。我们评估中的任务如图1所示:精确插入任务,涉及动态接触、具有复杂动力学的可变形物体操纵和物体重定位,机器人必须在没有手动设计重置 的情况下学习

对于这些任务中的每一个,serl能够在每policy(就总挂钟时间而言)15-60分钟的训练时间内有效地学习,实现近乎完美的成功率,尽管学习了对图像观察进行操作的policies。这一结果具有重要意义,因为rl,特别是深度网络和图像输入,通常被认为效率极低 。我们的研究结果挑战了这一假设,表明仔细实施现有技术,结合精心设计的控制器和精心选择的奖励规范和重置组件,可以提供一个足够高效的整体系统,供现实世界使用

虽然我们的框架将现有的强化学习方法组合成一个完整的机器人学习系统,但部分的特定组合经过精心设计,可以直接在现实世界中提供高效和开箱即用的强化学习,并且如我们的实验所示,在各种任务上都取得了出色的结果。在这里,我们总结了相关的先前方法和系统。

Algorithms for real-world RL

现实世界中的机器人RL要求算法具有样本效率,可以利用机载感知,并支持轻松指定的奖励和重置。许多算法已经显示出在现实世界中非常有效地直接学习的能力(Riedmiller等人,2009;Westenbroek等人,2022;Yang等人,2020;Zhan等人,2021;Hou等人,2017;Tebbe等人,2021年;Popov等人,2017年;Luo等人,2019;赵等人,2022年;Hu等人,2024;Johannink等人,2018;Schoetletler等人,2020),使用off-policy RL的变体(Kostrikov等人,2023;Hu et al.,2024)3)、基于模型的RL(Hester和Stone,2013;Wu等人,2022;Nagabandi等人,2019;Rafailov等人,2021;Luo等人,2018)和on-policy的RL(Zhu等人,2019)。这些进展与通过成功分类器从原始视觉观察中推断奖励(Fu等人,2018;Li等人,2021)、基于基础模型的奖励(Du等人,2023;Mahmoudieh等人,2022;Fan等人,2022)和视频奖励(Ma等人,2023b;a)的进展相结合。

此外,为了实现自主训练,在无重置学习 方面取得了许多算法进步(Gupta等人,2021;Sharma等人,2021;Zhu et al., 2020;谢等,2022;Sharma et al., 2023),可以在最小的人为干预下实现自主训练。虽然这些算法的进步很重要,但我们在这项工作中所做的贡献是提供一个框架和软件包,通过现成的方法选择,可以很好地处理各种任务,从而在现实世界中实现样本有效的强化学习。通过这样做,我们希望降低新研究人员的进入门槛,为现实世界中的机器人学习建立更好的算法和训练方法。

Software packages for RL:

有许多封装(seno和imai, 2022;nair和pong;hill等人,2018;guadarrama等人,2018)的强化学习,尽管据我们所知,没有一个旨在直接解决现实世界的机器人强化学习 。serl建立在最近提出的rlpd算法的基础上,rlpd算法是一种具有高更新数据比的非策略rl算法。serl不是用于在模拟中训练agents的rl算法库,尽管它可以被改编成这样。相反,serl为机器人控制提供了一个完整的pipeline堆栈,从低级控制器到异步和有效训练的接口,使用rl算法,再到用于推断奖励和训练的额外机器,而无需重置 。在这样做的过程中,serl提供了一个现成的包来帮助非专家开始使用rl在现实世界中训练他们的物理机器人,不像以前的库旨在提供许多方法的实现——也就是说,serl提供了一个完整的“垂直”组件集成,而以前的库则专注于“水平”。serl也不是rl基准包,如(yu et al., 2019;james et al., 2020;米塔尔等人,2023)。serl允许用户直接在现实世界中定义他们自己的任务和成功指标,为在这些任务中实际控制和训练机器人操纵者提供软件基础设施。

Software for real-world RL

之前已经有几个软件包提出了现实世界RL的基础设施:灵巧操作(Ahn等人,2019),桌面家具组装(Heo等人,2023),腿部运动(Kostrikov等人,2023)和钉插入(Levine等人,2016a)。这些软件包在狭窄的情况下是有效的 ,要么使用特权信息,要么使用显式跟踪等培训设置(Levine等人,2016a;Ahn等人,2019)或纯粹的本体感觉(Kostrikov等人,2023),或仅限于模仿学习。在SERL中,我们展示了一个完整的堆栈系统,它可以用于各种各样的机器人操作任务,而不需要像以前的工作那样具有训练设置的特权。

3. Preliminaries and Problem Statement

机器人强化学习任务可以通过mdp来定义,其中是状态观察(例如,与当前末端执行器位置相结合的图像),是动作(例如,所需的末端执行器姿势),是初始状态的分布,是取决于系统动力学的未知和潜在的随机转移概率,以及是对任务进行编码的奖励函数。最优policy𝜋是使奖励的累积期望值最大化的一个,即,其中期望是相对于初始状态分布、转移概率和policy 𝜋得出的。

虽然强化学习任务的规范简洁明了,但将现实世界的机器人学习问题转化为强化学习问题需要谨慎。首先,学习算法的样本效率至关重要 :当学习必须在现实世界中进行时,每一分钟和每一小时的训练都是有代价的。通过使用有效的off-policy RL算法可 以提高样本效率(Konda和Tsitsiklis,1999;Haarnoja等人,2018;Fujimoto等人,2018),但也可以通过结合先前的数据和演示 来加速样本效率(Rajeswaran等人,2018,Ball等人,2023;Nair等人,2020),这对实现最快的训练时间很重要。

此外,机器人强化学习的许多挑战不仅仅在于优化的核心算法。例如,奖励函数可能取决于图像观察,用户很难手动指定 。此外,对于机器人在两次试验之间重置为初始状态的偶发性任务,实际上将机器人(及其环境)重置为这些初始状态之一是一种机械操作,必须以某种方式自动化

此外,将MDP动作(例如末端执行器姿势)与实际低级机器人控制相连接的控制器层也需要非常小心,特别是对于机器人与环境中的物体进行物理交互的接触丰富的任务。该控制器不仅需要准确,还必须足够安全,以便RL算法可以在训练过程中通过随机动作进行探索。SERL的目标是为这些挑战中的每一个提供现成的解决方案,高质量地实现一种样本高效的off-policy RL方法,该方法可以结合先验数据、奖励函数规范的多种选择、学习重置的前后算法,以及一个适用于学习接触丰富任务的控制器,而不会损坏机器人或环境中的物体。

4. Sample Efficient Robotic Reinforcement Learning in the Real-World

我们的软件包,我们称之为示例效率机器人强化学习(SERL),旨在通过为上一节中详细介绍的问题提供现成的解决方案,使现实世界中的机器人强化学习变得可访问。这涉及提供高效的基于视觉的强化学习算法和支持这些学习算法进行自主学习所需的基础设施。我们注意到,这种努力的目的不是提出新的算法或工具,而是开发一个任何人都可以轻松用于机器人学习的软件包,而无需复杂的设置过程和痛苦的跨库集成。

核心强化学习算法源自rlpd(ball等人,2023),rlpd本身是soft actor-critic(haarnoja等人,2018)的变体:一种off-policy q函数 actor-critic 方法,可以很容易地将先前数据(次优数据或演示)合并到重放缓冲区 中,以实现高效学习。奖励函数可以用二元分类器或vice指定(fu等人,2018),这提供了一种在rl训练期间用policy的额外负数 更新分类器的方法。在机器人状态足以评估成功的情况下(例如,在我们的pcb板组装任务中),也可以手动指定奖励函数 。重置可以通过前向后向架构提供(sharma等人,2021),其中算法同时训练两个policies:执行任务的前向policy和将环境重置回初始状态的后向policy 。在机器人系统方面,我们还提供了一个通用适配器 ,用于将我们的方法连接到任意机器人 ,以及一个阻抗控制器 ,特别适合于接触丰富的操作任务

4.1. Core RL Algorithm: RLPD

在这种情况下部署强化学习算法有几个必要条件

(1)它必须高效,并且能够在每个时间步长进行多次梯度更新,

(2)它必须能够轻松地合并先前数据,然后根据进一步的经验继续改进,

(3)它必须易于调试和为新用户构建。

为此,我们建立在最近提出的RLPD(Ball等人,2023)算法的基础上,该算法在样本高效的机器人学习方面取得了令人信服的结果。RLPD是一种off-policy actor-critic强化学习算法,它建立在软行为体-评论家 soft-actor critic 等 时间差分算法 temporal difference algorithms 的成功之上(Haarnoja等人,2018),但进行了一些关键修改以满足上述需求。

RLPD进行了三个关键更改

(i)高更新数据比训练 update-to-data ratio training(UTD),

(ii)先验数据和 on-policy 数据之间的对称采样,使得每批数据的一半来自先验数据,另一半来自在线回放缓冲区,以及

(iii)训练过程中的层范数正则化。这种方法可以从头开始训练,也可以使用先前的数据(例如演示)来引导学习。

算法的每一步都会根据各自损失函数的梯度更新 参数Q函数 parametric Q-function 和actor 的参数:

其中是目标网络(Mnih等人,2013),actor损失使用熵正则化 entropy regularization 和自适应调整权重 𝛼(Haarnoja等人,2018)。每个更新步骤使用每个期望的基于样本的近似值,其中一半样本来自先前的数据 (例如,演示),另一半样本来自重播缓冲区 (Mnih等人,2013)。为了有效的学习,在环境中每个时间步执行多个更新步骤,这被称为 updateto-date(UTD)比率,并且使用层规范化规范化 critic 允许更高的UTD比率,从而更有效的训练(Ball等人,2023)。

4.2. Reward Specification with Classifiers

在学习图像观察时,奖励函数很难手工指定,因为机器人通常需要某种感知系统来确定任务是否成功执行。虽然一些任务,例如图 1 中的 PCB 板组装任务,可以根据末端执行器的位置(假设对象在夹具中刚性保持)适应手动指定的奖励,但大多数任务都需要从图像中推导出奖励。在这种情况下,奖励函数可以由二元分类器提供,该分类器接受状态观察 𝐬 并输出二进制“事件” 𝑒 的概率,对应于成功完成。然后奖励由 给出。

该分类器可以使用手动指定的正例和负例进行训练,或者通过一种称为 vice 的对抗性方法进行训练 (fu et al., 2018)。后者解决了在使用基于分类器的奖励进行学习时可能出现的奖励利用问题,并消除了分类器训练集中对负样本的需求:当 rl 算法优化奖励 时,它可能会发现“对抗性”状态来欺骗分类器 以错误地输出高概率。vice 通过在带有负标签的分类器的训练集中添加 policy 访问的所有状态来解决这个问题,并在每次迭代后更新分类器。通过这种方式,rl 过程类似于生成对抗网络 (gan)(goodfellow et al., 2014),policy 作为生成器,奖励分类器充当鉴别器。因此,我们的框架支持所有三种奖励类型。

4.3. Reset-Free Training with ForwardBackward Controllers

在学习情节任务 episodic tasks 时,机器人必须重置任务尝试之间的环境 。例如,在学习图 1 中的对象重定位任务时,每次机器人成功地将对象移动到目标 bin 时,它必须取出并将其放置回初始 bin 中 。为了消除对“重置”人力的需求,serl 通过使用前向和后向控制器支持“无重置”训练 (han 等人,2015;gupta 等人,2021)。在此设置中,使用两个独立的 rl agents 同时训练两个 rl agent ,每个都有自己的 policy、q 函数和奖励函数(通过上一节中的方法指定)。前向 agent 学习执行任务,后向 agent 学习返回到初始状态。虽然也可以实现更复杂的无重置训练程序(gupta等人,2021年),但我们发现这个简单的配方足以学习对象操作 object manipulation 任务 ,如图1中的重新定位技能。

4.4. Software Components

Environment adapters:

SERL旨在易于用于许多机器人环境。尽管我们为Franka手臂提供了一套Gym环境 wrappers 和机器人环境作为入门指南,但用户也可以使用自己现有的环境或开发他们认为合适的新环境。因此,library不会对机器人环境施加额外的限制,只要它是Gym-like的 (Brockman等人,2016),如图2所示。我们欢迎社区为扩展对其他机器人和任务的易部署环境包装器的支持做出贡献。

图2:软件架构和现实世界的机器人训练示例代码。SERL运行三个并行过程,由选择动作的actor、实际运行训练代码的学习者节点和执行参与者动作并将数据反馈给学习者的机器人环境组成。

Actor and learner nodes:

serl包括并行训练和操作的选项,以解耦推断操作,并用几行代码更新policies,如图2所示**。我们发现,这在具有高utd比率的样本高效现实世界学习问题中是有益的** 。通过将参与者和学习者分为两个不同的线程,serl不仅以固定的速率保持控制频率 ,这对于需要即时反馈和反应的任务(如可变形对象和富含联系人的操作)至关重要,而且还减少了在现实世界中训练的总时间

4.5. Impedance Controller for Contact-Rich Tasks

尽管我们的软件包应该与任何OEM机器人控制器 兼容,如第4节所述,但我们发现控制器的选择会严重影响最终性能。这在接触操纵中更为明显。例如,在图1中的PCB插入任务中,过于僵硬的控制器可能会弯曲易碎的引脚并使插入变得困难,而过于顺从的控制器可能难以快速将物体移动 到位。

机器人rl的典型设置采用两层控制层次结构,其中rl policy以比下游实时控制器低得多的频率产生设定点动 作。rl控制器可以为低级控制器设置目标,以造成物理上不希望的后果。为了说明这一点,让我们考虑图4中呈现的分层控制器结构,其中高级rl控制器 𝜋(𝐚|𝐬)以10hz的频率发送控制目标,以便低级阻抗控制器以1k hz的频率进行跟踪,因此rl的一个时间步将阻止 block低级控制器执行100个时间步。该控制器的典型阻抗控制目标是

为测量位姿,为上游控制器计算的目标位姿,为前馈力,为科里奥利力

图 4:机器人 rl 的典型控制器层次结构。rl policy 的输出被下游控制器跟踪在一个时间段内。

然后,通过乘以雅可比转置和偏移零空间扭矩 nullspace torques,这个目标将被转换为关节空间扭矩。它就像一个弹簧阻尼系统在平衡集周围的系统,刚度系数为 ,阻尼系数为。如上所述,如果远离当前姿势,系统将产生较大的力,当手臂与某物接触时,这可能会导致硬碰撞或损坏。因此,约束它产生的相互作用力是至关重要的 。然而,直接减少 gains 会损害控制器的准确性。因此,我们应该限制 𝑒 使得,那么弹簧阻尼系统产生的力将有界到 , 是控制频率。

速度项是两个控制周期来判断,变化量会有二倍

人们可能想知道我们应该直接 clip rl policy 的输出的动作。这似乎是合理的,但在某些情况下可能是不切实际的:一些物体,如pcb板,可能需要非常小的相互作用力,这意味着非常小的,通常在微米量级;如果rl policy只允许以微米的增量移动,这将导致一个非常长的学习过程或非常不稳定的训练 ,因为 episode 需要足够的时间步长以允许手臂在长距离移动(例如,接近插入点)。然而,如果我们直接在实时层 clip,这将在很大程度上缓解这个问题 ,而不需要将 rl policy 约束为小动作。它不会阻塞 rl policy 的自由空间移动,只要 ,其中 是块内的控制时间步数,如图 4 所示。

这个值通常很大(例如, = 100)。同时,每当接触时,我们都会严格强制实时级别的参考约束。人们可能还想知道是否有可能通过使用外力/扭矩传感器来实现相同的结果。出于几个原因,这可能是不可取的 :(1)力/扭矩传感器可以有很大的噪声 ,获得正确的硬件和校准可能很困难; (2) 即使我们得到这样的阈值,设计机器人运动以适应 policy 学习以及遵守力约束并非易事。在实践中,我们发现以这种方式裁剪参考很简单但非常有效 ,并且对于启用基于 rl 的接触丰富的操作任务至关重要。我们在 franka panda 机器人上测试了我们的控制器,并将 franka panda 实现与我们的包包括在内。然而,这一原则可以很容易地在任何转矩控制机器人上实现 。为了验证所提控制器的实际性能,我们报告了在自由空间中移动机器人的实际跟踪性能,并与table surface接触,如图3所示,我们可以看到控制器在接触时确实会夹住参考,同时允许自由空间中的快速移动。

图 3:对于末端执行器的 z 轴,当命令不同的运动时,机器人控制器日志的可视化。橙色线是命令目标(RL 的输出),红色是发送到实时控制器的平滑目标 ,蓝色是裁剪目标 ,绿色是执行该控制器后机器人的位置。左:机器人末端执行器被命令移动到与硬表面接触,并继续进行运动,尽管接触。参考限制机制裁剪目标以避免硬碰撞。右图:该命令是一种快速的自由空间运动,我们的参考限制机制不会阻塞,从而允许对目标进行快速运动

4.6. Relative Observation and Action Frame

动作空间的选择对于 rl 训练过程的方便和学习到的 policy 在测试时推广到扰动的能力都特别重要。虽然 SERL 可以通过标准的 rl 环境界面对各种动作表示进行操作,但我们发现一种方便的机制来表示相对坐标系中的观察和动作。

为了开发一种能够适应动态目标的agent,我们提出了一种训练过程,模拟运动目标,而不需要物理运动 。例如,相对于机器人基框架,目标pcb插入插座孔是固定的,奖励可以使用第4.2节提供的任何标准方法来指定。在每个训练集开始时,机器人末端执行器的姿势在工作空间的预定义区域内均匀随机化。机器人的本体感知信息是相对于末端执行器初始姿态的帧来表达的;policy(6d扭曲)的动作输出与当前末端执行器帧有关。这相当于从连接到末端执行器的坐标系相对观察 时,物理地移动目标。更多细节见附录7。因此,即使物体移动,或者像我们的一些实验一样,在事件中间受到干扰,policy也可以成功。

5. Experiments

我们的实验评估旨在研究我们的系统如何有效地学习各种机器人操纵任务,包括接触丰富的任务、可变形物体操纵和自由浮动物体操纵。这些实验证明了serl的适用性和效率。我们使用一个franka panda手臂和两个连接到末端效应器的手腕相机来近距离观察 。更多详细信息请访问https://serl-robot.github.io/.我们使用**imagenet预训练的resnet-10(he等人,2015)作为policy网络的视觉骨干,并将其连接到2层mlp** 。观察包括相机图像和机器人本体感知信息,如末端执行器姿势、扭曲、力和扭矩。policy从当前姿势输出6d末端执行器增量姿势, 该姿势由低级控制器跟踪。评估任务如图5所示,描述如下:

与现有系统的比较:

虽然由于设置中的许多差异、缺乏一致的开源代码和其他差异,很难直接将我们的结果与之前的系统进行比较 ,但我们在表2中提供了与我们的pcb板插入任务最相似的任务的培训时间和成功率的总结。我们选择这项任务是因为在之前的工作中已经研究过类似的插入或组装任务,而这些任务往往在精度、合规控制和样品效率方面存在挑战。与这些先前的工作相比,我们的实验没有使用形状奖励 shaped rewards ,这可能需要大量的工程,尽管我们确实利用了少量的演示数据 (一些先前的工作避开了这些数据)。这些先前工作中报告的结果通常要么成功率较低,要么训练时间较长,或者两者兼而有之,这表明我们实施的样本高效rl 匹配或超过了文献中state-of-the-art方法的性能,至少在这类任务上是这样。在spector等人(spector和castro,2021)的工作中,与我们最接近的表现包括许多特定于插入的设计决策和归纳偏差,而我们的方法是通用的,并做出了最小的任务特定假设 。尽管我们系统的组件都是基于(最近)的先前工作,但这种组合的最新性能说明了我们的主要论点:如何实现深度强化学习方法的细节会产生很大的影响

Reproducibility

SERL的核心任务是降低设置障碍,并鼓励在不同的机器人系统上可重复的机器人强化学习。为此,我们演示了在不同机构操作的机械臂上成功集成SERL软件套件。

华盛顿大学的研究人员使用功能操作基准(luo et al., 2024)中的3d打印部件设置了一个peg插入任务,并使用serl来解决这个具有挑战性的任务。包括设置相关硬件和软件在内的总体准备时间不超过3小时。policy在19分钟内收敛,并通过20次初始人类演示实现了100/100的成功率,成功地复制了我们的结果。

6. Discussion

我们描述了一个用于机器人强化学习的系统和软件包,旨在使研究人员和实践者更容易访问现实世界的强化学习。我们的软件包提供了精心设计的成分组合,用于样本高效强化学习,自动化奖励设计,使用向前向后控制器的自动化环境重置,以及特别适合丰富接触操作任务的控制器框架。此外,我们对框架的实验评估表明,它可以非常有效地学习一系列不同的操作任务,在提供少量演示的情况下,每个policy的训练时间不到一个小时。这些结果与文献中rl操作的state-of-the-art结果进行了定性比较,表明我们框架中的特定选择非常适合于获得非常好的现实世界结果 ,甚至从图像观察中。我们的框架确实有一些限制。首先,我们的目标不是提供一个包含所有可能的rl方法的综合库,并且一些任务和设置可能在我们的框架之外(例如,非操作任务)。其次,全方位的奖励规范和无重置学习挑战仍然是机器人强化学习研究中的一个开放问题。我们基于分类器的奖励和前向向后控制器可能不适用于所有设置 。为了使机器人强化学习得到更广泛的应用,需要对这些主题进行进一步的研究。然而,我们希望我们的软件包能够为研究人员和实践者提供一个合理的“默认”起点,让他们可以用现实世界的强化学习方法进行实验。

7. Appendix

7.1. Details on Relative Observation and Action Frame

设机器人的基架为;对于rolling out的𝑖-th片段的policy,我们将表示在特定时间步长𝑡基于{𝑠}坐标系表示的的末端坐标系;式中,。对于每一episode,从指定随机化面积的均匀分布中抽样 。我们想表达关于的本体感受信息。因此,只要机器人末端执行器与目标之间的相对空间距离保持一致,policy将适用于新的位置。这种方法可以防止过度拟合到参考框架{𝑠}内的特定全局位置 。我们通过应用下面的齐次变换来实现:
从bt_i 转到 b0_i

其中我们用表示坐标系{𝑎}和{𝑏}之间的齐次变换矩阵。我们将从中提取的位置和旋转信息输入到policy。这里我们用𝑇𝑎𝑏表示坐标系{𝑎}和{𝑏}之间的齐次变换矩阵,定义为

policy产生一个六自由度(6 dof)扭转 twist 动作,它在当前接收观测的参考框架中表示,即。在数学上,6自由度扭转动作在时间步长𝑡用帧表示。为了与机器人的控制软件接口,机器人的控制软件期望在基帧{𝑠}中表示动作,我们应用伴随映射:

式中是齐次变换的函数,定义为:

全部评论 (0)

还没有任何评论哟~