Advertisement

RVT-2: Learning Precise Manipulation from Few Demonstrations

阅读量:

是对上一篇RVT 的改进。

发表时间:12 Jun 2024

作者单位:NVIDIA

其应用范围涵盖工业与家庭领域。此类系统应具备从有限示例中快速学习新任务的能力,并以高精度完成这些任务。已进行过相关研究的包括PerAct[40]和RVT[17]等方法。然而这些早期方法往往在处理需要高度精确的任务时表现不佳

解决方法:我们探索如何使该方法达到更高效率、更高的准确性以及更快的速度。通过结合架构优化与系统级改进的策略性组合设计与实现工作流程的优化方案开发出一种多任务三维操作模型——RVT-2,在实验中展现出显著的性能提升效果:其在训练阶段的操作效率提升了约6倍,在推理速度方面相较于其上一代模型RVT实现了2倍以上的提升效果——仅需10次示范即可完成操作学习过程

实施路径:我们的目标是探讨如何避免RVT在实现更高性能时遇到的技术挑战。通过深入分析发现,RVT算法在处理高精度任务方面存在明显局限性,例如适用于安装螺丝灯泡或插入钉子等场景的任务表现欠佳。基于我们的研究结果,我们提出了几项优化措施以进一步提升系统的训练效率及推理能力。通过采用创新的架构设计以及全面的系统级优化,我们成功实现了RVT算法运行速度与准确度的双重提升.To the best of our knowledge,this represents the first instance of a vision-based policy trained with minimal examples achieving reliable performance on such precision-demanding tasks.

RVT-2遵循关键帧的操作范式。我们将其归类为两类改进措施:一是与神经网络变化相关联的架构设计;二是软件优化相关的系统架构设计。

Background:

Key-frame based manipulation: PerAct[40]和RVT[17]基于当前场景点云和语言目标输入的数据,并预测下一个关键帧姿态。其预测结果随后传递给运动规划器生成朝向它的轨迹。当机器人达到预测的姿态时,则需要新的场景点云数据,并预测后续的关键帧姿态。这一过程会不断迭代直至任务完成或达到预设步骤数结束。为了训练基于关键帧的行为克隆agent,则假设可以访问一个包含样本数据集的资源库。每个样本包括语言目标、当前视觉观察以及下一个关键帧姿势等信息内容;通过定义特定的关键帧姿势规则,则可以从密集的机器人轨迹数据集中自动提取这样的样本集合进行训练学习(例如,在夹持器处于开启状态或关闭状态之间转换时,则对应于关键帧姿势的变化)。

Robotic View Transformer(RVT)展示了五个虚拟图像片段

Architectural Changes: RVT to RVT-2: Multi-stage Design + Convex Upsampling + Parameter Rationalization + Location-conditioned Rotation + Fewer Virtual Views

System-Related Changes: RVT → RVT-2:**Point Renderer + Enhanced or advanced training system.

实验 :RLBench,A Franka Panda robot with a parallel jaw gripper。

在插入任务过程中进行力反馈的微调,是一个令人兴奋的未来方向。

消融实验证明了各个组件的有效性。

结论:尽管我们所采用的技术并非全新创新的方案,在此研究中我们的主要贡献在于成功地将这些技术和方法进行了有效的整合,并在此过程中显著提升了在少样本3D操作领域的技术水平。

future work:

该算法基于RVT-2框架设计而成;其中一种实现方式即为RVT与PerAct方法;特别适用于其训练对象这一特定类别;进一步将该算法应用至未见过的对象实例将为该领域带来巨大潜力。

尽管在高精度任务中

以 RVT2 的开放抽屉任务为例,在训练过程中,多任务优化可能导致某些任务性能下降。开发一种能够有效避免这种问题的方法具有重要意义。

目前来看,在提升多任务3D操作方面的表现上,RVT-2展现了显著的进步. 然而该任务尚未完全达到预期目标. 其在模拟环境下的成功率达到了82%. 而在其现实环境中的表现则仅达72%.

Aloha(ACT)和RVT-2的区别:

给定语言输入时,RVT-2能够应对任务中的多种情况,而ACT则不具备接收语言输入的能力,它仅能依次训练每个任务的变化模式

2. RVT-2 做出基于关键点的预测,而 ACT 做出连续的联合状态预测。

3. RVT-2 将点云作为输入,而 ACT 与多视图图像一起工作。

全部评论 (0)

还没有任何评论哟~