RVT-2: Learning Precise Manipulation from Few Demonstrations

阅读量：

是对上一篇RVT 的改进。

发表时间：12 Jun 2024

作者单位：NVIDIA

其应用范围涵盖工业与家庭领域。此类系统应具备从有限示例中快速学习新任务的能力，并以高精度完成这些任务。已进行过相关研究的包括PerAct[40]和RVT[17]等方法。然而这些早期方法往往在处理需要高度精确的任务时表现不佳

解决方法：我们探索如何使该方法达到更高效率、更高的准确性以及更快的速度。通过结合架构优化与系统级改进的策略性组合设计与实现工作流程的优化方案开发出一种多任务三维操作模型——RVT-2，在实验中展现出显著的性能提升效果：其在训练阶段的操作效率提升了约6倍，在推理速度方面相较于其上一代模型RVT实现了2倍以上的提升效果——仅需10次示范即可完成操作学习过程

实施路径：我们的目标是探讨如何避免RVT在实现更高性能时遇到的技术挑战。通过深入分析发现,RVT算法在处理高精度任务方面存在明显局限性,例如适用于安装螺丝灯泡或插入钉子等场景的任务表现欠佳。基于我们的研究结果,我们提出了几项优化措施以进一步提升系统的训练效率及推理能力。通过采用创新的架构设计以及全面的系统级优化,我们成功实现了RVT算法运行速度与准确度的双重提升.To the best of our knowledge,this represents the first instance of a vision-based policy trained with minimal examples achieving reliable performance on such precision-demanding tasks.

RVT-2遵循关键帧的操作范式。我们将其归类为两类改进措施：一是与神经网络变化相关联的架构设计；二是软件优化相关的系统架构设计。

Background：

Key-frame based manipulation： PerAct[40]和RVT[17]基于当前场景点云和语言目标输入的数据，并预测下一个关键帧姿态。其预测结果随后传递给运动规划器生成朝向它的轨迹。当机器人达到预测的姿态时，则需要新的场景点云数据，并预测后续的关键帧姿态。这一过程会不断迭代直至任务完成或达到预设步骤数结束。为了训练基于关键帧的行为克隆agent，则假设可以访问一个包含样本数据集的资源库。每个样本包括语言目标、当前视觉观察以及下一个关键帧姿势等信息内容；通过定义特定的关键帧姿势规则，则可以从密集的机器人轨迹数据集中自动提取这样的样本集合进行训练学习（例如，在夹持器处于开启状态或关闭状态之间转换时，则对应于关键帧姿势的变化）。

Robotic View Transformer（RVT）展示了五个虚拟图像片段

Architectural Changes: RVT to RVT-2: Multi-stage Design + Convex Upsampling + Parameter Rationalization + Location-conditioned Rotation + Fewer Virtual Views

System-Related Changes: RVT → RVT-2：**Point Renderer + Enhanced or advanced training system.

实验：RLBench，A Franka Panda robot with a parallel jaw gripper。

在插入任务过程中进行力反馈的微调，是一个令人兴奋的未来方向。

消融实验证明了各个组件的有效性。

结论：尽管我们所采用的技术并非全新创新的方案，在此研究中我们的主要贡献在于成功地将这些技术和方法进行了有效的整合，并在此过程中显著提升了在少样本3D操作领域的技术水平。

future work：

该算法基于RVT-2框架设计而成；其中一种实现方式即为RVT与PerAct方法；特别适用于其训练对象这一特定类别；进一步将该算法应用至未见过的对象实例将为该领域带来巨大潜力。

尽管在高精度任务中

以 RVT2 的开放抽屉任务为例，在训练过程中，多任务优化可能导致某些任务性能下降。开发一种能够有效避免这种问题的方法具有重要意义。

目前来看，在提升多任务3D操作方面的表现上,RVT-2展现了显著的进步. 然而该任务尚未完全达到预期目标. 其在模拟环境下的成功率达到了82%. 而在其现实环境中的表现则仅达72%.

Aloha(ACT)和RVT-2的区别：

给定语言输入时,RVT-2能够应对任务中的多种情况,而ACT则不具备接收语言输入的能力,它仅能依次训练每个任务的变化模式

2. RVT-2 做出基于关键点的预测，而 ACT 做出连续的联合状态预测。

3. RVT-2 将点云作为输入，而 ACT 与多视图图像一起工作。

全部评论 (0)

还没有任何评论哟~

RVT-2: Learning Precise Manipulation from Few Demonstrations

是对上一篇RVT的改进。发表时间：12Jun2024 作者单位：NVIDIA Motivation：为了在工业和家庭领域很有用，这样的系统应该能够用很少的演示来学习新任务，并精确地解决它们。

MULTI-VIEW CONTRASTIVE LEARNING FROM DEMONSTRATIONS

路易斯・A・亚历山大（LuisA.Alexandre） NOVALINCS，葡萄牙贝拉内大学，科维良电子邮箱：luis.alexandre@ubi.pt 安德烈・科雷亚（AndreCorreia） ...

[论文阅读] Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

时间：2018/08/01 会议：Robotics:ScienceandSystemsXIV 摘要&introduce 灵巧的多指手操作由于高维数和大量的潜在接触，有效地控制仍然具有挑战性。

WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS

（感觉有点从失败中学习的意思）发表时间：30Jan2020 论文链接：https://readpaper.com/pdfannotate/note?pdfId=4545005537963171841...

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

abs 强化学习rl有望实现复杂机器人操作技能的自主获取，但在现实环境中实现这种潜力具有挑战性。我们提出了一种人在环视觉的rl系统，该系统在各种灵巧操作任务上展示了令人印象深刻的性能，包括动态操作、精...

阅读笔记DAPG：Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

WordsandExpressions dexterous灵活的 tocombatdistributiondrift inprinciple …whichnecessitate… intheorder...

Generalizing from a Few Examples: A Survey on Few-Shot Learning

GeneralizingfromaFewExamples:ASurveyonFewShotLearning 本文知乎链接（排版可能好看丢丢）：<https://zhuanlan.zhihu.com/p...

Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记

文章目录 Introduction WatchTryLearn Introduction Imitationlearning需要的样本较多，Metaimitationlearning是一种解决小样本问...

综述论文“Generalizing from a Few Examples: A Survey on Few-Shot Learning”

该少样本学习综述发表于arXiv2019年5月13号。摘要：人工智能在数据密集型应用中取得了成功，但缺乏从有限的示例中学习的能力。为了解决这个问题，提出了“少量样本学习”（FSL，FewShotLe...

[论文阅读] Learning Dexterous Manipulation Policies from Experience and Imitation

时间：2016/11/15 作者相关：VikashKumar:SeniorResearchScientistinRoboticsandEmbodiedAIvikashplus.github.io 摘要...

是否确定退出登录?

RVT-2: Learning Precise Manipulation from Few Demonstrations

全部评论 (0)

相关文章推荐

RVT-2: Learning Precise Manipulation from Few Demonstrations

MULTI-VIEW CONTRASTIVE LEARNING FROM DEMONSTRATIONS

[论文阅读] Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

阅读笔记DAPG：Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

Generalizing from a Few Examples: A Survey on Few-Shot Learning

Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记

综述论文“Generalizing from a Few Examples: A Survey on Few-Shot Learning”

[论文阅读] Learning Dexterous Manipulation Policies from Experience and Imitation