WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS
发布时间
阅读量:
阅读量
(感觉有点从失败中学习的意思)
发表时间:30 Jan 2020
论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4545005537963171841¬eId=2453371997770644736
作者单位:UC Berkeley
Motivation :通过观察演示进行行为模仿的学习方法被称为模仿学习。尽管这种方法对于视觉基任务的有效性很高但其所需的示范次数往往难以满足现实需求。元模仿学习方法展现出巨大潜力它能够利用先前相似任务的经验使agent能够在较少的示范中快速掌握新任务
解决方法:在任务不明确的情况或潜在的动态变化下(即未完全观察到系统的全部行为),仅有基于演示的信息可能不足以实现目标;因此,在这项研究中我们提出了一种可以从有限反馈信息及试错经验中有效学习的方法
实现方式:为此, 我们研发了一种新型的元学习算法, 该算法融合了模仿机制与试错机制与强化学习的结合
本文的核心贡献是一種基於元學習算法的新方法,在接收到展示新目標的示范過程後即可通過少量基於二進制成功或失敗標籤的人類反饋机制進行試錯學習來實現该目標
我们的目标是搭建一个代理系统,在这个过程中它能够首先从一段演示中提取并制定相应的策略方案。随后,在接收二进制用户反馈信息时(其中包含成功与失败两种结果),该代理系统将通过执行任务操作流程来应用这些策略方案,并通过收集和分析这些反馈信息来持续改进其策略方案以确保始终能够高效地完成各项任务。

实验:抓取装置环境是一个真实的三维仿真实验场景, 如图5所示. 该抓取装置主要包含四个核心操作类型:单手操作用于按钮按下, 物体抓取用于捕获目标物体, 物体移动用于推送操作, 以及物体放置用于完成目标物品的归位.
总结
全部评论 (0)
还没有任何评论哟~
