论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline
When Demonstrations Interact with Generative World Models: A Likelihood-Based Approach to Offline Inverse Reinforcement Learning
论文概述
本文重点介绍了离线逆强化学习的最大似然框架的构建过程,在该方法中融合了真实场景数据与生成式模拟环境的数据特征进行建模训练。文章深入阐述了算法的设计原理,并系统地进行了理论推导以及多组实验验证以验证其有效性
摘要
离线逆向强化学习(Offline IRL)旨在从专家智能体中还原固定的、有限的一组预先定义的动作序列背后的奖励和环境动态的结构。执行任务的专业知识以精确机制为基础,在安全敏感的应用中具有重要的应用价值。然而,在观察到的动作中潜在的经验偏好与专家环境动力学模型(即"世界"模式)之间存在密切关联。因此,在基于有限数据对世界进行估计时可能会导致奖励估计出现偏差。为了应对这一挑战性问题,在现有研究的基础上我们提出了一种新的双层优化框架来解决这一问题,并为最优报酬估计量提供了统计和计算上的保证。最后,在连续控制任务如MuJoCo以及D4RL基准中的不同数据集上验证了该方法的有效性
算法设计
- 问题公式化: 该问题采用双层优化形式,下层问题是在给定的奖励函数下,求解最优策略;上层问题是最大化观察到的专家轨迹的对数似然,以便找到最佳奖励函数。
- 构建世界模型 :从收集的转换样本中估计世界模型P,并利用不确定性估计技术量化模型不确定性。这样可以在保守马尔可夫决策过程(保守MDP)中为具有高模型不确定性和低数据覆盖的状态-动作对应高惩罚值,从而避免在不熟悉的区域进行冒险探索。
- 设计IRL算法 :旨在恢复奖励函数,其对应的最优策略在构建的保守MDP中最大化观察到的专家轨迹的对数似然。
- 算法分为两个阶段: 第一阶段:估计动态模型(世界模型); 第二阶段:恢复奖励函数。
- 避免在每次奖励估计下重复求解策略优化问题,因此提出了一种交替在奖励更新步骤和保守策略改进步骤之间切换的算法。
基于非线性奖励函数的参数化形式中,在此研究中从理论层面进行了深入分析,并证明了该算法能够在有限步骤内达到近似稳定的不动点。
在奖励线性参数化且专家访问的状态-动作空间具有足够的覆盖能力以构建估计世界模型的情况下,在以下条件下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在这种情况下,在以下条件下
实验设计
预处理阶段,在基于模型的算法框架下(例如Offline ML-IRL与CLARE),通过使用转换数据集对动态模型进行估计。随后的算法(包括Offline ML-IRL与CLARE)将通过专家示范数据集DE中的专家轨迹来进一步重建真实的奖励机制并复制专家的行为模式。
Offline ML-IRL的具体实现如下:在Offline ML-IRL的具体实现中,在奖励网络的设计中采用了两层各256个神经元的全连接层来进行参数化描述。具体而言,在输入端接收状态与动作组合的状态-动作对(s, a),其输出则用于估算每个状态-动作对(s, a)对应的奖励值r(s, a;θ)。此外,在优化过程的具体实施中,则通过Adam优化器进行参数更新,并将其学习率设定为1e-4
该策略优化子例程:在策略优化子例程中的某个阶段内(例如,在某个迭代周期内),我们将其视为基于熵正则化的离线强化学习问题的一个模块,并采用Soft Actor-Critic算法作为该离线RL问题的求解器。
对比基准算法:该方法与现有几种基准方案进行对比分析。其中一种基于模型的方案是CLARE;另一种非模型化的方案是IQ-Learn;此外还包括模仿学习中的BC和ValueDICE两种方案。
实验结果:实验数据显示,在多数场景下提出者所提出的Offline ML-IRL算法显著优于现有离线IRL及模仿学习基准方法。
额外的数值结果: 实验数据表明,在仅基于1000个专家示范的情况下,Offline ML-IRL能够实现接近专家水平的卓越性能。
实验设置
- 数据集:实验采用了两种类型的数据显示集:第一种是转换数据集D = {(s, a, s')} ,包含丰富的转换样本;第二种是专家演示数据集DE = {τE} ,涵盖多个专家轨迹。
- 模型构建:基于收集到的转换样本构建世界模型P 。通过评估模型不确定性程度,并在此处对高不确定性和低数据覆盖的状态-动作对施加高惩罚值以避免未知区域的高风险探索。
- 算法设计:提出了一种双阶段算法流程 。首先建立动态模型;其次推导奖励函数 。该算法通过交替更新奖励函数与保守策略来实现优化。
- 实验评估:通过多组实验对比不同数据集(包括medium-replay、medium与medium-expert)以及三个典型环境(halfcheetah、hopper与walker2d)来评估所提出的方法 。实验结果表明,在大多数情况下所提出的方法普遍优于现有离域IRL及模仿学习基准。
- 参数设置:在实现过程中 ,将奖励网络设计为一个(256, 256)MLP结构 ,激活函数选用ReLU激活 。优化器采用Adam算法 ,并设定更新奖励网络的学习率值为1×10^(-4) 。在策略优化子例程中 ,采用SAC算法作为强化学习求解器 。
