论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

阅读量：

When Demonstrations Interact with Generative World Models: A Likelihood-Based Approach to Offline Inverse Reinforcement Learning

论文概述

本文重点介绍了离线逆强化学习的最大似然框架的构建过程，在该方法中融合了真实场景数据与生成式模拟环境的数据特征进行建模训练。文章深入阐述了算法的设计原理，并系统地进行了理论推导以及多组实验验证以验证其有效性

摘要

离线逆向强化学习(Offline IRL)旨在从专家智能体中还原固定的、有限的一组预先定义的动作序列背后的奖励和环境动态的结构。执行任务的专业知识以精确机制为基础，在安全敏感的应用中具有重要的应用价值。然而，在观察到的动作中潜在的经验偏好与专家环境动力学模型（即"世界"模式）之间存在密切关联。因此，在基于有限数据对世界进行估计时可能会导致奖励估计出现偏差。为了应对这一挑战性问题，在现有研究的基础上我们提出了一种新的双层优化框架来解决这一问题，并为最优报酬估计量提供了统计和计算上的保证。最后，在连续控制任务如MuJoCo以及D4RL基准中的不同数据集上验证了该方法的有效性

算法设计

问题公式化： 该问题采用双层优化形式，下层问题是在给定的奖励函数下，求解最优策略；上层问题是最大化观察到的专家轨迹的对数似然，以便找到最佳奖励函数。
构建世界模型 ：从收集的转换样本中估计世界模型P，并利用不确定性估计技术量化模型不确定性。这样可以在保守马尔可夫决策过程（保守MDP）中为具有高模型不确定性和低数据覆盖的状态-动作对应高惩罚值，从而避免在不熟悉的区域进行冒险探索。
设计IRL算法 ：旨在恢复奖励函数，其对应的最优策略在构建的保守MDP中最大化观察到的专家轨迹的对数似然。
算法分为两个阶段： 第一阶段：估计动态模型（世界模型）；第二阶段：恢复奖励函数。
避免在每次奖励估计下重复求解策略优化问题，因此提出了一种交替在奖励更新步骤和保守策略改进步骤之间切换的算法。

基于非线性奖励函数的参数化形式中，在此研究中从理论层面进行了深入分析，并证明了该算法能够在有限步骤内达到近似稳定的不动点。

在奖励线性参数化且专家访问的状态-动作空间具有足够的覆盖能力以构建估计世界模型的情况下，在以下条件下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在这种情况下，在以下条件下

实验设计

预处理阶段，在基于模型的算法框架下（例如Offline ML-IRL与CLARE），通过使用转换数据集对动态模型进行估计。随后的算法（包括Offline ML-IRL与CLARE）将通过专家示范数据集DE中的专家轨迹来进一步重建真实的奖励机制并复制专家的行为模式。

Offline ML-IRL的具体实现如下：在Offline ML-IRL的具体实现中，在奖励网络的设计中采用了两层各256个神经元的全连接层来进行参数化描述。具体而言，在输入端接收状态与动作组合的状态-动作对(s, a)，其输出则用于估算每个状态-动作对(s, a)对应的奖励值r(s, a；θ)。此外，在优化过程的具体实施中，则通过Adam优化器进行参数更新，并将其学习率设定为1e-4

该策略优化子例程：在策略优化子例程中的某个阶段内（例如，在某个迭代周期内），我们将其视为基于熵正则化的离线强化学习问题的一个模块，并采用Soft Actor-Critic算法作为该离线RL问题的求解器。

对比基准算法：该方法与现有几种基准方案进行对比分析。其中一种基于模型的方案是CLARE；另一种非模型化的方案是IQ-Learn；此外还包括模仿学习中的BC和ValueDICE两种方案。

实验结果：实验数据显示，在多数场景下提出者所提出的Offline ML-IRL算法显著优于现有离线IRL及模仿学习基准方法。

额外的数值结果： 实验数据表明，在仅基于1000个专家示范的情况下，Offline ML-IRL能够实现接近专家水平的卓越性能。

实验设置

数据集：实验采用了两种类型的数据显示集：第一种是转换数据集D = {(s, a, s')} ，包含丰富的转换样本；第二种是专家演示数据集DE = {τE} ，涵盖多个专家轨迹。
模型构建：基于收集到的转换样本构建世界模型P 。通过评估模型不确定性程度，并在此处对高不确定性和低数据覆盖的状态-动作对施加高惩罚值以避免未知区域的高风险探索。
算法设计：提出了一种双阶段算法流程。首先建立动态模型；其次推导奖励函数。该算法通过交替更新奖励函数与保守策略来实现优化。
实验评估：通过多组实验对比不同数据集（包括medium-replay、medium与medium-expert）以及三个典型环境（halfcheetah、hopper与walker2d）来评估所提出的方法。实验结果表明，在大多数情况下所提出的方法普遍优于现有离域IRL及模仿学习基准。
参数设置：在实现过程中，将奖励网络设计为一个（256, 256）MLP结构，激活函数选用ReLU激活。优化器采用Adam算法，并设定更新奖励网络的学习率值为1×10^(-4) 。在策略优化子例程中，采用SAC算法作为强化学习求解器。

全部评论 (0)

还没有任何评论哟~

论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

论文题目：WhenDemonstrationsMeetGenerativeWorldModels:AMaximumLikelihoodFrameworkforOfflineInverseReinfor...

【阅读论文】When Large Language Models Meet Vector Databases: A Survey

摘要本调查探讨了大型语言模型（LLM）和向量数据库（VecDB）之间的协同潜力，这是一个新兴但迅速发展的研究领域。随着LLM的广泛应用，出现了许多挑战，包括产生虚构内容、知识过时、商业应用成本高昂和...

【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models

HunyuanVideo:ASystematicFrameworkForLargeVideoGenerativeModels 前言引言 Overview 数据预处理数据过滤数据注释模型架构设计...

阅读论文5——ORCA: A Distributed Serving System for Transformer-Based Generative Models

ORCA:ADistributedServingSystemforTransformerBasedGenerativeModels 摘要 Introduction Background GPT推理程序...

Penalized Maximum Likelihood Angular Super-Resolution Method for Scanning Radar论文阅读

PenalizedMaximumLikelihoodAngularSuperResolutionMethodforScanningRadarForwardLookingImaging 1\.论文的研究...

论文笔记：When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models

弱智吧benchmark ——测评LLM是否能够理解可能包含误导性、错误前提、故意歧义等的狡猾问题（CunningQuestions） 1弱智吧问题举例 2FLUB数据集从弱智吧收集了真实的狡猾问题...

论文阅读 A Distributional Framework for Data Valuation

本论文解决的问题 1. 量化数据价值（机器学习模型训练中各个数据点的贡献） 2. 避免数据价值受到其所处数据集的影响，使数据点的估值更加稳定、一致变量假设假设D表示一个在全集Z上的数据分布。对于监...

论文阅读：FACTOOL: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and

总目录：大模型安全相关研究文章目录方法总览 Abstract（摘要） 1Introduction（引言） 2RelatedWork（相关工作） 2.1自然语言处理中的事实性检测 2.2大语言模型中...

论文解读：Variational Inference: A Unified Framework of Generative Models and Some Revelations

摘要：本文从一种新的视角阐述了变分推断，并证明了EM算法、VAE、GAN、AAE、ALIBiGAN都可以作为变分推断的某个特例。其中，论文也表明了标准的GAN的优化目标是不完备的，这可以解释为什么GA...

On Superresolution Effects in Maximum Likelihood Adaptive Antenna Arrays论文阅读

OnSuperresolutionEffectsinMaximumLikelihoodAdaptiveAntennaArrays 1\.论文的研究目标与实际问题意义 1.1研究目标 1.2解决的实际问...

是否确定退出登录?

论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

论文概述

摘要

算法设计

实验设计

实验设置

全部评论 (0)

相关文章推荐

论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

【阅读论文】When Large Language Models Meet Vector Databases: A Survey

【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models

阅读论文5——ORCA: A Distributed Serving System for Transformer-Based Generative Models

Penalized Maximum Likelihood Angular Super-Resolution Method for Scanning Radar论文阅读

论文笔记：When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models

论文阅读 A Distributional Framework for Data Valuation

论文阅读：FACTOOL: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and

论文解读：Variational Inference: A Unified Framework of Generative Models and Some Revelations

On Superresolution Effects in Maximum Likelihood Adaptive Antenna Arrays论文阅读