Advertisement

Diffusion for World Modeling

阅读量:

世界模型也在传播!训练出的智能体表现出了不俗的能力,在图像生成领域占据主导地位的扩散模型已经开始挑战强化学习智能体。

世界模型发展出一种在安全的前提下,并且通过高效的数据采样实现强化学习智能体训练的方法。近期研究主要基于离散潜在变量序列来进行操作以描述环境的动态变化。

然而,在采用紧凑而离散的表征方式时可能会忽视强化学习中至关重要的视觉细节。另一方面,在图像生成领域中被广泛应用于的扩散模型作为主要的替代方案,在应对离散潜在模型方面仍面临诸多困难。

基于这种转变,在扩散世界模型中训练的强化学习智能体系统中进行训练的研究团队共同开发了一种名为DIAMOND的新方法——DIAMOND(DIffusion As a Model Of eNvironment Dreams)。

论文地址:https://arxiv.org/abs/2405.12399

项目地址:https://github.com/eloialonso/diamond

论文标题:Diffusion for World Modeling: Visual Details Matter in Atari

DAMOND 在 Atari 100k 测试中实现了 1.46 的平均归一化得分 (HNS),其性能可与完全在元宇宙环境中训练的智能体达到当前最优水平相当。该研究通过定性分析揭示了 DAMOND 设计决策对于维持扩散式世界模型的长期高效稳定所必需的关键性选择。

此外,在图像空间中进行操作能够显著提升扩散世界模型与环境直接取代的能力,并深化了对世界模型及其智能体行为的理解。值得注意的是,该研究发现,在某些游戏中,通过更好地建模关键视觉细节(即视觉细节建模)能够使性能表现得到显著提升。

方法介绍

本文阐述了 DIAMOND 强化学习智能体,在扩散世界模型中进行训练。具体而言, 该强化学习智能体是通过扩散世界模型进行训练的, 其中漂移系数 f 和扩散系数 g 被定义为 2.2 节中所述的一种特定的扩散范式选择。此外, 该研究采用了 EDM 公式, 该公式由 Karras 等人提出。

实验

为了全面评估 DIAMOND,该研究使用了公认的 Atari 100k 基准测试,该基准测试包括 26 个游戏,用于测试智能体的广泛能力。对于每个游戏,智能体只允许在环境中进行 100k 次操作,这大约相当于人类 2 小时的游戏时间,以在评估前学习玩游戏。作为参考,没有限制的 Atari 智能体通常训练 5000 万步,这相当于经验的 500 倍增加。研究者从头开始在每个游戏上用 5 个随机种子训练 DIAMOND。每次大约使用 12GB 的 VRAM,在单个 Nvidia RTX 4090 上大约需要 2.9 天(总计 1.03 个 GPU 年)。 whaosoft aiot http://143ai.com

表 1 比较了在世界模型中训练智能体的不同得分:

图 2 中提供了平均值和 IQM( Interquartile Mean )置信区间:

结果显示,在基准测试中 DIAMOND 表现出色,在超越了人类玩家在 11 个游戏中取得的成绩的同时其 HNS 得分为 1.46 这一成绩是由完全基于世界模型训练的智能体所创造的最新记录 进一步研究表明 DIAMOND 尤其是在那些对细节要求较高的环境下表现出色 如 Asterix Breakout 和 Road Runner 等

该研究旨在探讨扩散变量的稳定性,并对自回归生成的轨迹进行分析(如图所示)。图像编号为3。

本研究发现,在某些特定场景下,迭代求解器依赖于一种预定模式来引导其采样机制。

见图5所示,在与IRIS模拟轨迹相比的基础上,DIAMOND模拟轨迹通常展现出更为卓越的视觉效果,并更加贴近真实环境.

全部评论 (0)

还没有任何评论哟~