Advertisement

Hierarchical deep reinforcement learning (H-DQN)

阅读量:
论文简述

传统的DQN算法在面对环境反馈稀疏和反馈延迟的问题时表现出明显的效率低下。例如,在Montezuma's Revenge这一经典游戏中,DQN无论如何都无法通过简单的图像信息实现任务完成。其根本原因在于这类游戏需要依赖先验知识来完成任务,而这种先验知识往往超出了基于图像信息的计算机视觉系统的识别能力。

在这里插描述

为此,在本文中提出了一种分层结构的算法模型。其中顶层部分主要负责制定战略目标并指导次阶段目标的规划;底层则负责执行具体的操作步骤。这一组织架构完全符合人类处理复杂问题的认知模式,在面对高难度的任务时人们通常会将其分解为若干可管理的部分并通过逐步解决来实现整体目标。基于这种算法框架本研究成功提取了Montezuma’s Revenge游戏中的战略决策机制

公式理解
算法框架

该算法由两个层级组成:meta-controller 用于获取当前状态s_t并分配相应子任务给下一层控制器完成。该层级作为强化学习机制设计的核心模块,在每一步都旨在最大化实际获得的extrinsic reward之和。在这里采用的是DQN方法,在此过程中该层Q-值更新的目标是使未来的预期回报最大化。

在这里插入图片描述

controller :它接受来自上一层级的任务请求 并结合当前状态信息 来做出反应 决定并执行相应的操作。该控制器采用强化学习算法 设计目的即在于通过预设的目标函数 最大化系统内部定义的目标奖励信号之和 这里我们采用Deep Q-Network(DQN)方法 将其更新目标设定为此处提到的具体优化方向

在这里插入图片描述
伪代码
在这里插入图片描述
实验结果
在这里插入图片描述

延迟反馈下的实验结果,Q-learning作为baseline ,

在这里插入图片描述

延迟反馈下的实验结果,DQN作为baseline ,

全部评论 (0)

还没有任何评论哟~