Advertisement

【论文阅读】Discovering Reinforcement Learning Algorithms

阅读量:

2020.7 arxiv

2020.7 arxiv

任务:使用meta-learning方法学习通用的强化学习算法

该方法旨在解决自动去学习agent应预测哪些(价值函数)以及如何利用这些预测结果来确定策略的问题。该方法通过引入Learned Policy Gradient(LPG)框架来实现这一目标。具体而言,该方法通过meta-learner动态决定应关注哪些输入,并避免显式限制agent对输出语义的约束。

模型框架

在这里插入图片描述

目标:根据环境分布p(ε)和agent参数p(θ),学习最优的更新策略η(meta-learner)

在这里插入图片描述

G为累积奖励

在这里插入图片描述
LPG框架

agent采取策略π并对预测向量y进行编码;基于反向传播的LSTM模型(LPG)能够生成新的策略π和预测值y;输入条件包括当前状态s_t、动作a_t以及奖励r_t等信息

在这里插入图片描述

其中r_t为激励值,d_t表示当前步是否为episode的结束

Agent的更新\theta
在这里插入图片描述

\hat{\pi}被用来调节agent动作概率的变化方式,而\hat{y}被用来确定agent在给定状态下的目标值。

LPG的更新\eta
在这里插入图片描述

增加一些正则项后变为

在这里插入图片描述

H(y)H(π)惩罚过于确定的预测和动作概率

平衡不同agent(不同游戏任务)中的超参\alpha

使用p(\alpha|\epsilon)进行超参采样,而不使用确定的超参

在这里插入图片描述

R为奖励,N为累积次数

meta-train
在这里插入图片描述
meta-test

采用实验集(基于breakout和boxing游戏)中的最优更新策略η,并对其余59款经典的游戏进行评估

在这里插入图片描述

f为一个与动作无关的baseline函数

实验

通过三种玩具游戏进行训练

在atari游戏中进行meta test
在这里插入图片描述

与A2C相比,不同游戏各有千秋

与目前最好的方法进行比较
在这里插入图片描述
预测向量y预测了什么
在这里插入图片描述

可以看到y的内容与policy有关,说明确实学习到了有意义的语义

全部评论 (0)

还没有任何评论哟~