【论文阅读】Discovering Reinforcement Learning Algorithms
发布时间
阅读量:
阅读量
2020.7 arxiv
2020.7 arxiv
任务:使用meta-learning方法学习通用的强化学习算法
该方法旨在解决自动去学习agent应预测哪些(价值函数)以及如何利用这些预测结果来确定策略的问题。该方法通过引入Learned Policy Gradient(LPG)框架来实现这一目标。具体而言,该方法通过meta-learner动态决定应关注哪些输入,并避免显式限制agent对输出语义的约束。
模型框架

目标:根据环境分布p(ε)和agent参数p(θ),学习最优的更新策略η(meta-learner)

G为累积奖励

LPG框架
agent采取策略π并对预测向量y进行编码;基于反向传播的LSTM模型(LPG)能够生成新的策略π和预测值y;输入条件包括当前状态s_t、动作a_t以及奖励r_t等信息

其中r_t为激励值,d_t表示当前步是否为episode的结束
Agent的更新\theta

\hat{\pi}被用来调节agent动作概率的变化方式,而\hat{y}被用来确定agent在给定状态下的目标值。
LPG的更新\eta

增加一些正则项后变为

H(y)和H(π)惩罚过于确定的预测和动作概率
平衡不同agent(不同游戏任务)中的超参\alpha
使用p(\alpha|\epsilon)进行超参采样,而不使用确定的超参

R为奖励,N为累积次数
meta-train

meta-test
采用实验集(基于breakout和boxing游戏)中的最优更新策略η,并对其余59款经典的游戏进行评估

f为一个与动作无关的baseline函数
实验
通过三种玩具游戏进行训练
在atari游戏中进行meta test

与A2C相比,不同游戏各有千秋
与目前最好的方法进行比较

预测向量y预测了什么

可以看到y的内容与policy有关,说明确实学习到了有意义的语义
全部评论 (0)
还没有任何评论哟~
