Advertisement

actor-critic methods(价值学习和策略学习的结合)

阅读量:

在此之前,请先了解:

1.深度学习专业名词解释

2.深度学习-价值学习

3.深度学习-策略学习

图片来源:【王树森】深度强化学习

Actor-Critic Methods

actor是策略网络,用来控制agent运动。

critic是价值网络,给动作打分,可认为是裁判。

本次为价值学习和策略学习的结合。

用两个神经网络分别近似π函数和Qπ函数,然后用Actor-Critic Methods 同时学习这两个神经网络。

设置两个近似函数:

得到近似函数:

构建策略网络:

输入为状态s,conv:卷积层,dense:一个或多个全连接层,softmax:激活函数

构建价值网络:

输入为a和s,s用conv,a用dense得到各自feature,然后拼接起来,再用全连接层得到一个实数,这就是在s的情况下,做出动作a的分数,可以判断在s的情况下,做出动作a的好坏。

两个网络可以共享或独自各自的卷积层。

Actor-Critic Methods 可以同时让运动员做更高分数的动作,以及令裁判打分越来越精准。

训练方法:

策略网络训练π函数,θ为策略网络的参数。价值网络训练q函数,w为价值网络的参数。运动员靠裁判打的分数来更新自己的动作,也就是π通过q的打分来改进自己的动作,而q训练是为了让自己的打分更加接近上帝打的分,也就是更接近实际的奖励。

训练步骤:

第四步为用TD算法更新w,第五步policy gradient算法更新θ。

算法介绍分别在上面的链接 价值学习(TD)和策略学习(policy gradient) 。

这两幅图就是对算法的图解,其实就是两个算法的不断使用,思路和算法上面都写过了。

总结:

在第九步中qt用第五步的公式代替效果更好, 因为可以降低方差,收敛更快。

全部评论 (0)

还没有任何评论哟~