强化学习第十章：Actor-Critic 方法

阅读量：

强化学习第十章：Actor-Critic 方法

什么叫Actor-Critic
最简单的AC，QAC(Q Actor-Critic)
优势函数的AC，A2C(Advantage Actor-Critic)
异策略AC，Off-Policy AC
确定性策略梯度，DPG
总结
参考资料

什么叫Actor-Critic

一句话，策略由动作来执行，执行者叫Actor，评价执行好坏的叫Critic(Policy Evaluation)。

最简单的AC，QAC(Q Actor-Critic)

之前的REINFORCE(PG by MC)用的是MC来近似qπ，现在使用另一种方式TD：
在这里插入图片描述
熟悉的Critic，其实就是SARSA算法，Policy Update过程利用当前 wt更新 策略 参数θt ，然后Value Update过程更新wt，之前的 θt用来生成新的数据 ，这两个过程从VU过程开始想可能更好理解。

优势函数的AC，A2C(Advantage Actor-Critic)

最简单的PG说起，

lnx的梯度=x的梯度/x，那么有

可以观察到：

这里的分子是qt(st, at)，有啥改进方向吗？
带基线的PG
qt(st, at)是当前状态动作价值的近似，如果减去一个 偏置项 ，或者说一个参考值，那么对于上面的 比例因子β 来说会 更准确 ，那么这个值是多少呢，如果没有减，那么就相当于0，对于状态动作价值来说，可能会想到的一个参考值就是 状态价值vπ(s) ：

这个值是最优的吗，实际上是次优的，最优的是下边的（计算复杂）：

去掉复杂的计算，就是上面次 次优的基线 ，引入这样一个基线，对于 状态价值函数的近似（状态价值的期望）来说是没影响 的，也就说之前的方法 TD或MC还能用 ，但是能 减少近似的方差 。证明在赵老师书的P226。
优势函数

这个为啥叫优势函数，当前的状态动作价值都大于状态价值的，该动作相对来说比较有优势，鼓励该动作，反之，抑制。
对于这个优势函数，求期望可以得到：

那就可以将优势函数近似为TD-Error，熟悉的感觉来了：

伪代码(多了个优势函数的计算过程)：

异策略AC，Off-Policy AC

异策略，行为策略和更新的不是一个，就叫异策略，那么更新的策略就是之前的，那行为策略是谁，是β：
在这里插入图片描述
用给定策略β的采样来更新π的参数，为啥要这样做，这样做对吗。在有些 离线强化学习 情况下， 不能实时交互产生数据 ，这个时候就要用到这种方法，很明显 预采集 的数据的策略和 当前策略 是 不一样 的，不能直接使用，需要乘以一个比例，代表之前采集到的数据对于当前策略更新的重要程度，这样就能使用了，但实际上两个策略之间的差距不能太大，后面的PPO会解决这个问题。
关于重要性采样的进一步理解：
在这里插入图片描述
具体比值的理解：

确定性策略梯度，DPG

到目前为止，学习了PG，AC这些 在线策略算法 ，样本效率（sample efficiency）比较低，当然，DQN和A2C也可以 离线学习 ，但是只能处理 动作离散 的情况，如果 本身连续 再 进行离散 以适应算法，无法适应精确度要求高的任务，那么有没有 离线的，能处理连续动作空间 任务的算法呢，有那就是DPG。
假设给一个策略，输入状态，输出直接就是动作。
在这里插入图片描述
那DPG算法的优化函数是什么呢，跟PG一样，分析：

平均状态价值Average value

这里的s的分布同样可能与策略相关(马尔科夫链平稳分布)或无关(固定值，只关心一些或某个状态)
平均即时奖励 Average reward

经过求解两种评价的梯度，P236开始证明：

OK，梯度有了，梯度上升迭代式：

最终的伪代码（如果里面的qsa用神经网络来近似，那么就是DDPG）：

总结

从QAC到A2C再到离线A2C，最后的DPG为什么是离线的，注意解决的关键问题以及引入的手段。

参考资料

【强化学习的数学原理】课程：从零开始到透彻理解（完结）

全部评论 (0)

还没有任何评论哟~

强化学习第十章：Actor-Critic 方法

强化学习第十章：ActorCritic方法什么叫ActorCritic 最简单的AC，QACQActorCritic 优势函数的AC，A2CAdvantageActorCritic 异策略AC，Of...

强化学习&Actor-Critic8.1 | Actor-Critic方法

AC方法是基于值与基于策略方法的结合，之前我们使用baseline来减少基于策略的智能体的variance，我们也可以使用值函数来作为baseline，训练一个神经网络来拟合值函数，然后将它作为bas...

强化学习4-actor-critic 方法

ActorCriticMethods 1\.状态值函数的近似现在我们直到状态值函数： V\pist=\suma\piast\cdotQ\pist,a. 等式右边有两个函数，一个是策略函数，一个是价值...

强化学习：10-1 actor critic方法

第十次课程介绍：actorcritic方法本次课将介绍actorcritic的方法。课程位置与重要性整个课程每部分都重要，前期内容基础，如贝尔曼公式、贝尔曼最优公式等，不理解会影响后期学习；后期...

【强化学习】Actor-Critic算法

最近读论文看到了强化学习中的ActorCritic算法。因此了解一下这方面的知识，并记录下来，以防忘记。文章中部分内容也借鉴了其他优秀的博主。文章目录一、简介二、策略梯度法（PolicyGrad...

【强化学习】Actor-Critic

原文链接：<https://www.yuque.com/yahei/heyyahei/rlactorcritic 参考：机器学习深度学习（李宏毅）ActorCritic ActorwithCritic...

【强化学习】Actor-Critic

ActorCritic算法欢迎访问Blog全部目录！文章目录 ActorCritic算法 1.ActorCritic原理 1.1.简述 1.1.优劣势 1.3.策略网络和价值网络 1.3.1.策略...

强化学习笔记6 Actor-Critic方法

之前学习了价值学习和策略学习，这篇笔记所记录的ActorCritic方法，用到了策略网络和价值网络这两个神经网络，然后通过环境给的奖励来学习这两个网络； Actor是策略网络，用来控制agent运动，...

强化学习——Actor Critic Method

importgym,os fromitertoolsimportcount importpaddle importpaddle.nnasnn importpaddle.optimizerasoptim...

强化学习之Actor-Critic

ActorCritic 一句话概括：结合了PolicyGradient（Actor）和FunctionApproximation（Critic）.Actor基于概率选择，Critic基于Actor的行...

是否确定退出登录?

强化学习第十章：Actor-Critic 方法

强化学习第十章：Actor-Critic 方法

什么叫Actor-Critic

最简单的AC，QAC(Q Actor-Critic)

优势函数的AC，A2C(Advantage Actor-Critic)

异策略AC，Off-Policy AC

确定性策略梯度，DPG

总结

参考资料

全部评论 (0)

相关文章推荐

强化学习第十章：Actor-Critic 方法

强化学习&Actor-Critic8.1 | Actor-Critic方法

强化学习4-actor-critic 方法

强化学习：10-1 actor critic方法

【强化学习】Actor-Critic算法

【强化学习】Actor-Critic

【强化学习】Actor-Critic

强化学习笔记6 Actor-Critic方法

强化学习——Actor Critic Method

强化学习之Actor-Critic