《强化学习》学习笔记4—— actor-critic 算法

阅读量：

算法思想

前面有提到，训练一个强化学习，可以训练一个价值评估函数，也可以训练一个策略函数。价值学习可以通过TD算法，使得训练过程可以单步更新，而不用等到游戏回合结束之后进行模型参数修正，这样训练收敛较快。但是价值学习有一个局限性，需要能够穷举所有可行的行为，当行为状态是一个连续量时，价值网络不能很好表示这个情形，而策略学习可以解决这个问题。

策略学习采用策略梯度算法学习，梯度公式为：
$rac{artial V}{artial heta}=E_{A}$

我们可以发现梯度公式中有一个 $Q_{i}$ , 这个Q函数值如何求得是一个需要解决的问题。如何解决这个问题呢？一般有两种方式，一种是当游戏回合结束之后，每一阶段的Q值可以用实际的累计回报计算出来，但是这种回合式的更新，一般学习效率比较低；另一种方式同时训练一个网络来近似 $Q_{i}$ ，这个网络就叫做critic，而策略网络就叫做actor。这个算法的最终学习目标式策略网络，价值网络只是用来辅助训练。

策略网络最初形态：

结合了价值网络之后的策略网络训练流程：

算法步骤

actor-critic 算法的步骤和前面提到的策略梯度算法的步骤整体是一致的，只是再第4步求 $q_{t}$ 的时候具化用一个价值网络求值，同时增加了第5、7步对价值网络参数的修正。

同时为了梯度的方差，实际训练时会采用 $elta_{t}$ 代替 $q_{t}$ (带基线的梯度)，这样一般训练效果更好。

这里的价值网络和价值学习中的网络有什么区别？

个人理解，在价值学习中，有多少种动作，神经网络就有多少个输出；而这里用于做critic 的网络，虽然预测的也是Q值，但是网络的输入是环境状态和行为，输出是价值，所以这里的critic网络可以适应动作是连续量的情况。

参考

5.深度强化学习(5_5)：AlphaGo(Av374239425,P5)_哔哩哔哩_bilibili

https://www.jianshu.com/p/9632f10bc590

全部评论 (0)

还没有任何评论哟~

《强化学习》学习笔记4—— actor-critic 算法

算法思想前面有提到，训练一个强化学习，可以训练一个价值评估函数，也可以训练一个策略函数。价值学习可以通过TD算法，使得训练过程可以单步更新，而不用等到游戏回合结束之后进行模型参数修正，这样训练收敛较...

强化学习4-actor-critic 方法

ActorCriticMethods 1\.状态值函数的近似现在我们直到状态值函数： V\pist=\suma\piast\cdotQ\pist,a. 等式右边有两个函数，一个是策略函数，一个是价值...

【强化学习】Actor-Critic算法

最近读论文看到了强化学习中的ActorCritic算法。因此了解一下这方面的知识，并记录下来，以防忘记。文章中部分内容也借鉴了其他优秀的博主。文章目录一、简介二、策略梯度法（PolicyGrad...

强化学习笔记6 Actor-Critic方法

之前学习了价值学习和策略学习，这篇笔记所记录的ActorCritic方法，用到了策略网络和价值网络这两个神经网络，然后通过环境给的奖励来学习这两个网络； Actor是策略网络，用来控制agent运动，...

actor-critic 算法学习笔记

目录 1、基于值的算法和基于策略的算法对比 2、actorcritic算法 3、TDerror算法 critic网络代码 actor网络代码 1、基于值的算法和基于策略的算法对比基于值的算法，典型的...

【强化学习】Actor-Critic

原文链接：<https://www.yuque.com/yahei/heyyahei/rlactorcritic 参考：机器学习深度学习（李宏毅）ActorCritic ActorwithCritic...

【强化学习】Actor-Critic

ActorCritic算法欢迎访问Blog全部目录！文章目录 ActorCritic算法 1.ActorCritic原理 1.1.简述 1.1.优劣势 1.3.策略网络和价值网络 1.3.1.策略...

强化学习&Actor-Critic8.1 | Actor-Critic方法

AC方法是基于值与基于策略方法的结合，之前我们使用baseline来减少基于策略的智能体的variance，我们也可以使用值函数来作为baseline，训练一个神经网络来拟合值函数，然后将它作为bas...

【强化学习】Soft Actor-Critic (SAC) 算法

Soft Actor-Critic（SAC）是一种最先进的强化学习算法，属于 Actor-Critic 方法的变体。它特别适合处理连续动作空间，并通过引入最大熵（Maximum Entropy）强...

【深度强化学习】Actor-Critic 算法

本书之前的章节讲解了基于值函数的方法（DQN）和基于策略的方法（REINFORCE），其中基于值函数的方法只学习一个价值函数，而基于策略的方法只学习一个策略函数。那么，一个很自然的问题是，有没有什么方...

是否确定退出登录?

《强化学习》学习笔记4—— actor-critic 算法

算法思想

算法步骤

这里的价值网络和价值学习中的网络有什么区别？

参考

全部评论 (0)

相关文章推荐

《强化学习》学习笔记4—— actor-critic 算法

强化学习4-actor-critic 方法

【强化学习】Actor-Critic算法

强化学习笔记6 Actor-Critic方法

actor-critic 算法学习笔记

【强化学习】Actor-Critic

【强化学习】Actor-Critic

强化学习&Actor-Critic8.1 | Actor-Critic方法

【强化学习】Soft Actor-Critic (SAC) 算法

【深度强化学习】Actor-Critic 算法