强化学习4-actor-critic 方法

阅读量：

Actor-Critic Methods

1. 状态值函数的近似

现在我们直到状态值函数：
$V_{\pi}(s_t) = \sum_a\pi (a|s_t)\cdot Q_\pi (s_t, a).$

等式的右侧包含两个关键组件：其中一个代表策略函数（Strategy Function），另一个代表价值函数（Value Function）。其中策略部分用于确定采取各动作的概率分布；而价值部分则用于评估采取各动作所带来的回报期望值。为了全面评估当前状态下的最优决策路径，则需要遍历所有可能的动作组合，并据此计算出该状态下所有可能状态的价值（State Value Function）。

我们现在的方案是将策略函数 和价值函数 用两个神经网络来代替：

$V_{\pi}(s_{t})$ 被定义为 $\sum_{a}\pi(a|s_{t})$ 与 $Q_{\pi}(s_{t}, a)$ 的乘积；这被近似于 $\sum_{a}\pi(a|s_{t};\bm{\theta})$ 与 $Q_{\pi}(s_{t}, a;\bm{w})$ 的乘积

其中 $\pmb{\theta}$ , $\pmb{w}$ 表示两个神经网络的参数（用来训练）。

策略网络控制动作，而价值网络评价动作的好坏。

2. 训练网路

通过分析当前系统的动态行为关系，我们成功推导出一个状态值函数的数学表达式。该公式表示为：

V(s;\pmb{\theta}, \pmb{w}) = \sum_a \pi(a|s;\pmb{\theta}) \cdot q(s,a;\pmb{w})

请问是否可以通过该公式来优化参数 $\pmb{\theta}$ 和 $\pmb{w}$ 呢？

当我们固定策略 $\pmb{\theta}$ 后, 通过优化价值网络 $\pmb{w}$ 使其评估结果趋近于真实值
当我们固定价值参数 $\pmb{w}$ 后, 通过优化策略 $\pmb{\theta}$ 以最大化累计回报

3. 所以伪代码为

观察当前状态sₜ。
基于现有策略随机选取动作aₜ。
执行动作aₜ后会得到下一个状态s_{t+1}以及即时回报rₜ。
采用时间差分解算法来更新价值网络参数\pmb{w}。
应用梯度上升方法来更新策略网络参数\pmb{\theta}。

随后按照现有策略随机选取下一个动作 $a_{t+1}$ 进行推导。
基于现有的评价网络能够推导出以下两个公式：

q(t) = q(s(t), a(t); w(t)) \\ q(t + 1) = q(s(t + 1), a(t + 1); w(t))

在此基础上计算即时差分误差 $\delta^T$ ：

\delta^T = q(T) - [r(T) + γ · q(T + 1)]

通过求解目标函数关于权重向量的梯度向量来确定更新方向：

d_w,t = ∂q(s(t),a(t); w)/∂w| _ { w=w^*_ t }

最终更新价值神经网络权重向量：
$$
W^{}_{ t + } = W^_ t − α·δ^T · d_w,t

步骤5详细说明如下： 1. 确定策略网络的梯度：通过求解目标函数关于θ的导数在当前参数θₜ处的值来计算状态-动作对数概率相对于参数θ的变化率。 2. 调整参数以更新策略网络：利用计算得到的梯度信息和学习率β进行优化迭代以更新当前策略网络的参数θₜ₊₁ = θₜ + β·δₜ·d_{θ,t}。

全部评论 (0)

还没有任何评论哟~

强化学习4-actor-critic 方法

ActorCriticMethods 1\.状态值函数的近似现在我们直到状态值函数： V\pist=\suma\piast\cdotQ\pist,a. 等式右边有两个函数，一个是策略函数，一个是价值...

强化学习&Actor-Critic8.1 | Actor-Critic方法

AC方法是基于值与基于策略方法的结合，之前我们使用baseline来减少基于策略的智能体的variance，我们也可以使用值函数来作为baseline，训练一个神经网络来拟合值函数，然后将它作为bas...

《强化学习》学习笔记4—— actor-critic 算法

算法思想前面有提到，训练一个强化学习，可以训练一个价值评估函数，也可以训练一个策略函数。价值学习可以通过TD算法，使得训练过程可以单步更新，而不用等到游戏回合结束之后进行模型参数修正，这样训练收敛较...

强化学习：10-1 actor critic方法

第十次课程介绍：actorcritic方法本次课将介绍actorcritic的方法。课程位置与重要性整个课程每部分都重要，前期内容基础，如贝尔曼公式、贝尔曼最优公式等，不理解会影响后期学习；后期...

【强化学习】Actor-Critic算法

最近读论文看到了强化学习中的ActorCritic算法。因此了解一下这方面的知识，并记录下来，以防忘记。文章中部分内容也借鉴了其他优秀的博主。文章目录一、简介二、策略梯度法（PolicyGrad...

【强化学习】Actor-Critic

原文链接：<https://www.yuque.com/yahei/heyyahei/rlactorcritic 参考：机器学习深度学习（李宏毅）ActorCritic ActorwithCritic...

【强化学习】Actor-Critic

ActorCritic算法欢迎访问Blog全部目录！文章目录 ActorCritic算法 1.ActorCritic原理 1.1.简述 1.1.优劣势 1.3.策略网络和价值网络 1.3.1.策略...

强化学习笔记6 Actor-Critic方法

之前学习了价值学习和策略学习，这篇笔记所记录的ActorCritic方法，用到了策略网络和价值网络这两个神经网络，然后通过环境给的奖励来学习这两个网络； Actor是策略网络，用来控制agent运动，...

强化学习第十章：Actor-Critic 方法

强化学习第十章：ActorCritic方法什么叫ActorCritic 最简单的AC，QACQActorCritic 优势函数的AC，A2CAdvantageActorCritic 异策略AC，Of...

强化学习——Actor Critic Method

importgym,os fromitertoolsimportcount importpaddle importpaddle.nnasnn importpaddle.optimizerasoptim...

是否确定退出登录?

强化学习4-actor-critic 方法

Actor-Critic Methods

1. 状态值函数的近似

2. 训练网路

3. 所以伪代码为

全部评论 (0)

相关文章推荐

强化学习4-actor-critic 方法

强化学习&Actor-Critic8.1 | Actor-Critic方法

《强化学习》学习笔记4—— actor-critic 算法

强化学习：10-1 actor critic方法

【强化学习】Actor-Critic算法

【强化学习】Actor-Critic

【强化学习】Actor-Critic

强化学习笔记6 Actor-Critic方法

强化学习第十章：Actor-Critic 方法

强化学习——Actor Critic Method