（八）强化学习——策略梯度,REINFORCEMENT算法,Actor-Critic

阅读量：

1.前言
我们上一节分享了DQN算法以及它的一些改进算法七）强化学习——DQN,DDQN,Dueling DQN,Rainbow DQN。其实最主要的核心就是我们用了一个神经网络Q(s,a,θ)来近似最优动作价值函数Q*（s,a）。一旦神经网络训练完成，我们只要输入一个状态，神经网络就能准确的输出在这个状态下各个动作的价值，我们就能选出Q值最大的那个动作执行，也就是完成了一次任务序列的一次最优决策。一个已经训练好了的Q网络其实就是一个特定的策略 ，只不过这里的策略是用Q值指导动作的选择，那我们能不能直接训练从状态到动作的网络。答案是肯定的。我们在（三）强化学习——策略函数π and 价值函数、贝尔曼方程中提到过策略函数π（a|s），表示在状态s下，通过策略π，直接选出动作a。我们用一个神经网络来近似它。
在这里插入图片描述

图 1 ：用一个神经网络近似π函数

这个网络是不是很眼熟，和近似状态-动作Q函数的神经网络很像，只是输出不一样，这里的输出是每个动作对应的概率，而不是每个动作对应的Q值。p1+p2+…+pn=1。我们可以看见这其实是两种不同的学习方式。我们把前者称为基于价值的学习 ，后者称为基于策略的学习 。基于价值的学习更适合于动作空间较小且离散的场景，如游戏等。基于策略的学习更适用于动作集合规模庞大、动作连续的场景（如机器人控制领域）。
2.策略梯度
我们来回顾一下Qπ，这个其实就是动作价值函数，使用π策略，对当前状态st,执行动作a的一个好坏评价。从公式可以看出，它是通过未来奖励的期望回报高低来评价好坏的。
在这里插入图片描述

图2：Qπ

图3是Vπ（st）状态函数，这个是用来评判状态的好坏的。从公式可以看出它的计算方式是，在策略π下平均了经过状态St所有的期望值。
在这里插入图片描述

图3：Vπ

仅从公式来看，我们很难深刻理解他们两者的关系。接下里我将尽可能的讲解。如图4所示，是3条完整的幕，幕就是智能体与环境的交互产生的状态、动作、奖励序列。在真正的强化学习任务中远比图中的要复杂。我们以状态st为例，状态st是3个幕的交点，就是在状态st这个时刻，有a1,a2,a3这3个动作可以选择。Qπ(st,a1)表示的就是在当前状态下执行动作a1的价值，就是幕1中st到终止状态的奖励的期望值。同理Qπ(st,a2)，Qπ(st,a3)也是这样。Vπ（st）就是Qπ(st,a1)，Qπ(st,a2)，Qπ(st,a3)这3个对于动作a的一个期望。假设，这个π策略此时执行a1的概率是1/6，a2是1/6，a3是2/3。则Vπ（st）=1/6 Qπ(st,a1)+1/6 Qπ(st,a2)+2/3*Qπ(st,a3)。
在这里插入图片描述

图4：序列轨迹图

仔细一看，这个概率不就是策略网络的输出嘛，这样动作价值函数，状态价值函数，策略函数的关系我们就知道了。
在这里插入图片描述

大写的A表示随机变量。我们训练策略网络的目的是希望Vπ（s）越大越好，故对Vπ（s;θ）是做梯度上升。
在这里插入图片描述
对于离散的动作，我们可以这样表示，而对于连续的动作，我们就要用另一种梯度表示形式：

从上一个公式，到这一个公式的推导，我就不啰嗦了，感兴趣的可以去看bilibili北大王树森的深度强化学习教程，对这一块有推导。
Vπ（st）评价的是状态st时的状态好坏，而我们希望的是所有状态更好。那么对于所有的状态S，状态价值Vπ(S)的均值应当很大。因此我们定义目标函数：
在这里插入图片描述
图片来源：北大王树森
这个目标函数排除掉了状态S 的因素，只依赖于策略网络π的参数θ；策略越好，则J(θ) 越大。所以策略学习可以描述为这样一个优化问题：

我们希望通过对策略网络参数θ的更新，使得目标函数J(θ)越来越大，也就意味着策略网络越来越强。想要求解最大化问题，显然可以用梯度上升更新θ，使得J(θ)增大。设当前策略网络的参数为θnow。做梯度上升更新参数，得到新的参数θnew：
在这里插入图片描述把之前的Vπ（st）的推导写成所有状态的形式。策略梯度可以写成下面定理中的期望形式

解析求出这个期望是不可能的，因为我们并不知道状态S概率密度函数；即使我们知道S 的概率密度函数，能够通过连加或者定积分求出期望，我们也不愿意这样做，因为连加或者定积分的计算量非常大。我们用蒙特卡洛近似，可以用这种方法用来近似策略梯度中的期望。每次从环境中观测到一个状态s，它相当于随机变量S的观测值。然后再根据当前的策略网络（策略网络的参数必须是最新的）随机抽样得出一个动作，计算随机梯度：
在这里插入图片描述

3.REINFORCEMENT算法 从梯度策略的更新中，我们可以看见，还有一个Qπ（st,at）的值是不确定的。这里有两种办法得到Qπ（st,at）。第一种对于一个完整的幕，及从开始状态到终态的状态、动作、序列我们都知道。在这里插入图片描述

根据定义，我们可以直接计算出每个时刻的Qπ（at,st）。这种算法就是REINFORCEMENT算法 。训练步骤如下：
在这里插入图片描述

这种算法的更新需要序列是完整的。第二种方法就是，我们用一个神经网络来近似Qπ（at,st），用TD的方法来更新，这种算法就是Actor-crictic 结构的算法。
4.actor-critic
Actor-Critic算法，从名字翻译就是“演员-评委”方法。策略网络π（a|s;θ）相当于演员。价值网络相当于评委。如下图所示，图片来源北大王树森。
在这里插入图片描述
训练流程如下

5.总结
强化学习的两种学习方式，一种是基于价值，一种就是基于策略，他们分别由deepmind和openAI引领，而后走向了归一。这一节我们介绍了基于策略的算法。下一节会分享AC结构的强化学习算法。

全部评论 (0)

还没有任何评论哟~

（八）强化学习——策略梯度,REINFORCEMENT算法,Actor-Critic

1.前言我们上一节分享了DQN算法以及它的一些改进算法七）强化学习——DQN,DDQN,DuelingDQN,RainbowDQN。其实最主要的核心就是我们用了一个神经网络Qs,a,θ来近似最优动作...

（九）强化学习——带基线的策略梯度,REINFORCEMENT with baseline,Advantage Actor-Critic(A2C)

1.前言上一节推导了策略梯度，分享了两种策略梯度算法REINFORCEMENT算法，和ActorCritic算法（八）强化学习——策略梯度,REINFORCEMENT算法,ActorCritic。方...

强化学习基础算法介绍，DQN，策略梯度算法，Actor-Critic算法

7\.DQN DQN算法boyuai.com 7.1简介在Qlearning算法中，我们以矩阵的方式建立了一张存储每个状态下所有动作值的表格。表格中的每一个动作价值表示在状态s下选择动作a然后继续遵...

强化学习中的策略梯度算法：REINFORCE与Actor-Critic对比研究

强化学习是机器学习领域中一种重要的学习范式，它通过智能体（Agent）与环境的交互来学习最优策略。在强化学习中，策略梯度算法是一类常用的优化方法，其中REINFORCE算法和ActorCritic算法...

【深度强化学习】Actor-Critic 算法

本书之前的章节讲解了基于值函数的方法（DQN）和基于策略的方法（REINFORCE），其中基于值函数的方法只学习一个价值函数，而基于策略的方法只学习一个策略函数。那么，一个很自然的问题是，有没有什么方...

【强化学习】Actor-Critic算法

最近读论文看到了强化学习中的ActorCritic算法。因此了解一下这方面的知识，并记录下来，以防忘记。文章中部分内容也借鉴了其他优秀的博主。文章目录一、简介二、策略梯度法（PolicyGrad...

深度学习、强化学习：Natural Actor Critic Methods for Deep Reinforcement

作者：禅与计算机程序设计艺术 1.简介 1992年，一个名叫雷·西蒙森（）的人工智能研究者和计算机科学教授，提出了基于模型的强化学习ModelBasedReinforcementLearning方法。

【强化学习】Actor-Critic（AC）基于策略梯度的算法原理和实现案例方法

作者：禅与计算机程序设计艺术 1.简介 ActorCritic（AC）是一种基于策略梯度的方法，在很多强化学习问题中都有着广泛的应用。它利用两个网络分别来评估状态值函数Qs,a和执行策略As。Acto...

策略梯度算法对比：REINFORCE vs Actor-Critic vs PPO

策略梯度算法对比：REINFORCEvsActorCriticvsPPO 关键词：策略梯度算法、REINFORCE、ActorCritic、PPO、算法对比摘要：本文主要围绕策略梯度算法中的REIN...

SAC（Soft Actor-Critic）深度强化学习算法

SAC（SoftActorCritic）是一种深度强化学习算法，它结合了最大熵强化学习和基于策略梯度的方法。以下是对SAC算法的数学原理、网络架构及其PyTorch实现的详细阐述：一、数学原理 SA...

是否确定退出登录?

（八）强化学习——策略梯度,REINFORCEMENT算法,Actor-Critic

全部评论 (0)

相关文章推荐

（八）强化学习——策略梯度,REINFORCEMENT算法,Actor-Critic

（九）强化学习——带基线的策略梯度,REINFORCEMENT with baseline,Advantage Actor-Critic(A2C)

强化学习基础算法介绍，DQN，策略梯度算法，Actor-Critic算法

强化学习中的策略梯度算法：REINFORCE与Actor-Critic对比研究

【深度强化学习】Actor-Critic 算法

【强化学习】Actor-Critic算法

深度学习、强化学习：Natural Actor Critic Methods for Deep Reinforcement

【强化学习 】Actor-Critic（AC）基于策略梯度的算法原理和实现案例方法

策略梯度算法对比：REINFORCE vs Actor-Critic vs PPO

SAC（Soft Actor-Critic）深度强化学习算法

【强化学习】Actor-Critic（AC）基于策略梯度的算法原理和实现案例方法