强化学习Actor Critic Method

阅读量：

复制代码

 import gym, os

    
 from itertools import count
    
 import paddle
    
 import paddle.nn as nn
    
 import paddle.optimizer as optim
    
 import paddle.nn.functional as F
    
 from paddle.distribution import Categorical
    
  
    
  
    
  
    
 device = paddle.get_device()
    
 env = gym.make("CartPole-v0") 
    
  
    
 state_size = env.observation_space.shape[0]
    
 action_size = env.action_space.n
    
 lr = 0.001
    
  
    
 class Actor(nn.Layer):
    
     def __init__(self, state_size, action_size):
    
     super(Actor, self).__init__()
    
     self.state_size = state_size
    
     self.action_size = action_size
    
     self.linear1 = nn.Linear(self.state_size, 128)
    
     self.linear2 = nn.Linear(128, 256)
    
     self.linear3 = nn.Linear(256, self.action_size)
    
  
    
     def forward(self, state):
    
     output = F.relu(self.linear1(state))
    
     output = F.relu(self.linear2(output))
    
     output = self.linear3(output)
    
     distribution = Categorical(F.softmax(output, axis=-1))
    
     return distribution
    
  
    
  
    
 class Critic(nn.Layer):
    
     def __init__(self, state_size, action_size):
    
     super(Critic, self).__init__()
    
     self.state_size = state_size
    
     self.action_size = action_size
    
     self.linear1 = nn.Linear(self.state_size, 128)
    
     self.linear2 = nn.Linear(128, 256)
    
     self.linear3 = nn.Linear(256, 1)
    
  
    
     def forward(self, state):
    
     output = F.relu(self.linear1(state))
    
     output = F.relu(self.linear2(output))
    
     value = self.linear3(output)
    
     return value
    
  
    
 def compute_returns(next_value, rewards, masks, gamma=0.99):
    
     R = next_value
    
     returns = []
    
     for step in reversed(range(len(rewards))):
    
     R = rewards[step] + gamma * R * masks[step]
    
     returns.insert(0, R)
    
     return returns
    
  
    
  
    
 def trainIters(actor, critic, n_iters):
    
     optimizerA = optim.Adam(lr, parameters=actor.parameters())
    
     optimizerC = optim.Adam(lr, parameters=critic.parameters())
    
     for iter in range(n_iters):
    
     state = env.reset()
    
     log_probs = []
    
     values = []
    
     rewards = []
    
     masks = []
    
     entropy = 0
    
     env.reset()
    
  
    
     for i in count():
    
         # env.render()
    
         state = paddle.to_tensor(state,dtype="float32",place=device)
    
         dist, value = actor(state), critic(state)
    
  
    
         action = dist.sample([1])
    
         next_state, reward, done, _ = env.step(action.cpu().squeeze(0).numpy()) 
    
  
    
         log_prob = dist.log_prob(action);
    
         # entropy += dist.entropy().mean()
    
  
    
         log_probs.append(log_prob)
    
         values.append(value)
    
         rewards.append(paddle.to_tensor([reward], dtype="float32", place=device))
    
         masks.append(paddle.to_tensor([1-done], dtype="float32", place=device))
    
  
    
         state = next_state
    
  
    
         if done:
    
             if iter % 10 == 0:
    
                 print('Iteration: {}, Score: {}'.format(iter, i))
    
             break
    
  
    
  
    
     next_state = paddle.to_tensor(next_state, dtype="float32", place=device)
    
     next_value = critic(next_state)
    
     returns = compute_returns(next_value, rewards, masks)
    
  
    
     log_probs = paddle.concat(log_probs)
    
     returns = paddle.concat(returns).detach()
    
     values = paddle.concat(values)
    
  
    
     advantage = returns - values
    
  
    
     actor_loss = -(log_probs * advantage.detach()).mean()
    
     critic_loss = advantage.pow(2).mean()
    
  
    
     optimizerA.clear_grad()
    
     optimizerC.clear_grad()
    
     actor_loss.backward()
    
     critic_loss.backward()
    
     optimizerA.step()
    
     optimizerC.step()
    
     paddle.save(actor.state_dict(), 'model/actor.pdparams')
    
     paddle.save(critic.state_dict(), 'model/critic.pdparams')
    
     env.close()
    
  
    
  
    
  
    
 if __name__ == '__main__':
    
     if os.path.exists('model/actor.pdparams'):
    
     actor = Actor(state_size, action_size)
    
     model_state_dict  = paddle.load('model/actor.pdparams')
    
     actor.set_state_dict(model_state_dict )
    
     print('Actor Model loaded')
    
     else:
    
     actor = Actor(state_size, action_size)
    
     if os.path.exists('model/critic.pdparams'):
    
     critic = Critic(state_size, action_size)
    
     model_state_dict  = paddle.load('model/critic.pdparams')
    
     critic.set_state_dict(model_state_dict )
    
     print('Critic Model loaded')
    
     else:
    
     critic = Critic(state_size, action_size)
    
     trainIters(actor, critic, n_iters=201)
    
    
    
    
    AI写代码

复制代码

 结果：

    
 Actor Model loaded
    
 Critic Model loaded
    
 Iteration: 0, Score: 199
    
 Iteration: 10, Score: 199
    
 Iteration: 20, Score: 142
    
 Iteration: 30, Score: 133
    
 Iteration: 40, Score: 199
    
 Iteration: 50, Score: 199
    
 Iteration: 60, Score: 199
    
 Iteration: 70, Score: 199
    
 Iteration: 80, Score: 199
    
 Iteration: 90, Score: 199
    
 Iteration: 100, Score: 199
    
 Iteration: 110, Score: 199
    
 Iteration: 120, Score: 199
    
 Iteration: 130, Score: 199
    
 Iteration: 140, Score: 199
    
 Iteration: 150, Score: 199
    
 Iteration: 160, Score: 199
    
 Iteration: 170, Score: 199
    
 Iteration: 180, Score: 199
    
 Iteration: 190, Score: 199
    
 Iteration: 200, Score: 199
    
    
    
    
    AI写代码

全部评论 (0)

还没有任何评论哟~

强化学习——Actor Critic Method

importgym,os fromitertoolsimportcount importpaddle importpaddle.nnasnn importpaddle.optimizerasoptim...

强化学习Actor Critic Method

importgym,os fromitertoolsimportcount importpaddle importpaddle.nnasnn importpaddle.optimizerasoptim...

【强化学习】Actor-Critic

原文链接：<https://www.yuque.com/yahei/heyyahei/rlactorcritic 参考：机器学习深度学习（李宏毅）ActorCritic ActorwithCritic...

【强化学习】Actor-Critic

ActorCritic算法欢迎访问Blog全部目录！文章目录 ActorCritic算法 1.ActorCritic原理 1.1.简述 1.1.优劣势 1.3.策略网络和价值网络 1.3.1.策略...

强化学习之Actor-Critic

ActorCritic 一句话概括：结合了PolicyGradient（Actor）和FunctionApproximation（Critic）.Actor基于概率选择，Critic基于Actor的行...

【强化学习】Actor-Critic Methods

大家好呀，这里是喵一只电子喵o=∩ω∩=m，今天学习actorcriticmethods,这是一篇学习笔记，（我感觉读学习笔记比视频更快）今天的学习视频是强化学习，老师吐字很清楚！！讲的也很清晰！！有...

强化学习&Actor-Critic8.1 | Actor-Critic方法

AC方法是基于值与基于策略方法的结合，之前我们使用baseline来减少基于策略的智能体的variance，我们也可以使用值函数来作为baseline，训练一个神经网络来拟合值函数，然后将它作为bas...

【强化学习】Actor-Critic详解

【强化学习】ActorCritic详解之前在强化学习分类中，我们提到了Policybased与Valuebased两种方式，然而有一种算法合并了Valuebased比如Qlearning和Polic...

【强化学习】Actor-Critic算法

最近读论文看到了强化学习中的ActorCritic算法。因此了解一下这方面的知识，并记录下来，以防忘记。文章中部分内容也借鉴了其他优秀的博主。文章目录一、简介二、策略梯度法（PolicyGrad...

强化学习（Policy Gradient，Actor Critic）

强化学习是通过奖惩的反馈来不断学习的，在QLearning，Sarsa和DQN中，都是学习到了价值函数或对价值函数的近似，然后根据价值来选择策略（如选择最大价值的动作），所以这一类也被称为ValueB...

是否确定退出登录?

强化学习Actor Critic Method

全部评论 (0)

相关文章推荐

强化学习——Actor Critic Method

强化学习Actor Critic Method

【强化学习】Actor-Critic

【强化学习】Actor-Critic

强化学习之Actor-Critic

【强化学习】Actor-Critic Methods

强化学习&Actor-Critic8.1 | Actor-Critic方法

【强化学习】Actor-Critic详解

【强化学习】Actor-Critic算法

强化学习（Policy Gradient，Actor Critic）