（17-6-01）基于强化学习的自动驾驶系统：强化学习工具类+经验回放存储

阅读量：

在'reinforcement'目录下开发了多个程序文件，在其核心内容中包括一系列强化学习算法的具体实现方案。这些方案涵盖了一系列动作空间类型（包括连续型与离散型）及其对应的学习算法（如Deep Deterministic Policy Gradient, Soft Actor-Critic, Proximal Policy Optimization, 和Deep Q-Network等）。这些方案可用于多种强化学习场景，并支持研究人员与开发者在不同场景下进行强化学习的应用研究与实践。

17.7.1 强化学习工具类

创建文件reinforcement/utils.py。
该文件的功能包括提供一些广泛应用于强化学习中的工具类和函数。
这些工具类和函数主要用于强化学习算法中对智能体行为的控制以及训练过程的支持。
具体的代码实现见下文。

复制代码

 import numpy as np

    
 import torch
    
  
    
 class OUNoise:
    
     def __init__(self, mu, sigma=0.4, theta=.6, dt=0.05, x0=None, noise_decay=0.0):
    
     self.theta = theta
    
     self.mu = mu
    
     self.sigma = sigma
    
     self.dt = dt
    
     self.x0 = x0
    
     self.noise_decay = noise_decay*sigma
    
     self.reset()
    
  
    
     def __call__(self):
    
     x = self.x_prev + self.theta * (self.mu - self.x_prev) * self.dt + self.sigma * np.sqrt(self.dt) * np.random.normal(size=self.mu.shape)
    
     self.x_prev = x
    
     return x
    
  
    
     def reset(self):
    
     self.x_prev = self.x0 if self.x0 is not None else np.zeros_like(self.mu)
    
     self.sigma = max(self.sigma-self.noise_decay, 0.01)
    
  
    
     def __repr__(self):
    
     return 'OrnsteinUhlenbeckActionNoise(mu={}, sigma={})'.format(self.mu, self.sigma)
    
     
    
 class StepLR(torch.optim.lr_scheduler._LRScheduler):
    
     def __init__(self, optimizer, step_size, gamma=0.9, last_epoch=-1, min_lr=1e-6, verbose=False):
    
     self.step_size = step_size
    
     self.gamma = gamma
    
     self.min_lr = min_lr
    
     super().__init__(optimizer, last_epoch, verbose)
    
  
    
     def get_lr(self):
    
     if (self.last_epoch == 0) or (self.last_epoch % self.step_size != 0):
    
         return [group['lr'] for group in self.optimizer.param_groups]
    
     return [max(self.min_lr, group['lr'] * self.gamma)
    
             for group in self.optimizer.param_groups]

对上述代码的具体说明如下：

类OUNoise遵循Ornstein-Uhlenbeck过程，并被设计为给智能体的动作注入随机噪声。这种机制模拟了控制环境中环境噪声的影响，并有助于维持智能体动作探索环境时的一定不确定性，从而提高其策略的学习效果。
类StepLR是一种自定义的学习率调整机制，在训练期间通过逐步减少学习速率来优化模型参数。该算法基于指定的间隔长度(step_size)和衰减系数(gamma)设计，在每个间隔周期后将当前的学习速率乘以衰减系数进行更新操作，并提供了一个可选的最低保障水平的学习速率参数(min_lr)，以防过低 Learning Rate values fall below this threshold.

17.7.2 经验回放存储

创建文件reinforcement/buffer.py，并实现名为ReplayBuffer的经验回放缓冲区类。该缓冲区主要用于存储强化学习中的经验回放元组，并通过这一机制提高智能体的学习效率和训练稳定性。作为核心组件之一，在该框架中采用经验回放技术记录智能体与环境之间的互动经验，并以提高训练效率和稳定性的方式进行后续的数据处理。

复制代码

 import numpy as np

    
  
    
 class ReplayBuffer(object):
    
     """缓冲区用于存储经验回放的元组"""
    
  
    
     def __init__(self, max_size=20000):
    
     """
    
     Args:
    
         max_size (int): 存储元组的最大数量
    
     """
    
     
    
     self.storage = []  # 存储经验元组的列表
    
     self.max_size = max_size  # 缓冲区的最大容量
    
     self.ptr = 0  # 指针，用于追踪最新的元组位置
    
  
    
     def add(self, data):
    
     """添加经验元组到缓冲区
    
     (状态, 动作, 奖励, 下一个状态, 完成标志)
    
     
    
     Args:
    
         data (tuple): 经验回放元组
    
     """
    
     
    
     if len(self.storage) == self.max_size:
    
         self.storage[int(self.ptr)] = data  # 如果缓冲区已满，覆盖旧的元组数据
    
         self.ptr = (self.ptr + 1) % self.max_size
    
     else:
    
         self.storage.append(data)  # 否则，直接添加新的元组数据
    
  
    
     def __len__(self):
    
     """返回当前缓冲区的大小
    
     
    
     Returns:
    
         int: 当前缓冲区的大小
    
     """
    
     
    
     return len(self.storage)
    
  
    
     def sample(self, batch_size):
    
     """从缓冲区中随机抽样一批指定大小的经验元组
    
     
    
     Args:
    
         batch_size (int): 抽样的批量大小
    
     Returns:
    
         tuple: 状态、动作、奖励、下一个状态、完成标志
    
     """
    
     
    
     ind = np.random.choice(len(self.storage), size=batch_size, replace=False)  # 随机抽样索引
    
     states, actions, next_states, rewards, dones = [], [], [], [], []
    
  
    
     for i in ind: 
    
         s, a, r, s_, d = self.storage[i]  # 获取抽样的经验元组
    
         states.append(np.array(s, copy=False, dtype=np.float32))
    
         actions.append(np.array(a, copy=False, dtype=np.float32))
    
         next_states.append(np.array(s_, copy=False, dtype=np.float32))
    
         rewards.append(np.array(r, copy=False, dtype=np.float32))
    
         dones.append(np.array(d, copy=False, dtype=np.float32))
    
  
    
     return np.array(states), np.array(actions), np.array(rewards).reshape(-1, 1), np.array(next_states), np.array(dones).reshape(-1, 1)

对上述代码的具体说明如下：

init(self, max_size=20000)：初始化过程用于建立一个容量有限的经验回放缓冲区，并允许用户指定最大存储容量max_size，默认值为20 万条经验。
add(self, data)：该函数负责将一组包含状态（state）、动作（action）、奖励（reward）、下一个状态（next_state）以及完成标志（done）等信息的经验元组存入缓冲区。当缓存池已满时会将新数据替换掉旧数据以实现循环利用特性。
len(self)：此方法返回当前缓存池中积累的经验元组总数值，并即总共有多少个经验元组被存储起来了。
sample(self, batch_size)：此方法从当前缓存池中随机抽取一批样本供后续训练使用，并且这些样本会被系统地分解为states、actions、rewards等五个独立组件以便于模型的学习与优化工作。

未完待续

全部评论 (0)

还没有任何评论哟~

（17-6-01）基于强化学习的自动驾驶系统：强化学习工具类+经验回放存储

在“reinforcement”目录中实现了多个程序文件，主要功能是定义了一系列强化学习算法的实现，涵盖了不同类型的动作空间（连续和离散）和算法（DDPG、SAC、PPO、DQN等）。这些算法适用于各...

（17-6-03）基于强化学习的自动驾驶系统：强化学习代理

17.7.4强化学习代理编写文件reinforcement/sacagent.py，功能是创建一个名为SACAgent的类，它实现了一个使用SoftActorCritic（SAC）算法的强化学习代理...

（17-6-02）基于强化学习的自动驾驶系统：深度强化学习智能体

17.7.3深度强化学习智能体编写文件reinforcement/agent.py，功能是实现了一个深度强化学习智能体，它具有演员评论家架构（ActorCritic），使用TwinDelayedDe...

（17-7-03）基于强化学习的自动驾驶系统：训练自动驾驶的强化学习代理

17.8.4训练自动驾驶的强化学习代理编写文件trainagent.py，功能是训练一个强化学习代理（agent），使其能够在CARLA仿真环境中执行自动驾驶任务。这个代理通过与环境互动学习驾驶策略...

自动驾驶_基于强化学习的自动驾驶系统

目录 1机器学习在自动驾驶中的应用 1.1强化学习/逆强化学习/模仿学习 1.2强化学习主要方法 1.3无人车强化学习示例链接 1.4DQN网络 1.5DeepTraffic 2课程总结 3练习与论文...

（17-1）:基于强化学习的自动驾驶系统：自动驾驶背景介绍

在本章的内容中，将实现一个完整的自动驾驶系统仿真与训练平台，使用户能够模拟不同驾驶场景、训练自动驾驶智能体，并评估这些智能体的性能。本项目对于研究自动驾驶算法、开发自动驾驶系统，以及测试各种自动驾驶方...

（17-2）:基于强化学习的自动驾驶系统：项目介绍

17.2项目介绍项目旨在提供一个完整的自动驾驶系统仿真与训练平台，使用户能够模拟不同驾驶场景、训练自动驾驶智能体，以及评估其性能。这对于研究自动驾驶算法、开发自动驾驶系统，以及测试各种自动驾驶方案都...

（17-8）基于强化学习的自动驾驶系统：调试运行

源码太多，不再介绍太多了。 17.9调试运行（1）首先运行文件collectdataautoencoder.py，在运行时需要使用命令行参数来自定义数据收集的各个方面，例如地图、天气、数据输出等，这...

（17-7-05）基于强化学习的自动驾驶系统：评估自动驾驶模型的性能

17.8.6评估自动驾驶模型的性能编写文件testagent.py，功能是测试一个已经训练好的自动驾驶智能体的性能，以便了解它在给定路线和环境条件下的表现如何。可以通过命令行参数指定要测试的路线、智...

（17-4）:基于强化学习的自动驾驶系统：准备数据文件

17.5准备数据文件在“data”目录中实现了多个程序文件，主要用于处理、收集和创建用于机器学习和模型训练的数据。这些程序文件旨在支持CARLA仿真环境中数据的采集、整理、转换和存储，以便进行自动驾...

是否确定退出登录?

（17-6-01）基于强化学习的自动驾驶系统：强化学习工具类+经验回放存储

17.7.1 强化学习工具类

17.7.2 经验回放存储

未完待续

全部评论 (0)

相关文章推荐

（17-6-01）基于强化学习的自动驾驶系统：强化学习工具类+经验回放存储

（17-6-03）基于强化学习的自动驾驶系统：强化学习代理

（17-6-02）基于强化学习的自动驾驶系统：深度强化学习智能体

（17-7-03）基于强化学习的自动驾驶系统：训练自动驾驶的强化学习代理

自动驾驶_基于强化学习的自动驾驶系统

（17-1）:基于强化学习的自动驾驶系统：自动驾驶背景介绍

（17-2）:基于强化学习的自动驾驶系统： 项目介绍

（17-8）基于强化学习的自动驾驶系统：调试运行

（17-7-05）基于强化学习的自动驾驶系统：评估自动驾驶模型的性能

（17-4）:基于强化学习的自动驾驶系统： 准备数据文件

（17-2）:基于强化学习的自动驾驶系统：项目介绍

（17-4）:基于强化学习的自动驾驶系统：准备数据文件