（17-7-04）基于强化学习的自动驾驶系统：训练DDPG智能体执行自动驾驶任务

阅读量：

17.8.5 训练DDPG智能体执行自动驾驶任务

编写代码文件train_ddpg_agent.py并使其功能设计为训练一个Deep Deterministic Policy Gradient（DDPG）智能体。该智能体旨在使它能够在CARLA仿真环境中进行自动驾驶任务。该智能体通过与环境的持续交互来优化其策略网络和价值网络，并不断更新策略网络和价值网络以优化其性能。最终目标是使该智能体能够更有效地完成驾驶任务。

复制代码

 def train_agent(env, weather_list, agent, nb_training_episodes, save_folder, route_id, nb_updates=250, episode_skip=10):

    
  
    
     if (agent.episode_nb+1)==1:
    
     avg_reward, std_reward, success_rate = test_agent(env, weather_list, agent, route_id)
    
     agent.tr_steps_vec.append(agent.tr_step+1)
    
     agent.avg_reward_vec.append(avg_reward)
    
     agent.std_reward_vec.append(std_reward)
    
     agent.success_rate_vec.append(success_rate)
    
     agent.save_actor(os.path.join(save_folder, f"actor_ep_{agent.episode_nb+1}.pt"))
    
  
    
     max_steps = 200
    
     noise = True
    
     for agent.episode_nb in range(agent.episode_nb, nb_training_episodes):
    
     if agent.episode_nb > episode_skip*2:
    
         max_steps = 1000
    
  
    
     done = False
    
     episode_reward = 0
    
     episode_steps = 0
    
  
    
     agent.reset_noise()
    
     weather = weather_list[agent.episode_nb%len(weather_list)]
    
     env.set_weather(weather)
    
  
    
     obs = env.reset(route_id)
    
  
    
     transitions = []
    
     while not done and episode_steps < max_steps:
    
         act = agent.select_action(obs, noise=noise)
    
         obs_t1, reward, done, info = env.step(act)
    
  
    
         transitions.append((obs, act, reward, obs_t1, done))
    
  
    
         obs = obs_t1
    
         
    
         episode_reward += reward
    
         episode_steps += 1
    
         agent.tr_step += 1
    
  
    
     
    
     print('Global training step %5d | Training episode %5d | Steps: %4d | Reward: %4d | Success: %5r' % \
    
                 (agent.tr_step + 1, agent.episode_nb + 1, episode_steps, episode_reward, reward>=450))
    
     
    
     if info['collision']:
    
         print("Collision")
    
         for transition in transitions[-50:]:
    
             agent.store_transition_collision(*transition)
    
         for transition in transitions[:-50]:
    
             agent.store_transition(*transition)
    
  
    
     else:
    
         for transition in transitions:
    
             agent.store_transition(*transition)
    
     
    
     if agent.episode_nb+1 > episode_skip:
    
         for _ in range(nb_updates):
    
             agent.update()
    
  
    
     if (agent.episode_nb+1)%20==0 and (agent.episode_nb+1)>episode_skip:
    
         avg_reward, std_reward, success_rate = test_agent(env, weather_list, agent, route_id)
    
         agent.tr_steps_vec.append(agent.tr_step+1)
    
         agent.avg_reward_vec.append(avg_reward)
    
         agent.std_reward_vec.append(std_reward)
    
         agent.success_rate_vec.append(success_rate)
    
         agent.save_actor(os.path.join(save_folder, f"actor_ep_{agent.episode_nb+1}.pt"))
    
  
    
     agent.save(os.path.join(save_folder, "agent.pkl"))
    
  
    
 def test_agent(env, weather_list, agent, route_id):
    
     ep_rewards = []
    
     success_rate = 0
    
     avg_steps = 0
    
  
    
     nb_episodes =3*len(weather_list)
    
  
    
     for episode in range(nb_episodes):
    
     weather = weather_list[episode%len(weather_list)]
    
  
    
     env.set_weather(weather)
    
     obs = env.reset(route_id)
    
  
    
     done = False
    
     episode_reward = 0
    
     nb_steps = 0
    
  
    
     while not done:
    
         act = agent.select_action(obs, noise=False)
    
         print(act)
    
         obs_t1, reward, done, _ = env.step(act)
    
  
    
         obs = obs_t1
    
  
    
         episode_reward += reward
    
         nb_steps += 1
    
  
    
         if done:
    
             if reward > 450:
    
                 success_rate += 1
    
  
    
             avg_steps += nb_steps
    
             ep_rewards.append(episode_reward)
    
             print('Evaluation episode %3d | Steps: %4d | Reward: %4d | Success: %r' % (episode + 1, nb_steps, episode_reward, reward>450))     
    
         
    
     ep_rewards = np.array(ep_rewards)
    
     avg_reward = np.average(ep_rewards)
    
     std_reward = np.std(ep_rewards)
    
     success_rate /= nb_episodes
    
     avg_steps /= nb_episodes
    
     
    
     print('Average Reward: %.2f, Reward Deviation: %.2f | Average Steps: %.2f, Success Rate: %.2f' % (avg_reward, std_reward, avg_steps, success_rate))
    
     return avg_reward, std_reward, success_rate
    
  
    
 if __name__=='__main__':
    
     argparser = ArgumentParser()
    
     argparser.add_argument('--world-port', type=int, default=config.WORLD_PORT)
    
     argparser.add_argument('--host', type=str, default=config.WORLD_HOST)
    
     argparser.add_argument('--cam_height', type=int, default=config.CAM_HEIGHT, help="Camera height")
    
     argparser.add_argument('--cam_width', type=int, default=config.CAM_WIDTH, help="Camera width")
    
     argparser.add_argument('--fov', type=int, default=config.CAM_FOV, help="Camera field of view")
    
     argparser.add_argument('--tick', type=float, default=config.TICK, help="Sensor tick length")
    
  
    
     argparser.add_argument('--model', type=str, default=config.AE_MODEL, help='model',
    
                        choices=['Autoencoder', 'AutoencoderSEM', 'VAE'])
    
     argparser.add_argument('--autoencoder_model', type=str, help="Autoencoder model path", default=config.AE_PRETRAINED)
    
     
    
     argparser.add_argument('--device', type=str, default='cpu', help="Device to use for training", choices=['cuda', 'cpu'])
    
     argparser.add_argument('--nb_episodes', type=int, default=config.TRAIN_EPISODES, help="Number of episodes of training")
    
     argparser.add_argument('--save_folder', type=str, default=config.AGENT_FOLDER, help="Path to save the agent and data")
    
     argparser.add_argument('--route_id', type=int, default=config.ROUTE_ID, help="Route id to use for training")
    
     argparser.add_argument('--nb_updates', type=int, default=config.DDPG_NB_UPDATES, help="Number of updates per episode")
    
  
    
     args = argparser.parse_args()
    
  
    
     if not os.path.exists(args.autoencoder_model):
    
     raise Exception('Autoencoder model not found')
    
  
    
     os.makedirs(args.save_folder, exist_ok=True)
    
     save_agent_path = os.path.join(args.save_folder, 'agent.pkl')
    
  
    
     if args.model=='AutoencoderSEM':
    
     autoencoder = AutoencoderSEM.load_from_checkpoint(args.autoencoder_model)
    
     elif args.model=='VAE':
    
     autoencoder = VAE.load_from_checkpoint(args.autoencoder_model)
    
     elif args.model=='Autoencoder':
    
     autoencoder = Autoencoder.load_from_checkpoint(args.autoencoder_model)
    
     else:
    
     raise ValueError(f"Unknown model {args.model}")
    
  
    
     autoencoder.freeze()
    
     autoencoder.eval()
    
  
    
     env = CarlaEnv(autoencoder, args.world_port, args.host, config.TRAIN_MAP, 'ClearNoon',
    
              args.cam_height, args.cam_width, args.fov, args.tick, 500, exo_vehicles=config.USE_EXO_VEHICLES)
    
     
    
     num_routes = len(Route.get_possibilities(config.TRAIN_MAP))
    
     weather_list = config.TRAIN_WEATHER
    
  
    
     if os.path.exists(save_agent_path):
    
     with open(save_agent_path, 'rb') as f:
    
         agent = pickle.load(f)
    
     else:
    
     agent = DDPGAgent(obs_dim=260, nb_actions=2, device='cpu', lr_actor=1e-4, lr_critic=1e-3,
    
              batch_size=config.DDPG_BATCH_SIZE, gamma=0.95, tau=0.005, clip_norm=5e-3, buffer_size=40000, action_clip=(-1,1),
    
              collision_percentage=0.2, noise_sigma=config.DDPG_NOISE_SIGMA, noise_decay=1/300, sch_gamma = 0.9,
    
              sch_steps=config.DDPG_SCH_STEPS, use_expert_data=config.DDPG_USE_EXPERT_DATA, expert_percentage=0.25,
    
              lambda_bc=0.5, use_env_model=config.DDPG_USE_ENV_MODEL, lambda_env=0.2,
    
              env_steps=config.DDPG_ENV_STEPS)
    
     
    
     if config.DDPG_USE_EXPERT_DATA:
    
         agent.load_expert_data(config.DDPG_EXPERT_DATA_FILE)
    
  
    
         print("Pretraining...")
    
         for _ in range(config.DDPG_PRETRAIN_STEPS):
    
             agent.pretrain_update()     
    
  
    
     try:
    
     train_agent(env, weather_list, agent, args.nb_episodes, args.save_folder, args.route_id, args.nb_updates)
    
     finally:
    
     env.reset_settings()

上述代码的实现流程如下所示：

为CARLA仿真环境配置命令行参数需要考虑主机设定、相机设置以及天气条件等因素，并涵盖训练周期等多个关键要素。

（2）加载预训练的Autoencoder模型，用于图像特征提取。

（3）创建CARLA仿真环境，设置路线、天气等参数。

（4）初始化DDPG智能体，设置训练超参数、经验缓冲区等。

（5）开始训练智能体，循环执行以下步骤：

由环境驱动的智能体行为选择过程通过实时监测获取观测数据、动作指令以及即时反馈。
维护智能体的经验回放存储库以积累历史行为轨迹。
定期触发深度 Deterministic Policy Gradients（DDPG）算法更新以持续改进策略网络和价值网络参数。
定期对系统的运行状态进行评估并计算平均奖励指标和成功率统计。
记录训练进程信息并保存模型参数副本作为后续训练参考。

（6）在训练过程结束后，保存最终的DDPG智能体模型和训练数据。

全部评论 (0)

还没有任何评论哟~

（17-7-04）基于强化学习的自动驾驶系统：训练DDPG智能体执行自动驾驶任务

17.8.5训练DDPG智能体执行自动驾驶任务编写文件trainddpgagent.py，功能是训练一个DDPG智能体，以便在CARLA仿真环境中执行自动驾驶任务。它通过不断与环境互动，优化策略网络...

（17-7-03）基于强化学习的自动驾驶系统：训练自动驾驶的强化学习代理

17.8.4训练自动驾驶的强化学习代理编写文件trainagent.py，功能是训练一个强化学习代理（agent），使其能够在CARLA仿真环境中执行自动驾驶任务。这个代理通过与环境互动学习驾驶策略...

自动驾驶_基于强化学习的自动驾驶系统

目录 1机器学习在自动驾驶中的应用 1.1强化学习/逆强化学习/模仿学习 1.2强化学习主要方法 1.3无人车强化学习示例链接 1.4DQN网络 1.5DeepTraffic 2课程总结 3练习与论文...

（17-7-05）基于强化学习的自动驾驶系统：评估自动驾驶模型的性能

17.8.6评估自动驾驶模型的性能编写文件testagent.py，功能是测试一个已经训练好的自动驾驶智能体的性能，以便了解它在给定路线和环境条件下的表现如何。可以通过命令行参数指定要测试的路线、智...

（17-1）:基于强化学习的自动驾驶系统：自动驾驶背景介绍

在本章的内容中，将实现一个完整的自动驾驶系统仿真与训练平台，使用户能够模拟不同驾驶场景、训练自动驾驶智能体，并评估这些智能体的性能。本项目对于研究自动驾驶算法、开发自动驾驶系统，以及测试各种自动驾驶方...

（17-6-02）基于强化学习的自动驾驶系统：深度强化学习智能体

17.7.3深度强化学习智能体编写文件reinforcement/agent.py，功能是实现了一个深度强化学习智能体，它具有演员评论家架构（ActorCritic），使用TwinDelayedDe...

（17-7-01）基于强化学习的自动驾驶系统：生成训练数据+训练模型

17.8调用处理在本节的内容中，将调用前面的功能类和函数分别实现数据采集、自编码器训练、专家数据收集、强化学习训练、DDPG智能体训练和性能测试等功能。

（17-8）基于强化学习的自动驾驶系统：调试运行

源码太多，不再介绍太多了。 17.9调试运行（1）首先运行文件collectdataautoencoder.py，在运行时需要使用命令行参数来自定义数据收集的各个方面，例如地图、天气、数据输出等，这...

（17-7-02）基于强化学习的自动驾驶系统：收集CARLA环境中的专家驾驶数据

17.8.3收集CARLA环境中的专家驾驶数据编写文件collectexpertdata.py，功能是在CARLA仿真环境中收集专家数据。专家数据通常是由有经验的人类驾驶员在仿真环境中执行驾驶任务期...

（17-6-03）基于强化学习的自动驾驶系统：强化学习代理

17.7.4强化学习代理编写文件reinforcement/sacagent.py，功能是创建一个名为SACAgent的类，它实现了一个使用SoftActorCritic（SAC）算法的强化学习代理...

是否确定退出登录?

（17-7-04）基于强化学习的自动驾驶系统：训练DDPG智能体执行自动驾驶任务

17.8.5 训练DDPG智能体执行自动驾驶任务

全部评论 (0)

相关文章推荐

（17-7-04）基于强化学习的自动驾驶系统：训练DDPG智能体执行自动驾驶任务

（17-7-03）基于强化学习的自动驾驶系统：训练自动驾驶的强化学习代理

自动驾驶_基于强化学习的自动驾驶系统

（17-7-05）基于强化学习的自动驾驶系统：评估自动驾驶模型的性能

（17-1）:基于强化学习的自动驾驶系统：自动驾驶背景介绍

（17-6-02）基于强化学习的自动驾驶系统：深度强化学习智能体

（17-7-01）基于强化学习的自动驾驶系统：生成训练数据+训练模型

（17-8）基于强化学习的自动驾驶系统：调试运行

（17-7-02）基于强化学习的自动驾驶系统：收集CARLA环境中的专家驾驶数据

（17-6-03）基于强化学习的自动驾驶系统：强化学习代理