【强化学习】Soft Actor-Critic (SAC) 算法
强化学习
Reinforcement Learning
Soft Actor-Critic (SAC) 算法
目录
一、Soft Actor-Critic (SAC) 算法详解
二、SAC 背景与核心思想
1. 强化学习的挑战
2. 最大熵强化学习的目标
三、SAC 算法流程
初始化:
每一回合循环:
四、公式推导
1. Q 值更新
2. 值函数更新
3. 策略网络更新
4. 目标值函数更新
[Python] Soft Actor-Critic算法实现
[Notice] 代码核心
五、 SAC 优势
一、Soft Actor-Critic (SAC) 算法详解
SOFT actor-critic 是一种前沿的强化学习算法,源自Actor-Critic方法的衍生形式. SOFTactor 偏好处理连续动作空间,并融合了最大熵强化学习的思想以改善传统算法中的稳定性与探索效率.
二、SAC 背景与核心思想
1. 强化学习的挑战
- 在强化学习中实现探索与开发的权衡是一个关键点。
- 在连续动作空间中进行训练可能导致不稳定现象或收敛速度较慢。
- 强化学习中数据收集过程耗时较长且如何充分利用经验回放池中的数据成为一个重要挑战。
SAC 引入了以下核心思想来应对这些问题:
- 最大熵强化学习:它不仅致力于追求累计奖励的最大化,在提升策略不确定性的过程中也实现了对探索行为的有效激励。
- 双Q网络:通过这一机制能够有效解决Q值估计过高所带来的问题。
- 目标网络:采用目标网络来稳定地计算Q值。
2. 最大熵强化学习的目标
传统强化学习的目标是最大化期望累计奖励:

而 SAC 则通过添加一个 熵项 ,在奖励中加入策略随机性的权重,目标变为:

其中:
,表示策略的熵,鼓励策略更随机化;

:熵系数,控制熵和奖励之间的平衡。
效果 :
- 更为深入的探究 :信息熵的最大化促进了策略的多样性提升。
- 更为稳健的学习过程 :防止选择较次的策略方案。
三、SAC 算法流程
基于 Actor-Critic 框架设计的SAC算法,在策略梯度方法的基础上融合了Q函数进行动态更新机制的设计。以下是对该算法的核心步骤的详细阐述:
初始化 :
- 初始化两组 Q 网络

,用于计算 Q 值。
2. 初始化策略网络

和值函数网络

。
3. 创建目标值函数网络

,并设置其参数为

的初始值。
每一回合循环 :
采样动作 :
- 根据策略网络

采样动作

。
- 执行动作,记录

到经验池中。
2.
更新 Q 网络 :
- 使用 TD 目标更新 Q 值:

* 最小化以下损失函数: ![J_Q = \mathbb{E} \left\[ \left\( Q_{\theta_i}\(s, a\) - y \right\)^2 \right\] \quad \(i = 1, 2\)](https://ad.itadn.com/c/weblog/00-blog-img/images/2025-02-27/uAjydWl0YGU84t9pCxM1LaeIFXvz.png)
更新值函数网络 :
- 值函数

的目标是逼近以下值:

* 最小化值函数损失:![J_V = \mathbb{E} \left\[ \left\( V_\psi\(s\) - y_V \right\)^2 \right\]](https://ad.itadn.com/c/weblog/00-blog-img/images/2025-02-27/rQagHpXBvNMc1Z6ESYyxDzPUVqmo.png)
更新策略网络 :
* 策略网络的目标是最大化奖励和熵,最小化以下损失:

更新目标值函数网络 :
- 使用软更新规则:


四、公式推导
1. Q 值更新
Q 值通过 Bellman 方程更新,目标是最小化 TD 误差:

损失函数为: 
2. 值函数更新
值函数估计策略的长期价值,目标值为:

损失函数为:
3. 策略网络更新
策略网络的目标是最大化奖励和熵,等价于最小化:

4. 目标值函数更新
目标值函数使用软更新规则:

其中
控制更新步长。
[Python] Soft Actor-Critic算法实现
以下是PyTorch中Soft Actor-Critic (SAC)算法的完整实现:
强化学习
强化学习
1.参数设置
"""《SAC, Soft Actor-Critic算法》
时间:2024.12
作者:不去幼儿园
"""
import torch # 引入 PyTorch 库,用于构建和训练深度学习模型
import torch.nn as nn # PyTorch 的神经网络模块
import torch.optim as optim # PyTorch 的优化模块,用于更新模型参数
import numpy as np # NumPy 库,用于高效的数值计算
import gym # OpenAI Gym 库,用于创建和交互强化学习环境
import random # Python 的随机模块,用于随机抽样
from collections import deque # Python 的双端队列模块,用于构建经验回放缓冲区
# 超参数设置
GAMMA = 0.99 # 折扣因子,用于计算未来奖励
TAU = 0.005 # 软更新目标网络的参数
ALPHA = 0.2 # 熵正则化系数,鼓励探索
LR = 0.001 # 学习率,用于优化器
BATCH_SIZE = 256 # 每次训练的样本数量
MEMORY_CAPACITY = 100000 # 经验回放缓冲区的最大容量
2.策略网络
# 策略网络(用于生成随机的策略动作)
class PolicyNetwork(nn.Module):
def __init__(self, state_dim, action_dim, max_action):
super(PolicyNetwork, self).__init__()
self.fc1 = nn.Linear(state_dim, 256) # 第一层全连接层,输入状态维度
self.fc2 = nn.Linear(256, 256) # 第二层全连接层
self.mean = nn.Linear(256, action_dim) # 输出动作均值
self.log_std = nn.Linear(256, action_dim) # 输出动作的对数标准差
self.max_action = max_action # 动作的最大值,用于缩放
def forward(self, state):
x = torch.relu(self.fc1(state)) # 激活第一层
x = torch.relu(self.fc2(x)) # 激活第二层
mean = self.mean(x) # 计算动作均值
log_std = self.log_std(x).clamp(-20, 2) # 将对数标准差限制在合理范围内
std = torch.exp(log_std) # 通过对数标准差计算标准差
return mean, std # 返回均值和标准差
def sample(self, state):
mean, std = self.forward(state) # 获取动作分布的均值和标准差
normal = torch.distributions.Normal(mean, std) # 正态分布
x_t = normal.rsample() # 使用重参数化技巧采样
y_t = torch.tanh(x_t) # 使用 Tanh 将动作限制在 [-1, 1]
action = y_t * self.max_action # 缩放动作到最大值范围
log_prob = normal.log_prob(x_t) # 计算动作的对数概率
log_prob -= torch.log(1 - y_t.pow(2) + 1e-6) # Tanh 的修正项
log_prob = log_prob.sum(dim=-1, keepdim=True) # 对每个维度求和
return action, log_prob # 返回动作和对数概率
3.Q 网络
# Q 网络(价值函数,用于评估状态-动作对的价值)
class QNetwork(nn.Module):
def __init__(self, state_dim, action_dim):
super(QNetwork, self).__init__()
self.fc1 = nn.Linear(state_dim + action_dim, 256) # 输入包括状态和动作
self.fc2 = nn.Linear(256, 256) # 第二层全连接层
self.fc3 = nn.Linear(256, 1) # 输出单一 Q 值
def forward(self, state, action):
x = torch.cat([state, action], dim=-1) # 将状态和动作连接起来作为输入
x = torch.relu(self.fc1(x)) # 激活第一层
x = torch.relu(self.fc2(x)) # 激活第二层
x = self.fc3(x) # 输出 Q 值
return x # 返回 Q 值
4.经验回放缓冲区
# 经验回放缓冲区
class ReplayBuffer:
def __init__(self, capacity):
self.buffer = deque(maxlen=capacity) # 初始化一个具有固定最大容量的双端队列
def push(self, state, action, reward, next_state, done): # 存储经验
self.buffer.append((state, action, reward, next_state, done))
def sample(self, batch_size): # 随机采样
batch = random.sample(self.buffer, batch_size) # 随机选取 batch_size 个经验
states, actions, rewards, next_states, dones = zip(*batch) # 解压
return (np.array(states), np.array(actions), np.array(rewards),
np.array(next_states), np.array(dones))
def __len__(self): # 返回缓冲区当前大小
return len(self.buffer)
5.SAC 算法
# SAC 算法智能体
class SACAgent:
def __init__(self, state_dim, action_dim, max_action):
self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 检查是否有 GPU
# 初始化网络
self.actor = PolicyNetwork(state_dim, action_dim, max_action).to(self.device) # 策略网络
self.q1 = QNetwork(state_dim, action_dim).to(self.device) # 第一个 Q 网络
self.q2 = QNetwork(state_dim, action_dim).to(self.device) # 第二个 Q 网络
# 初始化优化器
self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=LR) # 策略网络优化器
self.q1_optimizer = optim.Adam(self.q1.parameters(), lr=LR) # Q1 优化器
self.q2_optimizer = optim.Adam(self.q2.parameters(), lr=LR) # Q2 优化器
# 初始化经验回放缓冲区
self.replay_buffer = ReplayBuffer(MEMORY_CAPACITY)
self.max_action = max_action # 最大动作值
def select_action(self, state): # 根据策略选择动作
state = torch.FloatTensor(state).to(self.device).unsqueeze(0) # 转换状态为张量
action, _ = self.actor.sample(state) # 从策略中采样动作
return action.cpu().detach().numpy()[0] # 转换为 NumPy 格式返回
def train(self): # 训练智能体
if len(self.replay_buffer) < BATCH_SIZE: # 如果经验回放缓冲区不足,跳过训练
return
# 从回放缓冲区采样
states, actions, rewards, next_states, dones = self.replay_buffer.sample(BATCH_SIZE)
states = torch.FloatTensor(states).to(self.device)
actions = torch.FloatTensor(actions).to(self.device)
rewards = torch.FloatTensor(rewards).unsqueeze(1).to(self.device)
next_states = torch.FloatTensor(next_states).to(self.device)
dones = torch.FloatTensor(dones).unsqueeze(1).to(self.device)
# 更新 Q 网络
with torch.no_grad():
next_actions, log_probs = self.actor.sample(next_states) # 计算下一步的动作及其概率
target_q1 = self.q1(next_states, next_actions) # Q1 值
target_q2 = self.q2(next_states, next_actions) # Q2 值
target_q = torch.min(target_q1, target_q2) - ALPHA * log_probs # 使用最小值更新
q_target = rewards + GAMMA * (1 - dones) * target_q # 计算目标 Q 值
q1_loss = ((self.q1(states, actions) - q_target) ** 2).mean() # Q1 损失
q2_loss = ((self.q2(states, actions) - q_target) ** 2).mean() # Q2 损失
self.q1_optimizer.zero_grad() # 清空梯度
q1_loss.backward() # 反向传播
self.q1_optimizer.step() # 更新 Q1
self.q2_optimizer.zero_grad()
q2_loss.backward()
self.q2_optimizer.step()
# 更新策略网络
new_actions, log_probs = self.actor.sample(states)
q1_new = self.q1(states, new_actions)
q2_new = self.q2(states, new_actions)
q_new = torch.min(q1_new, q2_new)
actor_loss = (ALPHA * log_probs - q_new).mean() # 策略损失
self.actor_optimizer.zero_grad()
actor_loss.backward()
self.actor_optimizer.step()
def update_replay_buffer(self, state, action, reward, next_state, done):
self.replay_buffer.push(state, action, reward, next_state, done)
6.主函数循环
# 训练循环
env = gym.make("Pendulum-v1") # 创建环境
state_dim = env.observation_space.shape[0] # 状态空间维度
action_dim = env.action_space.shape[0] # 动作空间维度
max_action = float(env.action_space.high[0]) # 最大动作值
agent = SACAgent(state_dim, action_dim, max_action) # 初始化智能体
num_episodes = 500 # 训练的总回合数
for episode in range(num_episodes):
state = env.reset() # 重置环境
episode_reward = 0 # 初始化总奖励
done = False
while not done:
action = agent.select_action(state) # 根据策略选择动作
next_state, reward, done, _ = env.step(action) # 执行动作
agent.update_replay_buffer(state, action, reward, next_state, done) # 更新经验
agent.train() # 训练智能体
state = next_state # 更新状态
episode_reward += reward # 累积奖励
print(f"Episode {episode}, Reward: {episode_reward}") # 打印回合奖励
[Notice] 代码核心
基于Soft Actor-Critic框架设计的该算法能够在连续动作空间中有效执行强化学习任务。其核心功能主要包含以下几个方面:
- 策略网络(Policy Network) :创建随机策略以供选取动作。
- 价值网络(Q 网络) :计算当前动作与对应状态之间的价值。
- 经验回放缓冲区 的作用包括长期记忆存储和经验采样过程,并通过这些机制提升训练的稳定性。
- 训练循环 是系统持续地与环境进行交互,在这一过程中系统不断调整参数以优化其行为目标。
# 环境配置
Python 3.11.5
torch 2.1.0
torchvision 0.16.0
gym 0.26.2
因为博客旨在介绍相关算法的原理及其应用方法, 但并未给予实际运行效果的关注, 因此该算法在所述环境中可能表现出不佳效果或无法正常运行。其一, 该算法不适合所述工作场景; 其二, 未对关键参数进行适当调优; 其三, 缺乏完整的代码展示; 此外, 还存在其他潜在问题未能充分说明。尽管上述代码足以满足学习与理解算法的需求, 但若想将其直接应用于实际项目中, 还需进一步完善。
五、 SAC 优势
- 样本利用效率高:该系统采用最大熵策略,在数据存储池中充分挖掘历史数据。
- 在探索能力方面表现突出:通过最大熵策略有效促进多维度状态的均匀采样。
- 系统稳定性较好:结合双 Q 网络和目标网络架构设计,在训练过程中显著减少不稳定现象。
- 特别适用于处理连续动作空间的问题:该方法能够处理复杂的控制任务,并特别适合应用于机器人控制等场景。
参考文献:
[[Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor."](https://arxiv.org/pdf/1801.01290 "\[Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor."")发表于2018年,详细介绍了SAC算法的基本原理和应用1。
[Haarnoja, Tuomas, et al. "Soft actor-critic algorithms and applications."](https://arxiv.org/pdf/1812.05905 "Haarnoja, Tuomas, et al. "Soft actor-critic algorithms and applications."")
强化学习(RL)
强化学习(RL)
强化学习(RL)
强化学习(RL)
注
