强化学习论文(1): Soft Actor-Critic
加州伯克利大学发布的 Soft Actor-Critic (SAC) 算法是一种 off-policy 模型-free 强化学习方法。该算法基于最大熵强化学习框架,在一系列连续控制基准上实现了 state-of-the-art 的性能,并且对不同的随机种子表现出高度稳定性。SAC 通过引入熵最大化目标和稳定的随机actor-critic形式,在降低采样复杂度的同时提高了收敛性。与传统方法相比,SAC 在保持探索能力的同时显著提升了鲁棒性,并通过实验验证了其在复杂环境中的有效性。
加州伯克利大学开发了一种离线策略的无模型强化学习算法——SOFTActor-Critic(SAC)。该算法基于熵最大化原理构建了智能体,在处理复杂决策时表现出色。假设读者已对经典的强化学习建模以及基本的Actor-Critic方法有了了解。
摘要
模型无关(model-free)深度强化学习算法面临两个主要挑战:高采样复杂度 和脆弱的收敛性 ,因此严重依赖调参,这两个挑战限制了强化学习向现实应用的推广。
在这篇论文中,作者基于最大熵强化学习算法框架,提出了一个off-policy actor-critic 深度强化学习算法。最大熵强化学习要求actor在同时最大化期望 和策略分布的熵 ,也就是说,在保证任务成果的同时希望策略尽可能的随机。
这篇论文引入了稳定的随机actor-critic形式,并使用off-policy方式更新参数,在一系列连续控制基准上达到state-of-the-art 结果,并且对不同的随机种子表现稳定。
引言
介绍一些论文引言中提到的关键点或强化学习中的知识点。
在强化学习中,参数更新方式分为on-policy和off-policy两种类型。on-policy方法要求在每次参数更新时都需要与环境进行交互并收集新的经验样本以用于训练模型。这种做法直接反映了"边学习边执行"的特点,在任务较为复杂的情况下需要进行大量的迭代更新和样本采集工作。这不仅显著提升了采样复杂度(sample complexity),还可能导致计算资源的大幅消耗。相比之下,off-policy方法致力于利用已经积累的经验样本进行训练特别是像Q-learning这样的算法表现尤为突出。然而,在将off-policy方法与神经网络模型结合使用时会遇到较大的挑战:一方面能够有效降低计算难度(computationally cheaper)另一方面容易导致算法稳定性(stability)下降并可能发散(diverge)。这些特性使得基于深度确定性动作策略(Deep Deterministic Policy Gradient, DDPG)的方法成为主流选择之一。尽管该类算法在优化效率方面具有显著优势但在处理连续状态与动作空间问题时往往表现出较差的收敛性(convergence)以及对超参数敏感性问题需要注意合理设置相关的训练参数以保证算法性能稳定性和可靠性
- actor-critic 实际上就是policy-iteration(策略迭代)方法的参数化,包含两个交替步骤:1)policy evaluation:估计策略的值函数(相当于critic);2)policy improvement:根据值函数得到一个更优的新策略(相当于actor)。在复杂问题中,往往难以让某一个单独收敛,故采用联合优化方式。
- 标准的强化学习最大化累积期望 reward \sum_tE_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)]
最大熵强化学习的优化目标为:
J(\pi)=\sum_{t=0}^TE_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)+\alpha H(\pi(\cdot|s_t))].超参数\alpha控制熵项的相对重要性,在后文推导中省略,因为等价于给 reward 项乘\alpha^{-1}
本文旨在探讨如何在连续的状态与动作空间中构建高效且稳定的深度强化学习算法。通过在传统最大奖励强化学习框架中引入最大熵项,使得该方法在探索能力与稳定性方面表现出显著优势。该研究提出的SAC算法,在降低采样复杂度的同时显著提升了收敛稳定性。该算法主要包括三个核心要素:首先采用actor-critic架构的设计方案中包含两个子网络——策略网络和价值网络;其次采用基于历史经验样本的离线策略更新机制;最后通过最大化信息熵来实现策略的稳定性和充分的探索。
理论推导:soft policy iteration
软行为准则方法源自于最大熵策略迭代框架中的发展。它基于对原始行为准则的一种改进性设计,在策略优化过程中实现了更加合理的动作选择策略。
soft policy evaluation
在策略\pi作用下的贝尔曼备份算子被定义为:T^{\pi}Q(s_t,a_t)\triangleq r(s_t,a_t)+\gamma E_{s_{t+1}\sim p}[V(s_{t+1})]其中每一个状态-动作对(s_a,t)的软策略评估值函数由贝尔曼方程所约束,并且遵循以下递推关系:Q^{k+1}=T^{\pi}Q^{k}此外,在每一步t中状态s_{t}的概率分布由策略\pi(a|s)生成:p(a|s)=E[\delta(a - a_*) | s] = \int \delta(a - a_*) \pi(a_* | s) da_*基于上述框架我们可以得到以下结论:引理1(软策略估计) 给定贝尔曼备份算子和初始条件v_0, 则随着迭代次数k\rightarrow \infty, 估计值序列v_k将最终收敛于策略\pi下的最优soft价值函数值.
soft policy improvement
在政策优化过程中(policy optimization process),我们可以通过以下公式表示新的状态-动作分布:\pi_{new}(a_t|s_t)\propto\exp(Q^{\pi_{old}}(s_t,a_t))其中\pi_{new}代表新的状态-动作分布函数,在当前状态下采取动作a_t的概率与其旧的状态-动作价值函数呈指数关系
在实际应用中(practical implementation),为了便于处理和优化策略设计(strategy design),通常会将目标政策限制在一个由特定参数化分布族\Pi所定义的集合内(family of parameterized distributions)。这种限制条件能够有效约束优化搜索空间并提升计算效率(computational efficiency)。在此研究中(this study),我们选择了一组常见的参数化分布族(such as Gaussian distribution family),并采用基于KL散度的信息投影方法(KL divergence-based projection method)来实现这一约束条件
soft policy iteration
采用软策略迭代的方法进行循环交替应用两个关键组成部分,在马尔可夫决策过程中最终将收敛至该空间内的最佳策略
模型:soft actor-critic
在解决大规模连续控制问题时,在实际应用中通常需要借助近似器来处理策略和Q-function的估计,并采用SGD方法交替更新参数以优化模型性能。基于此,在本研究中我们关注的状态值函数V_{\psi}(s_t)、soft Q-functionQ_\theta(s_t,a_t)以及策略\pi_\phi(a_t|s_t)分别由参数\psi,\theta,\phi所定义。其对应的神经网络架构能够直接表示状态值函数及其相关的软Q-function与策略之间的关系。值得注意的是,在实践中增加这一项不仅有助于提升算法稳定性,还能方便地与其他模块协同训练以进一步优化整体性能。
训练状态值函数V_{\psi}

其中a_t是根据当前状态s_t生成的。
训练soft Q-functionQ_\theta

更新中使用来target网络\bar{\psi}以切断相关性。
训练策略\pi_\phi
通过神经网络实现策略重参数化:J_\pi(\phi) = \mathbb{E}_{s_T \sim D}\left[ D_{KL}\left( \pi_phi(\cdot | s_T) \| \frac{\exp(Q_theta(s_T, ·))}{Z_theta(s_T)} } \right) \right] 其中 \epsilon_T 被定义为从固定的先验分布中采样得到的随机变量。将损失函数重新定义为:L(theta, phi) = mathbb{E}_{(s_1, a_1, r_1, s_2)| pi} [ -log(pi_phi(a| s_1)) * Q_theta(s_2, r_2 + gamma * max{a'} Q_theta(s_2, a')) ]

算法
可以看作是DDPG的一个扩展版本

实验结果
最优性

稳定性

参数敏感性

