Reinforcement Learning with Deep Energy-Based Policies
- 摘要:我们开发了一种新的方法,在连续状态下与动作空间中实现基于能量的表达策略。这一策略在先前的工作中已得到验证。我们将该方法成功应用于最大熵策略的学习过程,并由此引出了称为软Q学习的新算法。该算法利用玻尔兹曼分布来表征最优策略。为了实现这一目标,我们采用最近提出的斯坦因变分梯度下降技术来训练一种近似于这种分布的随机抽样网络。所提出的软Q学习算法的优势体现在增强探索能力以及混合技能的能力上,并且能够有效地进行任务间的迁移学习。我们在游泳机器人与步行机器人等模拟系统上的实验结果表明了所提出的方法的有效性。此外,在actor-critic框架下对相应的基于能量模型进行近似推断也得到了印证。
1. Introduction
- 深度强化学习(深度RL)已经成为自主获取复杂行为的有希望的方向(Mnih等,2015; Silver等,2016),因为它能够处理复杂的感觉输入(Jaderberg等, 2016)并使用通用神经网络表示获得精细的行为技能(Levine等,2016)。深度强化学习方法可用于优化确定性(Lillicrap等,2015)和随机(Schulman等,2015a; Mnih等,2016)政策。然而,大多数深度RL方法都依赖于传统的最优性确定性概念,其中最优解决方案,至少在完全可观察性的情况下,始终是一种确定性政策(Sutton&Barto,1998)。虽然随机政策对于勘探是可取的,但这种探索通常是启发式地获得,例如通过注入噪声(Silver等人,2014; Lillicrap等人,2015; Mnih等人,2015)或初始化具有高熵的随机政策。 (Kakade,2002; Schulman等,2015a; Mnih等,2016)。
- 在某些情况下,我们可能更愿意学习随机行为。 在本文中,我们探讨了两个可能的原因:在多模式目标存在下的探索,以及通过预训练获得的组合性。 其他好处包括面对不确定动态的稳健性(Ziebart,2010),模仿学习(Ziebart等,2008),以及改进的收敛性和计算性(Gu et al。,2016a)。 多模态也适用于真实的机器人任务,如(Daniel et al。,2012)所示。 但是,为了学习这些政策,我们必须确定一个促进随机性的目标。
- 在哪种情况下,随机政策实际上是最优解?正如在先前的工作中所讨论的,当我们考虑最优控制和概率推理之间的联系时,随机策略成为最佳答案(Todorov,2008) 。虽然该框架有多个实例,但它们通常包括成本或奖励函数作为因子图中的附加因子,并推断出以状态为条件的动作的最优条件分布。可以显示该解决方案以优化熵增强的强化学习目标或者对应于最大熵学习问题的解决方案(Toussaint,2009)。直观地,将控制框架作为推理产生的策略旨在不仅捕获具有最低成本的单个确定性行为,而且捕获整个低成本行为范围,明确地最大化相应策略的熵。生成的策略不是学习执行任务的最佳方式,而是尝试学习执行任务的所有方法 。现在应该明白为什么这样的策略可能是首选的:如果我们可以学习可以执行给定任务的所有方法,那么所得到的策略可以作为一个良好的初始化,用于微调到更具体的行为(例如,首先学习所有的机器人可以向前移动的方式,然后使用它作为初始化来学习单独的跑步和边界技能);寻求多模式奖励景观中最佳模式的更好的探索机制;并且在面对对抗扰动时具有更强大的行为,其中以多种不同方式执行相同任务的能力可以为代理提供更多选项以从扰动中恢复。
- 不幸的是,在一般情况下解决这种最大熵随机政策学习问题是具有挑战性的。已经提出了许多方法,包括Z学习(Todorov,2007),最大熵逆RL(Ziebart等人,2008),使用消息传递的近似推断(Toussaint,2009),Ψ-学习(Rawlik等人。 ,2012)和G-learning(Fox等人,2016),以及更深入的RL中的最新提议,如PGQ(O’Donoghue等,2016),但这些通常在简单的表格表示中运行,难以应用于连续或高维域,或采用策略分布的简单参数表示,例如条件高斯。因此,虽然策略被优化以便以许多不同的方式执行所需的技能,但是所产生的分布通常在其表示能力方面非常有限,即使该分布的参数由表达函数近似表示 ,例如神经元。网络。
- 我们如何将最大熵策略搜索框架扩展到任意策略分布?在本文中,我们从基于能量的模型中借鉴了一个想法,这反过来揭示了Q学习,行为者 - 评论者算法和概率推理之间的有趣联系。在我们的方法中,我们将随机策略表示为(条件)基于能量的模型(EBM),其能量函数对应于在优化最大熵目标时获得的“软”Q函数 。在高维连续空间中,与任何一般的EBM一样,此政策的抽样变得难以处理。我们借鉴最近关于EBM的文献,设计了一个基于单独采样网络的近似采样程序,该网络经过优化,可以从政策EBM中生成无偏样本。然后,该采样网络既可用于更新EBM,也可用于动作选择。在强化学习的说法中,抽样网络是演员 - 评论者算法中的参与者。这揭示了一个有趣的联系:熵正则化的actorcritic算法可以被视为近似的Q学习方法,其中演员扮演一个来自难以处理的后验的近似采样器的角色 。我们在本文中进一步探讨了这种联系,并在此过程中讨论了与流行的深度RL方法的关系,如确定性政策梯度(DPG)(Silver et al。,2014; Lillicrap et al。,2015),归一化优势函数( NAF)(Gu等,2016b)和PGQ(O’Donoghue等,2016)。
- 这项工作的主要贡献是用于优化由基于能量的模型表示的任意多模态随机策略的易处理,有效的算法,以及将该方法与RL和概率推理中的其他近期算法相关联的讨论。 在我们的实验评估中,我们探索了我们方法的两个潜在应用。 首先,我们证明了在具有多模态奖励景观的任务中改进的勘探性能,其中传统的确定性或单峰方法具有落入次优局部最优的高风险。 其次,我们探索如何使用我们的方法在强化学习中提供一定程度的组合性,表明随机基于能量的政策可以作为学习新技能的更好的初始化,而不是随机政策或预先传统的最大奖励目标的政策。
2. Preliminaries
- 本节将阐述我们所解决的强化学习问题,并对最大熵策略搜索的目标进行简明扼要地总结。
- 此时段内将详细阐述这些关键身份。
2.0 最大熵


2.1. Maximum Entropy Reinforcement Learning
- 将最优策略的值函数中引入最大熵

- 其中α是一个可选且简便的参数,在调节熵与奖励之间的平衡程度.1此类优化问题已在先前的研究中进行了深入探讨(Kappen, 2005; Todorov, 2007; Ziebart等人。第4节对此目标进行了更详细的阐述。
- 若希望将常规或最大熵RL的目标推广至无限地平线的问题,则可以引入折扣因子γ以保证预期奖励(以及熵)之总和为有限值。在政策搜索算法框架内采用折扣因子实际上是一种细微差别。
2.2. Soft Value Functions and Energy-Based Models
- 优化(2)中的最大熵目标为我们提供了培训随机策略的框架,但我们仍然必须选择这些策略的表示。 先前工作中的选择包括离散多项分布(O’Donoghue等,2016)和高斯分布(Rawlik等,2012)。 但是,如果我们想要使用可以代表复杂的多模式行为的非常一般的分布类别,我们可以选择使用表单中基于能量的一般策略:

其中E被定义为能量函数其表达形式通常可借助深度神经网络实现。当我们将E视为一种普遍性近似器时 从而能够描述任意条件概率分布P(at|st)。这类基于能量的方法与传统值函数 Q-值函数的软化版本具有密切关联

我们 aim to enable the agent to explore all desired states while prioritizing them based on their desirability. To formalize this idea mathematically, one approach is to define the policy using an exponential Q-value function (see Figure 3b, green distribution).

其密度遵循玻尔兹曼分布的形式,在这种框架下,Q函数被视为负能量(negative energy)的作用者,负责为每一种可能的动作分配一个非零似然值.这样一来,智能体便能够识别出所有可用于解决当前任务的行为,从而帮助该智能体更好地适应环境变化,使得在某些解决方案不再适用的情况下仍能有效解决问题.事实上,我们可以证明:以能量形式定义策略的目标函数(2)是一个最优解,这一目标函数将传统的强化学习目标与策略的熵相结合(Ziebart 2010).这一思想源于统计建模领域,其核心在于在满足观测到的数据特征的同时寻找具有最高熵的概率分布.具体而言,如果所考虑的概率分布在欧几里得空间中,并且基于观测到的数据如均值和协方差等统计量进行建模,那么其最大熵分布将是对应均值和协方差参数下的高斯分布.因此,在实际应用中选择最大熵模型是一种合理的选择.


定理1建立了(2)中的最大熵型的目标与基于能量模型之间的联系,在这种联系中,
将Q_{soft}/α视为负能量,
而V_{soft}/α则被定义为对数分区函数
定理1的证明方法:
假设\tilde \pi为(6)的形式,则有

所以可以推出:

利用熵之间的关系推出:

则可推出附录(20)式的迭代关系,则\pi收敛于\pi^{\star},定理一得证
- 类似于标准Q函数和价值函数的处理方式,在软Bellman框架下,我们可以利用软Bellman方程来建立Q函数与其未来状态价值之间的关联。

定理二的证明与普通形式相同
- 软Bellman方程可视为常规(硬)方程的一种拓展,在α趋近于零时可还原回更为基础的标准方程(5)。当α趋近于零时可还原回更为基础的标准方程。
在下一节中我们将探讨如何利用这些关系式构建基于Q学习框架的最大熵策略模型,并提出一种通过近似推理优化该方法以适应任意形式Q函数的技术。
3. Training Expressive Energy-Based Models via Soft Q-Learning
在本节中, 我们将阐述我们提出的一种强化学习算法. 该方法以上一节所述的软Q函数为基础, 并可以通过近似采样结合易于处理的随机梯度下降方法来实现. 在这一部分, 我们首先将会阐述软Q学习的基本情况, 然后提出一种推理过程, 以便使其能够方便地与深度神经网络表示在高维连续状态和动作空间中协同工作. 在这一过程中, 我们将探讨所提出的Q-学习过程与基于能量模型以及act-critic算法之间的推理关联.
3.1. Soft Q-Iteration
- 基于逐步更新V_{soft}^{*}和Q_{soft}^{*}的估算可以获得(7)的解。由此导出类似于Q-iteration的一阶不动点方程:


我们将其称为soft Bellman backup operator,并将其应用于soft值函数中;该运算符以符号T表示。通过反复运用这一运算符可以逐步恢复最大熵策略直至最终达到稳定状态。
证明过程

但是,在采用该算法时需要考虑其适用性。**首先,在连续或大规模的状态和动作空间中实施软贝尔曼备份存在困难;其次,在(6)式中基于能量模型的采样在一般情况下也是难以处理的。我们将在此处详细阐述如何应对这些挑战。
为什么基于能量的模型的采样是难以处理的?



3.2. Soft Q-Learning
- 本节讨论定理3中的Bellman backup如何在实际算法中实现,该算法使用来自环境的有限样本集,从而产生类似于Q学习的方法。 由于软Bellman backup是收缩(见附录A.2),最佳值函数是Bellman backup的不动点,我们可以通过优化Q函数来找到它,其中软Bellman误差| TQ-Q | 在所有状态和行动中最小化。 虽然由于(9)中的积分和所有状态和动作的无限集合,该过程仍然是难以处理的,但我们可以将其表示为随机优化,这导致随机梯度下降更新过程。 我们将使用函数逼近器对参数θ建模软Q函数,并将其表示为Q_{soft}^{\theta}.
- 为了将定理3转换为随机优化问题,我们首先通过重要性抽样来表达软值函数:

- 该随机优化问题可以通过对状态和动作进行采样,并结合随机梯度下降方法进行近似求解。由于采样分布q_{s_t}和q_{a_t}具有灵活性,在实际应用中我们可以基于当前策略的真实样本数据进行建模:\pi(a_t|s_t) \propto \exp(\frac{1}{\alpha} Q^{\theta}_{soft}(s_t, a_t))。对于动作空间中的抽样选择q_a'我们有较多的自由度可以选择不同的策略以生成有效的估计样本。其中一种方便的选择是采用均匀分布的方式生成抽样点集。然而这种简单的方式可能会导致在高维空间中难以实现有效的扩展。
- 然而,在连续空间中处理时我们需要一种直观的方法来从策略\pi(a_t|s_t) \propto \exp(\frac{1}{\alpha} Q^{\theta}_{soft}(s_t, a_t))中进行抽样操作以生成有效的估计样本集。在这种情况下既可以基于当前策略采取行动(即on-policy),也可以根据需求生成其他类型的样本用于软价值函数估计(即off-policy)。由于政策形式过于笼统直接从其定义式抽取样本操作较为困难因此我们转而采用近似的抽样程序如后续章节所述。
3.3. Approximate Sampling and Stein Variational Gradient Descent (SVGD)
在本节中, 我们将介绍如何从软Q函数中进行近似采样. 基于能量分布的现有采样方法通常可分为两大类: 一类是基于马尔科夫链蒙特卡罗(MCMC)的方法 (Sallans & Hinton, 2004), 另一类是通过学习随机采样网络实现采样的方法 (Zhao et al., 2016; Kim & Bengio, 2016). 考虑到在线推理的需求, 基于MCMC的方法难以满足实时性要求, 因此我们采用基于Stein变分梯度下降(SVGD)的抽样网络 (Liu & Wang, 2016) 以及其去参数化的版本amortized SVGD (Wang & 刘, 2016). amortized SVGD具有以下三个显著特点: 首先, 它提供了一个随机化采样网络, 允许我们快速生成样本; 其次, 可以证明该方法能够准确估计目标分布的后验EBM; 第三, 如文中后续将展示的那样, 所获得的方法与演员-批评者架构非常相似. 这一特点不仅简化了算法实现过程, 而且有助于揭示该算法与先前提出的演员-批评者方法之间的内在联系.
在形式上, 我们旨在学习一个基于状态条件的随机神经网络a_t = f^\phi(\xi; s_t), 其中φ通过参数化网络结构. 该网络将从预设分布(如正态分布或其他任意分布)中抽取的噪声样本ξ映射到与目标能量模型Q_{soft}^\theta相对应的无偏动作样本. 我们定义动作概率分布为\pi^\phi(a_t|s_t), 并通过优化过程确定φ以使该分布在Kullback-Leibler散度下接近能量基模型.]


采用梯度下降类优化算法来进行最佳采样网络参数的学习工作,并将采样网络f^{\phi}视为与AC算法中角色等同的一种机制。我们将在第4节深入探讨这种联系,并在此基础上介绍完整的最大熵策略学习算法框架。
3.4. Algorithm Summary
为此,在连续域中研究最大熵策略时提出了软Q学习算法

4.Related work
- 当我们将最优控制作为概率推理时,最大熵策略成为解决方案。在线性二次系统的情况下,最大熵策略的平均值恰好是最优确定性策略(Todorov,2008),其已被用于构建基于迭代线性化和概率推理技术的实用路径规划方法(Toussaint,2009) )。在离散状态空间中,可以精确地获得最大熵策略。这已经在线性可解决的MDP(Todorov,2007)的背景下进行了探索,并且在逆强化学习的情况下,MaxEnt IRL(Ziebart等人,2008)。在连续系统和连续时间中,路径积分控制研究最大熵策略和最大熵规划(Kappen,2005)。与这些现有方法相比,我们的工作重点是通过深度神经网络表示的表达式通用能量函数,将最大熵策略搜索框架扩展到高维连续空间和高度多模态目标。许多相关方法还使用最大熵策略优化作为在标准预期奖励目标下优化策略的中间步骤(Pe ters等人,2010; Neumann,2011; Rawlik等人,2012; Fox等人, 2016)。其中,Rawlik等人的工作。 (2012)类似于我们的,因为它还利用时间差异样式更新到软Q函数。然而,与此前的工作不同,我们专注于具有近似采样的通用能量函数,而不是分析可归一化的分布。最近的一项工作(Liu et al。,2017)也考虑了熵正则化目标,尽管熵是关于政策参数而不是采样行动。因此,所得到的策略可能不代表具有单个参数的任意复杂的多模态分布。我们的采样器的形式类似于最近的分层学习工作中提出的随机网络(Florensa等,2017)。然而,此先前的工作使用特定任务的奖励奖励系统来鼓励随机行为,而我们的方法来自优化一般最大熵目标。
- 与最大熵策略密切相关的概念是玻尔兹曼探测,它使用标准Q函数的指数作为动作的概率(Kaelbling等,1996)。许多先前的工作也探索了将政策表示为基于能量的模型,其中Q值来自能量模型,例如受限制的玻尔兹曼机器(RBM)(Sallans&Hinton,2004; Elfwing等,2010;大冢) et al。,2010; Heess et al。,2012)。虽然这些方法密切相关,但据我们所知,它们还没有扩展到深度网络模型的情况,没有广泛使用近似推理技术,也没有在复杂的连续任务上得到证明。最近,O’Donoghue等人。 (2016)在玻尔兹曼探索和熵正则化政策梯度之间建立了联系,尽管在与最大熵政策搜索不同的理论框架中:与完全最大熵框架不同,O’Donoghue等人的方法。 (2016)仅优化在当前时间步骤最大化熵,而不是计划访问将进一步最大化熵的未来状态。该先前方法也未证明在连续动作空间中学习复杂的多模态策略。
- 虽然我们将我们的方法作为Q学习来激励,但它的结构类似于演员评论算法。观察我们的方法与深度确定性政策梯度法(DDPG)(Lillicrap等,2015)之间的联系尤其具有启发性,该方法根据(硬)贝尔曼更新更新了Q function评论家,然后反向传播Q值渐渐成为演员,类似于NFQCA(Hafner&Riedmiller,2011)。我们的演员更新仅在增加κ术语时有所不同。实际上,如果没有这个术语,我们的演员将估计最大后验(MAP)动作,而不是捕获整个EBM分布。这表明我们的方法与DDPG之间存在一个有趣的联系:如果我们只是简单地修改DDPG评论更新来估计软Q值,我们就会恢复我们方法的MAP变体。此外,这种连接允许我们将DDPG转换为简单的Q学习方法,其中actor扮演近似最大化器的角色。这有助于解释DDPG在非政策数据方面的良好表现。我们还可以在方法和策略渐变之间建立联系。在附录B中,我们表明,表示为基于能量的模型的策略的策略梯度与软Q学习中的更新密切对应。类似的推导在并发工作中呈现(Schulman等,2017)。
注意附录B推导中运行的技巧令\nabla \pi=\pi \nabla log \pi
5. Experiments
为了探究以下三个关键问题:(1)我们的软Q学习方法是否成功地捕捉到了多模态策略分布?(2)基于能量机制的软Q学习是否有助于探索并跟踪多种复杂模式的任务?(3)在使用标准确定性目标进行预训练的情况下,最大熵策略是否能有效作为微调不同任务的基础模型?


