【文献阅读】PS 综述 in Continuous Action Domains: an Overview
Policy Search in Continuous Action Domains: an Overview
Brief
作为一名18年的综述文章,在阅读过程中难免会感到冗长费解。
本文的作者分别为法国索邦大学的Oliver Sigaud和德国航空航天中心的Freek Stulp。
本文链接:https://arxiv.org/pdf/1803.04706.pdf
Abstract
Continuous action policy search represents a hot topic in current research, driven both by advancements in deep reinforcement learning algorithms and the emergence of competitors relying on evolutionary algorithms. This paper offers an extensive overview of policy search methods, presenting a common framework for understanding diverse approaches, such as Bayesian Optimization and directed exploration methods. The central theme of this review lies in elucidating the relationships among various methodological families but also examines factors influencing sample efficiency properties across different strategies.
1. introduction
第一段:策略-行动的关系
自主系统通常被称为能够在无需外部干预的情况下明确了解自身在特定领域内应执行的任务。一般来说, 它们的行为通常是基于策略来决定。例如, 机器人的策略由控制器决定, 在任何环境下它会根据当前状态选择相应的行动, 并向执行机构发送信号。
第二段:
具体解释
改写内容
具体解释
进一步阐释

Figure 1: A visual representation of an episode, including the data contained within a rollout, and the definition of episode utility (also referred to as episode return when utility represents a reward).
第三段:机器人背景下的样本效率。
在机器人技术背景下,样本效率 sample efficiency 是一个关键问题,在此问题中存在三个主要方面。(1) 通过现有数据获取更多信息 data efficiency;(2) 选取那些含有更多信息的数据样本 sample choice;(3) 通过经验回放多次利用同一数据以优化策略 sample reuse. 本文从这三个维度出发对策略搜索算法进行了概述介绍。
1.1. Scope and Contributions
关于机器人的综述研究
1.2. Perspective and structure of the survey
本文的主要信息如下。
- 在优化过程中,在待优化的有效函数已知且为凸(convex)时,则可采用一种高效(highly efficient)的方法(approach)。
- 如果所考虑的函数已知但非凸(non-convex),则可通过梯度下降法找到局部最优解,并沿该导数指示的方向逐步调整当前点以实现目标。
- 如果所研究的系统是一个黑箱(black-box),则其功能特性以及相应的解析导数均为未知状态。在策略梯度方法中,在这种情况下仅能基于观察到的行为来间接关联策略参数与其相关的实际效果。
基于策略搜索适用于处理一种相对复杂的(black-box)问题的情况下,为此提出五种解决方案
- 在不构建效用模型的情况下(第2节),寻找高效率策略参数。
- 学习策略参数空间中的效用函数模型,并利用该模型进行随机梯度下降(SGD)(第3节)。
- 定义任意结果空间,并利用对这一结果空间的定向探索来寻找高效用策略(第4节)。
- 在状态行动空间中采用与解决方案2相同的做法(第5节)。
- 学习系统与环境相互作用的transition函数模型,在给定当前状态和动作的情况下预测下一个状态,在不使用系统的情况下生成样本,并根据生成样本应用上述一种解决方案。
策略搜索方法领域的一个主要区别在于优化方法究竟是episode-based还是step-based。其中,在前面三个解决方案中采用的是episode-based的方法,在第四个方案中则采用的是step-based的方法。第五个方案则适用于其他所有解决方案。
在2至5章中分别对应方案1至4的内容。
2.Policy search without a utility model
当待优化的目标函数存在但不具备特别性质时,默认采用的标准优化方法被称为“梯度下降法”(Gradient Descent),该方法通过沿着该函数的负梯度方向逐步逼近局部最优解。然而,在仅能通过从一批样本数据中建立回归模型来推断同一目标函数的情形下,默认的做法依然适用——但此时计算整体模型所需的梯度变得较为昂贵(computationally expensive)。为此提出了一种称为随机梯度下降(SGD)的方法,在每次迭代过程中抽取一小批样本数据来进行计算——这种方法由Bottou于2012年提出(Bottou, 2012)。在本章第3节开始介绍上述相关算法之前,请先研究一种系列化的方法——这些方法无需预先学习效用函数模型即可实现政策搜索。具体而言,在不学习任何效用函数模型的前提下,则通过对策略参数空间θ进行采样,并逐步向效用更高的策略参数J(θ)靠拢
2.1. Truly random search
在一个极端情况下,在优化领域中被称为"真正的随机搜索"的基本形式是一种黑盒优化(BBO)方法。该方法通过不断随机采样θ值,并最终找到一个具有足够效果的效用值来确定其性能。这种算法的名字来源于Rastrigin(1963),他将无梯度优化技术命名为"随机搜索"。其核心特点是不依赖于历史采样信息:前一次采样的目标函数值不会影响后续采样的位置选择。显然,在缺乏目标函数导数信息的情况下这一特性使其成为一种强大的全局优化工具。相比之下,在大多数实际应用中人们不得不做出某种假设才能继续推进优化过程:即目标函数J(θ)在极值点周围呈现出一定的平滑性特征这是应用梯度法的前提条件之一。因此在面对那些缺乏明显规律性或可利用结构性质的目标函数时该算法往往能够提供有效的解决方案并取得令人满意的优化效果。

在一次迭代中,在a部分展示三种主要进化方法:基于种群的方法(b部分)、进化策略(c部分)以及估计分布算法(EDA)。其中:
- 蓝区表示当前的生成与采样区域。
- 位于蓝区的所有样本均为表现优异者。
- 红叉标记的是表现欠佳的样本。
- 绿区则代表新生成与采样的范围。
- 黄点标注的是最佳猜测位置。
2.2. Population-based optimization
基于群体的BBO方法调控有限数量的个体集合,并在前一个优秀个体附近随机生成新的个体。基于群体的优化方法已形成多个系列,在最著名的方法中包括遗传算法(GAs)(Goldberg, 1989)、遗传编程(GP)(Koza, 1992)以及更先进的NEAT架构(Stanley和Miikkulainen, 2002)。在这些框架中,“代表”每个体的参数θ被称为其基因型,“对应的性能指标则被称为其适应度”。进一步的信息,请参阅(Back, 1996)。这些技术已被成功应用于神经网络领域而发展出神经进化的方法(Floreano等人, 2008),然而,在大规模复杂策略表示方面仍面临诸多限制性挑战。不过,在当前计算能力日益提升的趋势下,在深度神经网络建模方面取得突破性的进展成为可能,并由此形成了新兴领域的深度神经进化(Petroski Such等人, 2017)。研究表明,在具备足够计算资源的情况下,“简单”的遗传算法如GAs可为第五章提出的深度强化学习方法提供有竞争力的替代方案主要得益于它们卓越的并行处理能力(Petroski Such等人, 2017;Conti等人, 2017)。
2.3. Evolutionary strategies
进化策略(Evolutionary Strategies,ES)可以看作是特定的基于种群的优化方法,在这种方法中,从一代到下一代只保留一个个体。更具体地说,从前一个样本中计算出一个最优猜测,然后在当前最优猜测的基础上加入高斯噪声,得到下一个样本。
从一个最优猜测到下一个最优猜测,实现了一种类似于SGD的策略改进形式,但梯度是通过对样本进行平均而不是分析计算来逼近的。因此,这种方法比较灵活,但由于梯度逼近使用了随机探索成分,所以数据效率较低。然而,当样本的采样域重叠时,可以通过在一代和下一代之间重用样本来提高数据效率,这种方法称为重要性混合(Sun等,2009)。最近在(Pourchot等人,2018)中提出了重要性混合的改进版本,显示出对样本效率的影响很大,但不足以在这方面与深度RL方法竞争。关于重要性混合的进一步结果可以在(Pourchot和Sigaud,2018)中找到,这表明有必要进行更多的调查,以更好地了解这种机制在哪些情况下最有用。
SGD给出的梯度方向与ES的相同方向之间的相关性取决于进化算法。有趣的是,即使在相关性不高的情况下,也能获得良好的ES性能,不过这一结果在策略搜索的情况下仍需推敲(Zhang等,2017)。
一个特定的深度神经进化的ES实现,其中在每一代都使用恒定的高斯噪声,被证明可以在标准基准上与深度RL方法竞争。这个简单的实现根据不同的梯度景 landscapes 与基于SGD的方法产生了深刻的比较,表明在哪些条件下ES可以找到比SGD更好的optima(Lehman等,2017)。
最后,nes(Wierstra等人,2008)和xnes(Glasmachers等人,2010)不是逼近效用的 vanilla 梯度,而是逼近其自然梯度natural gradient (Akimoto等人,2010),但为此他们必须计算 Fisher信息矩阵的逆,这在大维度上是非常昂贵的 which is prohibitively expensive in large dimensions (Grondman等人,2012)。我们向读者推荐(Pierrot等人,2018),以了解自然梯度和其他高级梯度下降概念的详细介绍。
2.4. Estimation of Distribution Algorithms
关于EDA的核心观点是特定于ES系列的方法族(ES family),这些方法均基于协方差矩阵\Sigma的运用。该协方差矩阵在\Theta空间上定义了一个多元高斯分布函数(multivariate Gaussian function),因此其规模为|\theta|^2。在后续迭代过程中,在与该高斯分布成正比的概率下从该分布中被抽取样本。沿着迭代过程,在由\Sigma所代表的椭球体范围内逐步进行优化以适应局部最优解\theta^*的位置(Deisenroth等, 2013)。这种方法在小规模参数空间中表现出较高的效率优势;然而,在大规模参数空间中则面临较高的计算成本要求(因为需要较大的样本数量)。特别地,在深度神经进化优化(deep neural evolution optimization)背景下此方法不适用(因参数数量通常在数千到数百万之间)。
2.5. Finite difference methods
在有限差分法中,在θ处的导数是通过将效用函数展开为泰勒级数并取一阶近似来计算的。这种估算方法是基于施加微小扰动到当前输入后观察结果的变化来实现的。尽管这些方法利用了梯度信息进行局部线性近似以提高效率,但它们并不依赖于完整的数学模型。在有限差分法中,在每个维度上单独处理扰动导致了一个非常简单的算法(Riedmiller等人, 2008)。尽管这些策略看似简单可行...
2.6. Reference to the main algorithms

2.7. Sample efficiency analysis
在无梯度方法的各类方案中(段落1),能够从策略参数\theta的向量中提取其对应的效用utility J(\theta)的相关信息(段落2)。然而(段落3),由于J函数往往具有不确定性(段落4),在其应用过程中仅能获取每个特定\theta值所对应的有限信息(段落5)。无论如何(段落6),样本重用可以通过建立一个存档archive 来实现(段落7)。每次算法需要特定策略点处的效用评估时(段落8),如果该点已经在存档 archive 中存在记录,则可以直接调用该记录中的结果替代重新采样计算(段落9)。在确定性场景下(段落10),存档中的已有数据足以支持后续计算需求;而在随机性较高的情况下(段11),archive 可以作为一个概率分布模型来辅助评估过程中的不确定性分布情况;此时系统可以根据需求从该分布模型中抽取单个样本值或根据精度要求进行多次抽样评估以提升计算精度(段12)。
Message 1:
没有效用模型的策略搜索一般比随机梯度下降(SGD)的数据效率低。尽管从技术上讲,在没有效用模型的情况下,样本重用是可能的,但在实践中很少使用。尽管与SGD相比,这些方法的样本效率较低,但其中一些方法具有高度的可并行性 highly parallelizable,只要有足够的计算资源 enough computational resources,就可以为深度RL提供可行的替代方法 viable alternative。
本节讨论了基于效用模型的政策优化方法,在策略参数空间中实施策略搜索
在引言部分提到了策略参数向量 utility 的定义与获取方法。具体而言,在没有明确建立策略参数与 utility 之间的数学关系之前,研究者通常会通过收集一系列(策略参数、utility)配对样本数据,并运用回归分析方法来建立相应的函数模型。这种模型既可以是确定性的形式,在给定每个特定的策略参数向量时都能输出对应的 utility 值;也可以是概率istic 的形式,在给定输入后输出 utility 值的概率分布估计。基于此构建的 model framework 可以用于后续的学习与应用过程。一旦建立了这样的 model 框架之后,则可以通过梯度下降的方法来进行优化训练。这些优化步骤有两种执行方式:一种是顺序进行;另一种是在每次获得新的 utility 观测值后逐步改进 model 并进行梯度下降训练。对于后者情况而言,model 必须具备持久性 persistence:即在积累新的信息时能够持续更新与适应变化的趋势;而如果 model 是临时性的 transient 型,则需要在每次迭代过程中从头开始重新计算其参数估计值以适应不断变化的数据特征。
3.1. Bayesian Optimization
尽管上述方法看似很有吸引力
BO算法带有一个协方差函数 covariance function,它决定了新样本提供的信息如何影响这个样本周围的模型分布。它还带有一个获取函数 acquisition function,用于给定当前模型分布选择下一个样本。一个好的获取函数应该考虑到模型在采样空间的价值和不确定性。A good acquisition function should take into account the value and the uncertainty of the model over the sampled space.
通过快速降低不确定性 uncertainty,BO实现了一种主动学习的形式 implements a form of active learning。因此 As a sonsequence,因此,当参数空间足够小的时候,它的采样效率非常高,它搜索的是全局最优,而不是局部最优。然而,考虑到必须对 acquisition function 进行全局优化,它在参数空间大小上的伸缩性很差it scales poorly in the size of the parameter space.。更多细节,请参见(Brochu等人,2010)。
ROCK*算法是BO的一个实例 instance,它搜索局部最优值而不是全局最优值(Hwangbo等人,2014)。它使用 CMA-ES 来寻找模型函数上的最优值。通过这样做,它执行的是自然而非 vanilla 梯度优化,但它并没有使用效用函数的可用模型,尽管这可以提高样本效率。
贝叶斯优化算法 Bayesian optimization 一般使用高斯核 Gaussian kernels 来有效表示模型上的分布。然而,一些作者已经开始注意到,在策略搜索的specic context 背景下,BO并没有使用 agent 的基本步骤 elementary steps 中的所有信息。这导致了基于两个策略产生的rollout 密度 density 之间的Kullbak-Leibler divergence 散度,研究更合适的数据驱动的内核(Wilson等人,2014)。
在策略搜索的背景下使用BO是一个新兴的领域 emerging domain(Lizotte等,2007;Calandra等,2014;Metzen等,2015;Martinez-Cantin等,2017)。Furthermore 此外,最近将BO与强化学习方法相结合的尝试,giving rise to 产生了贝叶斯优化强化学习(BORL)框架,在第5节中进行了描述。
3.2. Reference to the main algorithms

3.3. Sample efficiency analysis
相比没有模型的情况,在\Theta中学习效用函数模型相较于直接优化更具更高的样本效率(more sample efficient)。由于相对于模型而言其梯度有助于加快参数更新过程(accelerate parameter improvement),这种方法通常被认为更为高效。然而,在大多数情况下,默认使用确定性效用函数(deterministic utility function)可能不足以反映真实情况(true utility function),因为它假设了效应是固定的和可预测性的。因此,在真实情况下(true scenarios),这种假设往往不成立,并且引入随机性的处理能够更好地反映实际复杂性(complexity)。尽管如此,在大多数情况下,默认使用确定性效用函数可能导致较高的计算开销(extra computational cost),从而影响该方法在可扩展性方面的表现(scalability)。
Message 2:
贝叶斯优化技术由BBO负责管理政策参数空间内模型分布的整体结构,并通过主动筛选具有代表性的样本来提升其样本利用率。然而由于其进行全局搜索的本质特征导致难以有效扩展至复杂的策略参数空间范围,在实际应用中因而这种技术难以直接应用于复杂的深度神经网络表示形式
4. Directed exploration methods
该方法特别适用于处理具有稀疏奖励 sparse rewards 的任务,在这些情况下,搜索空间的大部分区域都表现出相同的效用信号。其中large parts of the search space have the same utility signal. 这些方法有两个主要特点。
- 首先,在策略参数空间 \Theta 中不进行搜索,在一个较小的行为空间 O(也称为描述符空间或行为空间 also called descriptor space or behavioral space)中进行搜索,并学习 \Theta 和 O 之间的一一对应关系 invertible mapping;
- 其次,所有这些方法都优化了一个与任务无关的准则 novelty 或 diversity(也被称作探索行为space),用于有效地探索行为space。
结果本身反映的是行为观察的属性。普遍认为,在已知且合理地构成的结果空间中(即由已知策略参数构成的结果空间),如果效用与结果之间能够直接关联,则相对容易发现高效率的策略参数(Baranes等, 2014)。即使对大多数策略参数而言,效用函数没有值的情况下,在专用结果空间中搜索新解并建立从Θ到O的映射通常比直接在Θ中进行搜索更为高效。

Figure 4 illustrates the standard mapping relationship between strategy parameter space Θ and result space O, typically leading to multiple strategy parameters resulting in identical outcomes (for instance, in scenarios where a robotic arm must move a ball, if the system design prohibits arm motion while the result space is defined as the ball's position, many strategy parameters will result in a stationary ball). This method of random sampling within Θ space often fails to adequately cover O.
所以,为了使该方法有效,结果空间必须以这样一种方式被否定,即确定一个结果所对应的效用是直接的。一般来说,结果空间是由外部用户来定义的,以满足这一要求。尽管如此,使用表示学习方法让agent 自主 autonomously 定义自己的结果空间是一个新兴的感兴趣的话题 is an emerging topic of interest(Pere等,2018;Laversanne-Finot等,2018)。
定向探索方法可分为新颖性搜索 novelty search(NS)(Lehman和Stanley,2011)、质量多样性 quality-diversity(QD)(Pugh等,2015)和目标探索过程 goal exploration processes(GEPs)(Baranes和Oudeyer,2010;Forestier和Oudeyer,2016;Forestier等,2017)。前两者来源于进化方法,而 GEPs 来源于发展学习和内在动机文献。whereas geps come from the developmental learning and intrinsic motivation literature.
它们之间的一个重要区别是,NS和 GEPs 只是为了优化多样性,因此它们根本不使用效用函数,而QD方法则依靠多目标优化方法同时优化多样性和效用 diversity and utility。
NS方法的产生是因为认识到将效用优化作为单一目标并不是唯一的选择The NS approach arose from the realization that optimizing utility as a single objective is not the only option(Doncieux和Mouret,2014)。In particular 特别是,在稀疏或欺骗性奖励问题的情况下 in the case of sparse or deceptive reward problems,人们发现,寻求新颖性或多样性是获得高效用解的有效策略,即使不明确优化这个效用也是如此(Lehman和Stanley,2011)。
GEP 方法更多的是受内在动机 intrinsic motivations的思想启发,其目标是让 agent 在没有外部效用信号的情况下实现自己的目标(Forestier等,2017)。然而,进化方法的研究者也意识到多样性和效用可以联合优化(Cuccu和Gomez,2011),从而产生了更先进的NS和QD算法(Pugh等人,2015;Cully和Demiris,2017)。
所有这些方法都有很多相似之处。它们都是从随机搜索阶段开始的,当它们评估一个策略参数向量\Theta 导致结果空间 O 中的一个点 o 时,它们将相应的<\theta,o > 对存储在一个档案archive 中。因为它们利用这个档案 archive 来改进策略,所以它们都实现了一种懒惰学习 lazy learning的形式,使它们具有有趣的样本效率特性endowing them with interesting sample efficiency properties (Aha,1997)。档案 archive 本身可以被看作是与 \Theta 与 O 相关的函数的随机模型,这在MAP-Elites算法中表现得尤为明显(Cully等人,2015)。
更详细地说,这些方法之间的主要区别在于它们覆盖结果空间 O 的方式。NS和QD方法对档案 archive 中存在的精英 elite \theta 向量进行不定向的变化 undirected variations。More precisely 更准确地说,在NS中,the resulting solution 结果的解只是被添加到档案 archive 中,而在QD中,如果新的解在多样性 diversity 和 效用 utility 方面都优于以前的解,那么新的解就会取代以前的解。By contrast 相比之下,GEPS 选择一个期望的结果desired outcome o^*,并修改档案 archive 中导致最接近结果的 \theta 的副本。期望结果 o^* 的选择可以随机进行,也可以使用课程学习或学习进度概念进行using curriculum learning or learning progress concepts(Baranes和Oudeyer,2013;Forestier等人,2017)。同样,\theta 的改进也可以使用不定向高斯噪声 undirected Gaussian noise 或更高级的方式进行。例如,一些 GEP 方法建立了从 \Theta 到 O 的映射的局部线性模型,以有效地对其进行反转 to efficiently invert is,从而找到对应于所需结果o^* 的 \theta^*(Baranes和Oudeyer,2013)。
因此,定向探索方法都能学习到 \Theta 和 O 之间的随机和可逆映射 stochastic and invetible mapping。BO方法。在这种情况下,结果空间是Θ和效用之间的一个中间空间:首先将策略参数投射到结果空间中,然后可以学习这个结果空间中的效用函数模型。
在 O 中学习 utility 与在状态动作空间X\times U中学习批判有一些相似之处,如第5节中提出的。从这个角度来看,这些方法可以被看作是在进化、BO和强化学习方法之间提供了一个中间家族。然而,我们很快就会看到,在状态动作空间X\times U中学习 critic 得益于与时差学习相关的附加属性 benefits from additional properties related to temporal difference learning,which limits the use of the above unifying perspective 这限制了上述统一观点的使用。
4.1. Reference to the main algorithms

4.2. Sample efficiency analysis
The characteristic of all directed exploration methods is their ability to widely cover the outcome space. This provides an efficient exploration, which significantly improves sample efficiency when combined with more standard evolutionary methods (Conti et al., 2017) or deep RL approaches (Colas et al., 2018). In addition, our article primarily focuses on single-task learning. However, it is worth noting that in multi-task learning scenarios, direct exploration methods may significantly improve sample efficiency. Because their targets are interesting result spaces, they can adapt better when facing multiple tasks and outcomes.
Message 3:
为了有效执行探索,在用户定义的结果空间内寻找多样性是一种必要方法;这种策略不仅有助于解决稀疏或欺骗性奖励问题(sparse or deceptive reward problems),还能避免过度依赖标准探索可能导致的失败风险。因此,在这项调查中引入定向探索方法将对现有策略形成有益补充
5. Policy search with a critic
前面两节阐述了从策略参数空间 \Theta 到效用 utilities 或结果 outcomes 的映射学习方法。目前我们将介绍如何学习 state-action space X \times U 中的效用模型的方法。
RL formalization 中的重要组成部分是效用 U(x, u) 表示当 agent 处于状态 x 并遵循当前策略 \pi_\theta 或最优策略 \pi^* 时执行动作 u 所有可能期望获得的回报量。这一量还可能受折扣因子 \gamma 和噪声参数 \beta 影响。
真实效用 U(x, u) 可以通过参数 \eta 的模型 \hat{u}(x, u) 来近似表示这样的模型被称为 critic。其关键特征在于可以从 agent 对应的状态-动作单步 rollouts 样本中进行学习,并可采用时间差分法或蒙特卡洛法 temporal dierencing or Monte Carlo 来实现。
通过使用递减相对于 critic 模型 \hat{u}_\eta 的梯度更新策略参数 \theta 所采用的方法被称为 actor-critic 方法;其中策略 \pi_\theta 被称为行为者 actor(Peters 和Schaal, 2008b;Deisenroth 等人, 2013)。
这种 actor-critic 方法适用于随机性和确定性政策(Silver等人, 2014年)。与随机策略相比确定性政策的空间更为有限但可能更为有利因为其搜索速度更快;然而当马尔科夫属性失效或在对抗性情境下(Williams 和 Singh, 1998;Sigaud 和 Buet, 2010)随机策略往往更为合适(Wang等人, 2016b)。
5.1. Exploration in parameter or state-action space
如第3节所述,在学习空间 \Theta 中的效用模型被视为一个回归模型 regression-based model ,即通过在 \Theta 空间中进行采样与探索来实现预测目标。与此不同的是,在状态-动作空间 X\times U 中无法直接取样特定状态与动作组合的原因在于:决策者事先并不清楚哪些策略参数组合会导致访问特定状态并执行特定动作(as no prior knowledge of policy parameters leading to specific states and actions is available)。因此,在这一过程中有两种探索方式:一种是向(策略参数扰动)方向加入噪声 noise ,另一种是向动作输出方向加入噪声 noise 。在第二种情况下(action perturbation),探索过程通常具有不确定性,在采取某策略时会引入高斯噪声 Gaussian noise 或Ornstein-Ulhenbeck型 noise 。其中一种常见的扰动方式是将策略参数扰动应用于PEPG、PoWER和 PI^2 方法中,并对DDPG算法也进行了类似的改进(Fortunato等, 2017;Plappert等, 2017)。本文介绍的是其他类别的动作扰动方法。
actor-critic方法通常遵循以下三个步骤来进行迭代:
A: 收集基于当前策略的新样本数据并执行策略参数或动作扰动以进行探索 exploration 。
B: 根据这些样本数据计算新的critic \hat u_\eta 值,并利用时差法 temporal difference method 来确定最优控制律 \eta 。
C: 利用梯度下降 gradient descent 方法更新critic网络中的参数 \theta ,从而优化整个系统性能。
这里应区分的是:
critic 在步骤C结束后被丢弃掉(discarded),因此在下一次迭代的过程中,在步骤B中它不得不从头开始(重新)学习。
此外,在整个学习过程中该critic具有持久性(persistence),并在步骤B中以逐步更新的方式(incrementally updated)进行调整。
在接下来的两个章节里我们将更加详细地探讨这两种变体之间的区别——并称其为瞬时批判(transient critic)和持久批判(persistent critic)。
5.2. Transient Critic Algorithms
在具有短暂的时间内使用临时critic的方法中使用蒙特卡洛采样Monte Carlo sampling–即通过大量事件集episodes并平均随机回报–被用来评估当前策略并生成一系列新的步骤样本。然后确定给定这些样本的最佳critic参数可以通过批量回归问题的形式来求解Then, determining the optimal critic parameters given these samples can be formulated as a batch regression problem.
5.3. Persistent Critic Algorithms
与瞬时批判算法相比,在训练过程中逐步更新批判的持续性批判算法 In comparison with transient critic algorithms, persistent critic algorithms gradually update their critics. 大多数这样的算法都使用了actor-critic架构 except for NAF (Gu et al., 2016b), a notable exception which does not have an explicit representation of the actor. As far as we are aware, before the introduction of deep RL algorithms discussed in Section [ref], four iNAC algorithms were the sole representatives of this family (Bhatnagar et al., 2007). The incremental computation of critics can be referred to as a temporal difference (TD) method, also known as a bootstrap method. At each step, critics compute both time differences and rewards' prediction errors between predicted immediate rewards and actual rewards obtained by agents. This RPE serves as a loss that critics aim to minimize during iterations. This RPE can then be used as a loss that critics should minimize over iterations (Sutton and Barto, 1998).
5.4. Key properties of Persistent Critic Algorithms
大多数使深度actor-critic算法得以实现的关键机制最初是在DQN中被提出的(Mnih等人, 2015)。尽管DQN是一种基于离散动作(discrete actions)的方法,在本研究不在讨论范围内,在介绍连续作用下的深度强化学习方法的主要算法之前,请简要回顾其核心概念和机制。
5.4.1. Accuracy and scalability: deep neural networks
借助深度神经网络构建逼近函数的同时,并凭借现代计算机集群的强大计算能力实现优势提升, 这些深度强化学习算法能够解决比以往更大的问题, 并以更高的精度精确计算梯度, 这一特点使它们相较于传统架构而言更为稳定, 因此有助于逐步更新持久型持久性批评者而非频繁重新计算瞬态型临时评论者
5.4.2. Stability: the target critic
深度RL方法采用了目标 target critic 的概念来增强稳定性 stability 。标准回归通过建立模型与样本数据之间的对应关系来逼近一个未知 stationary function 固定函数的过程(Stulp和Sigaud, 2015)。时间差分方法用于估计 critic 的过程类似于回归分析 regression analysis ,但其目标函数不是 static 的 stationary:相反地,它本身就是用来估计critic的一个动态函数,因此每一次更新都会影响到critic本身的变化。当目标函数与被估计的critic之间存在竞争关系时,这可能导致估计结果与实际结果之间产生不一致 divergence 。为了缓解这种不稳定现象,建议在多次更新期间始终保持目标函数 static ,并在适当时机将其重置为当前critic估计值对应的新函数,从而实现从一个回归问题切换到另一个问题的过程中逐步优化 reset the target function periodically to a new function corresponding to the current critic estimate, allowing for gradual optimization by switching between regression problems and other tasks.这一策略最初应用于DQN算法(Mnih等人, 2015),随后演变为一种平滑化的DDPG更新机制(Lillicrap等人, 2015)。
5.4.3. Sample reuse: the replay buffer
由于它们基于值传播的方法 value propagation TD方法能够导致更多样本被重复利用 more samples are reused compared to standard regression techniques 但这一优势建立在需被存储在加速缓存中 replay buffer 的前提下 The replay buffer serves as a key component in modern actor-critic frameworks within deep reinforcement learning. 实际上 Actually 按照数据采集顺序进行训练不利于学习效果和稳定性 because the data is not independently and identically distributed (i.i.d.) not i.i.d. 为了提升系统的稳定性 人们提出了随机采样回放 random experience replay这一技术 这种方法不仅增强了数据利用效率而且还能通过优先采样高价值经验 prioritized experience replay进一步提升经验利用率 efficiency References Schaul et al. 2015
5.4.4. Adaptive step sizes and return lengths
现代机器学习库中的大部分现成SGD实现都采用了自适应学习率机制,在弥补了传统actor-critic方法如eNAC算法中的一个主要缺陷的同时实现了更好的性能表现。最近的研究则聚焦于通过引入n-step返回的概念来优化强化学习算法的成功因素之一。该方法通过在多个时间步骤中更新价值估计来平衡偏差与方差之间的关系。
5.5. Overview of deep RL algorithms
所有这些有利的特性都是几个增量深度RL算法的共同特征:DDPG(Lillicrap等,2015)、NAF(Gu等,2016b)、PPO(Schulman等,2017)、ACKTR(Wu等,2017)、SAC(Haarnoja等,2018)、TD3(Fujimoto等。2018)和D4PG(Barth-maron等人,2018)。如图2所示,最后一个D4PG 是贝叶斯优化强化学习(BORL)算法的一个实例,它源于BO,但属于第5节中描述的基于步骤 step-based category 的方法类别。这些算法源于将贝叶斯计算纳入深度RL框架的努力,对应的是该领域非常活跃的趋势。这些作品大多解决离散动作(Azizzadenesheli等,2018;Tang和Kucukelbir,2017),但D4PG是一个例外,它源于采用分布视角进行策略梯度计算,从而对梯度进行更准确的估计,并提高样本效率(Bellemare等,2017)。
最后,一些算法,如 ACER(Wang等,2016b)、Q-prop(Gu等,2016a)和 PGQL (O’Donoghue等,2016)结合了瞬时和持久批判方法的特性combine properties of transient and persistent critic methods,并被捕捉到了更一般的插值策略梯度Interpolated Policy Gradient (IPG) 框架中(Gu等,2017)。关于所有这些算法的更详细的描述,我们请读者参考相应的论文和最近的调查(Arulkumaran等,2017)。
5.6. Reference to the main algorithms

5.7. Sample efficiency analysis
Message 4: Being based on steps, deep RL methods are capable of obtaining more information from rollouts compared to episode-based methods. Additionally, employing a replay buffer enhances the reuse of samples.
信息4
6. Discussion
在前面章节中对以下方法进行了概述:
- 首先无需构建 utility 模型;
- 探讨新型 utility 创新方案:
a. 位于策略参数空间 \Theta 内部;
b. 覆盖任意结果空间 O 范畴;
c. 存在于状态-动作空间 X\times U 中。
本节将聚焦于这些方法样本效率特性的分析。
6.1. Building a model or not
我们已经描述了建立效用函数模型的策略搜索方法通常在样本效率方面优于不建立效用模型的方法。然而,在依赖SGD的情况下(Lehman等, 2017),这种方法对局部最优值的鲁棒性会有所降低。最近的研究表明(Salimans等, 2017;Petroski Such等, 2017;Zhang等, 2017),尽管不构建效用模型的方法在并行化能力方面具有显著优势,并能在不同梯度景观中进行有效区分,在最终性能表现上仍然具有竞争力。
6.2. Constructing a utility function model in the policy's parameter space in contrast to the state-action space.
有几个因素在状态-动作空间X\times U中有利于提高学习critic的样本效率:首先,在\Theta中的效用函数模型中无法实现的样本重用现象在X\times U中得以体现;其次,在\Theta中进行全局事件学习与分步学习相比,在每个步骤单独建模能更好地利用回溯信息;此外,在层次化结构下对效用函数进行建模能够从不同层次的中间表示中获益;最后,在较大空间中构建效用函数可能减少局部极小值的影响。这些因素表明在较大空间中构建效用函数比在较小空间中有更多的灵活性和潜力;然而这取决于具体的空间大小及其内在关系结构
此外,在状态-动作空间X\times U中的层次化结构特性使得对其效用函数进行建模能够从不同层次的中间表示中获益;这种特性为策略搜索问题提供了更高效的解决方案;通过使用大型神经网络作为策略表示方法深度强化学习领域内逐渐成为主流;这种方法不仅扩大了\Theta的空间规模而且赋予了其更强的表达能力;同时深度神经网络诱导出平滑的\Theta-X\times U空间关系也显著提升了模型性能
6.3. Transient versus persistent critic
看起来持久的批判者似乎比短暂的好having a persistent critic may seem better than a transient one, 三个原因.
首先,在每次迭代中无需重新计算批判者(critic),从而提升了计算效率.
其次,在立即更新政策后能够更快地生成更多高质量样本.
最后,在使用自 bootstrap 方法时能够更好地利用已有数据.
然而这些结论必须加以区分因为它们忽略了两个重要的因素.
6.3.1. Trading bias against variance
在 X \times U 空间中对策略效用 utility 进行评估时,则需面对偏差-变量折衷 bias-variance compromise(Kearns与Singh, 2000)。一方面, 蒙特卡洛抽样 Monte Carlo sampling 用于估算特定策略 utility 通常采用瞬时批判 transient critic 方法,然而此方法会面临方差随回合长度增长而扩大的问题 is subject to variance increasing with episode duration. 另一方面, 持久性批判 persistent critic 的增量更新能够减少方差 variance 但可能引入偏差 bias 导致潜在次优性甚至分歧 divergence. On the other hand, incrementally updating a persistent critic reduces variance but may introduce bias leading to potential suboptimality or even divergence. 而相比之下, 执行一步 bootstrap 更新 critics 比较于 N 步更新而言更为直接 N越大越接近蒙特卡洛估计因此调节 N 是实现偏差-变量折衷的有效手段 Instead of performing bootstrap updates of a critic over one step one can perform over N steps. The larger N becomes the closer it approximates Monte Carlo estimation thus tuning N serves as a means to control the bias-variance trade-off. For instance 瞟态critic TRPO 算法相较于行为critic 方法actor-critic methods 在样本效率上有所欠缺但能提供更为稳定的性能 superior performance(Duan等人, 2016)而其直接后继者 PPO 则采用N步回报机制从而实现了两派方法之间的良好平衡 resulting in a good compromise between both families(Schulman等人, 2017)。
6.3.2. Off-policy versus on-policy updates
在基于策略的方法(如Sarsa)中,在线策略中用于训练critic 的样本必须基于当前策略current policy生成;而在行为策略(如Q-learning)中,则允许样本来自其他策略。对于瞬时批判 transient critic 方法而言,在每次迭代结束后都会丢弃 samples from one iteration to the next所使用的样本;这些方法本质上属于在线策略范畴。相比之下,在持久性批判 persistent critic 方法中使用回放缓冲区 replay buffer则通常采用离线策略更新方式。这种区别与偏差-方差折衷 bias-variance trade-off直接相关:当采用持久性批判方法进行离线更新时,在提高算法效率的同时可能会引入偏差 bias;因此像DDPG 和 NAF 这类离线方法能够更好地利用回放缓冲区提升样本效率;但这也可能导致次优化问题以及更新分歧的问题but they are also more prone to sub-optimality and divergence.与之相比,在政策评估方面引入回放缓冲区的方法虽然提高了效率但也增加了复杂性additional metaparameters的需求.这些研究方向目前仍属前沿领域;尽管取得了显著进展但现有算法仍需面对较高的技术门槛
7. Conclusion
在本文中, 我们对比了策略搜索的不同类别, 从不基于效用函数的进化方法到能够直接在状态-动作空间中进行学习的深度RL方法。
根据(Stulp and Sigaud, 2013)的研究, 作者表明正朝着使用开环DMPs作为策略表示这一方向发展, 这种转变主要得益于非线性批判者的优势以及通过自适应步长优化等手段带来的改进。
随着深度RL方法的出现, 对这一观点的态度发生了变化 perspective shift.
根据(de Froissard de Broissia和Sigaud, 2016)及(Pourchot等人, 2018)的研究结果, 深度神经网络已被广泛采用作为大型问题的标准解决方案.
深度神经网络已经被证明是这些大型问题的标准解决方案.
然而,
尽管如此,
增量式深度RL方法仍然面临一定的不稳定性和敏感性 issues with stability and sensitivity.
参考文献[8]对此进行了详细讨论。
7.1. Future directions
在当前阶段,在该领域内提升性能、稳定性和样本效率已成为一项激烈的竞争焦点。我们简述未来研究方向。
7.1.1. More analyses than competitions
当前为止的研究领域的主要趋势集中体现在性能对比分析上(Duan等人, 2016; Islam等人, 2017; Henderson等人, 2017; Petroski Such等人, 2017),这表明尽管这些方法在样本效率方面表现欠佳,在无需构建效用模型的情况下,在纳尔能力评估方面仍具有一定的竞争力(Salimans等人, 2017; Chrbaszcz等人, 2018)。然而稳定性与样本效率之间的对比研究相对不足(Lehman等人, 2017; Zhang等人, 2017; Gangwani和Peng, 2017)。本文通过全面梳理领域现状,并揭示样本效率背后的关键因素之一以期成为这一领域的起始点,在更深入地探讨各种策略搜索方法的有效性方面迈出了第一步
7.1.2. More combinations than competitions
一项重要趋势表现为结合上述各类算法的方法的出现。如前所述,在第四节中已经指出过这样的观点:定向探索策略通常会与演化算法或深度强化学习技术相结合(Conti等人,2017;Colas等人, 2018)。另外一种新兴趋势是将演化算法或群体基底的方法与深度强化学习技术相结合(Jaderberg等人,2017;Khadka和Tumer,2018;Pourchot和Sigaud,2018),这种模式似乎能够集二者之优点于一身。我们相信,在这种组合方面仍处于起步阶段,并且该领域具有巨大的潜力
7.1.3. Beyond single policy improvement
我们排除了lifelong, continual and open-ended learning lifelong, continual and open-ended learning 在本次调查中的讨论范围。然而值得指出的是,政策改进速度的加快有助于同步解决几个关键领域的挑战(Yang和Hospedales, 2014)。就当前领域而言,该领域目前非常活跃,在包括多任务学习(Vezhnevets等, 2017; Veeriah等, 2018; Gangwani和Peng, 2018)、层次强化学习(Levy等, 2018; Nachum等, 2018)以及元强化学习(Wang等, 2016a)在内的多个方向上都取得显著成果。
基于此,我们暂不探讨state representation learning这一新兴议题(Jonschkowski和Brock, 2014;Raffin等人, 2016;Lesort等人, 2018)。这些新兴方法虽可能在未来带来深远影响。
7.2. Final word
本文提到策略搜索和深度RL领域的发展速度极快。因此,在我们之前的研究中指出,在这种情况下推测未来趋势存在风险,并且试图探讨当前趋势背后的关键因素可能会迅速过时;然而这正是该领域令人激动的原因所在
