CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
我们将Deep Q-Learning的成功思想迁移至连续行动领域,并在此基础上设计了一种新型的方法框架
我们的算法具备找到某些策略的能力;这些策略在性能上与那些完全接触领域动态及其导数并获得相应政策规划算法相媲美。我们进一步证明,在许多任务中,该算法可以通过端到端的方式学会采取行动;它可以直接从原始像素输入中获取信息。
1 INTRODUCTION
人工智能领域的核心目标之一是利用未经预处理的多维度 sensory数据来解决复杂任务。近年来,在深度学习领域的突破性进展(如Krizhevsky团队于2012年的AlexNet)与强化学习的有效结合下取得显著成果。这种结合发展出了"深度Q网络"(DQN)算法(由Mnih团队于2015年提出),该算法在多个依赖原始像素数据的传统Atari游戏中的表现令人瞩目。这促使研究者们转向使用深度神经网络作为函数逼近器来估计行动-价值函数。
尽管能够有效处理具有高维度观测的空间问题(即具备大量观测数据的空间),但基于Q学习的方法(DQN)仅限于处理离散且低维的动作空间(即有限数量的动作选择)。许多值得探索的任务中(尤其是那些涉及物理控制的任务),都存在具有连续实值和高维度的动作空间(即允许动作取连续实数值且维度较高的情况)。因为DQN算法依赖于通过迭代优化过程找到使行动价值函数最大化的动作,在连续值情况下这一过程变得复杂而难以直接应用。
将DQN等深度强化学习方法应用于连续领域的主要途径是采用简单的离散动作空间。然而这种做法存在明显的限制:随着自由度的增加动作数量以指数级速度上升。例如对于一个包含7个自由度(如人类手臂)的系统每个关节的动作空间被划分为三个离散值\{ -k,\, 0,\, k \}因此其动作空间维度为3^7=2187。
由于这些任务对动作精度有极高要求,在实际操作中往往面临更大的挑战。具体而言,在这类情况下必须采用更加细致的离散化方法才能满足需求。然而,这样的行动空间规模极大限制了探索效率,在这种情况下成功训练出类似DQN的网络架构可能是难以实现的。此外,这种简单的离散化方法却忽视了动作域内部的重要结构信息,而这类细节对于解决许多复杂问题可能是不可或缺的关键因素。
在本研究中,我们开发出一种无需模型和策略指导的actor-critic架构,并通过深度函数逼近器,在高维连续动作空间中训练策略。我们的研究源自确定性策略梯度(DPG)框架(Silver等人, 2014),这一方法与NFQCA方法(Hafner & Riedmiller, 2011)有着相似的基础思路。如Prokhorov等人的研究中可见类似的思路。然而,在下文中我们将展示出针对复杂问题情境时直接采用此类神经网络增强型actor-critic架构可能会导致不稳定的结果
在此处, 我们整合了actor-critic方法与Mnih等人提出的最近成功的人工智能深度Q网络(2013; 2015)的独特见解。在DQN提出之前, 研究者普遍认为利用大型非线性函数近似器来学习价值函数既具挑战性又存在不稳定风险。基于两项关键创新, DQN实现了这种函数近似器的有效稳定学习。具体而言, 网络采用经验回放缓冲区中的数据进行离策略训练, 以此最大限度降低样本间的相关性;同时, 网络通过目标Q网络提供一致性目标值来进行梯度更新。在此研究中, 我们继承了这一核心理念, 并结合了批归一化技术(Ioffe & Szegedy, 2015),这是现代深度学习体系中的重要进展
为了系统性地评估我们提出的方法,在机器人学领域是一项重要工作。为此,我们构建了一系列具有挑战性的物理控制问题,在这些测试案例中涉及复杂的多关节运动、系统的不稳定性以及丰富的接触动力学和多样化的步态行为。这些问题不仅包括经典的车杆摆动问题还包括许多新兴领域的探索。其中一项长期的技术挑战在于如何直接从原始感觉输入(如视频数据)中学习有效的动作策略。为此,在模拟器环境中我们将一个固定角度的摄像机固定在机器人上方并设计了相应的数据采集机制以实现这一目标
为了评估我们的方法的评估能力,我们设计了多个具有挑战性的物理控制场景,在这些场景中包含了复杂的多关节运动、动态不稳定性和多样化的接触力学特性以及丰富的步态行为特征。这些场景涵盖了传统的车杆摆动问题等经典案例,并延伸至新兴的研究领域。在机器人控制领域中一直存在的主要挑战是如何基于原始感觉输入(例如视频信号)有效学习动作策略。为此,在实验环境中我们采用了固定视角摄像头,并结合低维观察信息(如关节角度)以及直接从像素数据中提取动作方案的方法进行研究。
我们的无模型方法被称为深度DPG(Deep DPG)。该方法能够利用相同的超参数配置和网络架构,在较低维度的状态表示(如车轴坐标或关节角度)下为所有任务生成具有竞争力的策略。在实际应用中,我们同样能够基于像素信息自适应地生成有效的策略。
该方法的核心优势在于其极简主义架构:基于仅由一个基础性actor-critic架构和学习算法构成,并且其模块化设计的核心在于其极简主义架构。这一特性使其不仅易于实现而且具备良好的扩展性能力:能够自然扩展至更为复杂的问题以及更大规模的网络架构。在处理物理控制问题时:我们将其研究成果与其对应的基准模型(Tassa等人, 2012)计算所得进行了系统对比:该基准模型能够全面掌握底层动态及其变化趋势。值得注意的是:DDPG算法有时能够超越其性能水平:甚至在仅基于像素信息的学习场景下(因为规划器始终限于处理底层低维状态空间)。
2 BACKGROUND
我们探讨强化学习框架及其核心组件,在此设定下研究agents如何在离散时间步与环境中进行交互操作。具体而言,在时间段t时(time step t),agent会接收到一个状态观测x_t(state observation),执行一个动作a_t(action),并获得相应的奖励r_t(reward)。对于所有研究对象所涉及的环境而言(without loss of generality across all environments),其action空间属于实数域\mathbb R^N(where the action space is a subset of real numbers)。通常情况下(generally speaking),由于环境中可能存在一定程度的状态不完全可观测性(partial observability),因此必须依赖于完整的观测历史信息才能准确描述系统的状态 evolution. 在本研究中所做的是(In our specific scenario)假设所有状态都是完全可观测的(fully observable),因此当前的状态s_t = x_t.
agent的行为由策略π所决定,在这种策略下,系统会将每一个给定的状态映射到相应动作的概率分布上。环境E也可以是随机性的;为了全面建模这一过程,则将其构建为一个马尔科夫决策过程:它包含着状态空间S;具备行动空间ℝᴺ;遵循起始状态概率分布p(s₁);通过转移动态p(st+1|st,at)描述系统的演变;并根据奖励函数r(st,at)来进行反馈控制。
该状态下的回报被定义为其未来各时间步奖励值按折扣因子衰减后的累加和R_t=\sum_{i=t}^T γ^{(i-t)} r(s_i,a_i)其中折扣因子γ取值范围为[0,1]需要注意的是这些回报不仅取决于当前动作还与所采用的具体策略π相关并且可能呈现出随机性性质。强化学习的核心目标即在于通过寻求最优策略来最大化初始状态下的期望总奖励J=E[R_1]其中期望计算基于从环境中采样得到的行为轨迹以及遵循当前策略生成的状态-动作对序列。在此框架下我们采用ρ^π来表示受政策π指导下的折扣状态访问概率分布
许多强化学习算法主要运用行动价值方法。该方法在状态s_t下采取动作a后会获得预期总奖励,并基于策略π进行决策:

强化学习中的许多方法利用了被称为贝尔曼方程的递归关系

如果目标策略是确定性的,则该策略可被视为由状态空间到动作空间的确定性映射,并避免内部期望

Expectation solely depends on the environment. This implies that learning Q^µ off-policy is feasible by leveraging transitions derived from an alternative stochastic behavior policy β.
以Watkins与Dayan(1992)命名的Q-learning算法是一种典型的离线策略算法。该算法基于状态-动作价值函数Q(s,a)展开,在每一步中均采用贪婪策略\mu(s) = \arg\max_a Q(s,a)进行决策。在实际应用中,我们通常需要借助某种形式的函数近似技术来处理复杂度较高的状态空间问题。具体而言,在本研究中我们将基于参数\theta^Q构建的函数近似器代入到该模型中,并通过最小化损失函数来优化该模型的参数设置。

虽然y_t也依赖于θ^Q,但这通常被忽略了。
过去通常避免采用大型非线性函数作为价值或行为价值的近似工具来学习复杂控制任务。这一做法之所以受到限制,主要是由于从理论上无法确保这种近似的稳定性和有效性,并且实际训练过程往往表现出高度不稳定性。然而,在DeepMind等研究机构的努力下(如Mnih等人于2013年和2015年分别提出),Q-learning算法得到了显著改进。这些改进使得基于深度神经网络的大规模强化学习成为可能,并能够以期望的效果帮助 agents 学习完成复杂任务。主要增加了两个关键组件:一个是经验回放缓冲区(Replay Buffer),另一个是单独的目标网络用于计算 y_t 的值估计。在本节中将详细阐述这些改进方案的具体实现细节,并将其应用于 Deep Deterministic Policy Gradient (DDPG) 框架中。
Furthermore, we introduce a separate target network to calculate y_t. Within the framework of DDPG, these methods are implemented, and their detailed implementation will be explained in the following section.
3 ALGORITH
直接采用Q-learning方法应用于连续行动空间是不可行的;因为在这种情况下寻求最佳策略需持续进行优化操作。这种方法过于缓慢,在面对大型复杂任务以及复杂的非线性行动空间时会显得力不从心。相比之下,在本研究中我们采用了基于Deep Policy Gradient(DPG)算法(Silver等人2014)的方法进行演员与评论者角色之间的协同训练
