CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
我们成功地将Deep Q-Learning的核心思想迁移至连续动作领域,并在此基础上设计了一种基于确定性策略梯度的Actor-Critic模型。该模型采用Model-Free方法,在连续动作空间中实现了相同的训练框架与架构配置,并通过相同的训练算法、网络结构与超参数达到了对包括但不限于车杆摆动、灵巧操作、腿部运动以及汽车驾驶等在内的20多个模拟物理任务的成功解决
该算法有能力识别一系列策略,在其性能上与那些能够在领域动态及其导数方面获得完全接触并取得相应政策的规划算法相媲美。此外,在许多任务中表明该系统能够实现全链路自动生成,并直接从原始像素数据中提取有效的知识。
1 INTRODUCTION
人工智能领域的核心目标之一是通过未经处理的高维感官数据来解决复杂任务。近年来,在将深度学习技术的进步(Krizhevsky等人)与强化学习相结合的基础上取得了显著进展。该研究开发出了“深度Q网络”(DQN)算法(Mnih等人),其显著成果在于能够在许多基于未经过处理像素输入的经典Atari游戏中实现接近人类水平的表现。为此研究重点围绕如何利用深度神经网络函数近似器来评估行动-价值函数这一核心问题展开
但是,在处理高维观测空间的同时局限性在于只能处理离散且低维度的动作空间。许多有趣的任务尤其是物理控制任务都具备连续实值与高维度的动作空间。DQN不适合直接应用于连续领域因为它基于寻求使行动价值函数最大的行为在连续值的情况下这需要每一步都要进行迭代优化过程。
一种将DQN等深度强化学习方法应用于连续领域的明显方法是采用离散动作空间。然而这种方法存在诸多限制问题其中最为显著的是维度灾难现象即随着自由度增加行动数量呈指数级上升趋势例如考虑一个具有七个自由度的系统类似于人类的手臂每个关节的动作范围被划分为三个可能值−k、0和+k这种划分导致整个系统的动作空间规模为3^7等于2187个不同的动作选项
由于这类任务对动作精度的要求极高,在执行时会遇到前所未有的挑战。具体来说,在这种情况下实施类似于DQN算法的学习机制不仅面临着复杂度急剧上升的问题...
在本研究中,我们开发了一种无模型、非策略性的actor-critic算法,基于深度函数逼近器的能力,能够在高维连续动作空间中有效处理复杂的策略学习问题.该方法与确定性政策梯度(DPG)算法(Silver等人,2014)具有相似性,其核心思想可追溯至NFQCA(Hafner & Riedmiller,2011).然而,正如本文后续内容将展示的那样,当面临复杂任务时,直接采用该actor-critic架构可能会导致不稳定的结果.
在此基础上
为了评估我们提出的方法, 我们设计了一系列复杂且具挑战性的物理控制问题, 包含了涵盖复杂多关节运动、动态不稳定性以及丰富的接触动力学特性, 并结合多样化的步态行为特征。这些设计基准涵盖了经典的基准案例, 如车杆摆动问题, 同时也扩展到了许多新兴研究领域。其中一项长期的技术难题在于从原始感觉输入(如视频 feeds)中直接学习动作策略。为此, 我们在模拟环境中设置了固定视野摄像头, 并探索基于低维观察信息(如关节角度数据)与直接从图像数据提取动作方案相结合的方法
为了验证我们的方法的有效性, 我们设计了一系列复杂且具有挑战性的物理控制问题, 这些问题涵盖了多关节运动、动态不稳定性以及丰富的接触动力学和步态行为, 并且还包含了许多新兴领域. 在这些测试环境中, 机器人控制中的一个长期难题是如何直接从视觉数据(如视频序列)中学习精确的动作策略. 因此, 在模拟器中设置了固定角度的摄像头, 并尝试通过仅使用低维观察数据(如关节角度)来模仿人类专家的动作轨迹, 同时结合直接从像素数据中提取动作特征的方法来提升机器人在复杂环境中的适应能力
我们的无模型方法被称为深度DPG(缩写:Deep DPG)。它同样采用相同的超参数配置及网络架构。基于低维观测数据(例如车轴坐标或关节角度测量),该方法能够有效生成适用于所有任务的有竞争力策略。在实际应用中发现,在某些场景下仅利用像素信息即可训练出性能优异的策略。
该方法的核心优势在于其简洁性:它仅依赖于一个简单的actor-critic架构以及学习算法,并且只包含很少数量的组件(即 'moving parts'),因此使得其实现过程相对简便,并且能够扩展至更为复杂的问题以及更大的网络体系。针对涉及物理控制的问题,在本研究中将我们所获得的结果与其 baselines(Tassa 等人, 2012)计算所得进行了对比分析。值得注意的是, DDPG算法有时能够在性能上超越这些 baselines,尤其是在仅基于像素数据的学习过程中,因为 baselines 通常会在低维状态空间中运行以完成规划任务
2 BACKGROUND
我们研究一种典型的强化学习框架,在其中agent通过离散时间步骤与环境E进行交互。对于每个时间步t,在这个过程中agent会感知到观测值xₜ并选择行为aₜ,并获得奖励rₜ。针对所有这些情况来说(actions)都属于实数域内的向量aₜ∈ℝᴺ(此处使用了数学符号)。通常情况下...可能会综合考虑过去的所有信息以构建完整的状态描述sₜ= (x₁,a₁,…,aₜ₋₁,xₜ)来进行建模)。在这个特定的研究场景下...我们假设系统具有完全可访问的状态信息因此状态变量sₜ等同于当前观测值xₜ即sₜ=x₅
agent的行为由策略π所决定;该策略将每个状态映射到行动的概率分布函数p(a|s),其中s∈S, a∈A;环境E可能引入随机性;我们将将其建模为一个马尔科夫决策过程M=(S,A,α,p,r),其中S是状态空间、A是动作空间、α是初始状态分布、p是转移动力学、r是奖励函数。
一个状态的状态回报被视为未来各步奖励按折扣因子衰减后的总和R_t = \sum_{i=t}^T \gamma^{(i-t)} r(s_i,a_i)。其中折扣因子\gamma属于区间[0,\ 1]。请注意的是,在这里我们关注的是依赖于所选择动作的状态回报情况,并且由于这些动作的选择遵循当前策略\pi而具有一定的随机性。强化学习的核心目标是通过调整策略来最大化初始状态下的期望总回报J = E[r_i,s_i\sim E,\ a_i\sim\pi][R_1]。为了更清晰地描述这一概念,在此我们将遵循标准术语并定义策略\pi下的折扣状态访问分布\rho^\pi = \rho^\pi(\cdot)。
许多强化学习算法采用了价值函数。该价值函数代表了在状态s_t时采取某动作所带来的期望回报,在此基础上,算法根据策略π进行决策

强化学习中的许多方法利用了被称为贝尔曼方程的递归关系

当目标策略π是确定型的时侯,我们可将之表示为函数µ:S←A,并无需计算内部期望值。

The expected value of an agent's return is determined by the environment alone. This indicates that off-policy learning of QµQ^µ can be achieved in the off-policy manner, using samples generated from a different stochastic behavior policy β.
我们采用了基于参数θQθ^Q的函数近似方法,并通过最小化损失函数来进行优化以提高预测精度。该方法作为一种广为采用的离线策略算法,在强化学习领域具有重要应用价值。

虽然yty_t也依赖于θQθ^Q,但这通常被忽略了。
过去通常会避免利用大型非线性函数近似器来学习价值或行为价值函数这是因为理论层面的性能保障难以实现而且实际的学习过程往往不够稳定。近年来(Mnih及其团队)对Q-learning算法进行了改进并成功地将大型神经网络用作函数近似器他们的方法能够从像素数据中训练出玩Atari游戏的能力。为了扩大这一方法的应用范围并引入两种关键改进措施一种是使用回放缓冲区存储经验数据另一种则是采用单独的目标网络来进行预测我们将在本节的基础上介绍这些技术的具体实现
