炼丹感悟:On the Generalization of RL

©作者|YukiRain
研究方向|强化学习泛化和鲁棒性
当前深度学习(RL)领域的问题颇多,在收敛的效果上确实会受到运气和天命的因素影响之类的情况屡见不鲜)。众多业内人士也曾对其表达了不满(比如在相关的论坛讨论中),对于这一问题的讨论,在相关论坛上也曾有过不少声音(如前所述)。
基于个人经验而言
很不幸,本文要讨论的 RL 泛化能力问题,就是这样的一个问题。

本文探讨的一般化问题,在学术文献中常被不同术语所指代。具体而言,在某些研究领域将其称为 robustness,在另一些研究领域也采用 generalization 一词进行描述。通常情况下,在 robustness 设置中对环境 transition 的处理是固定的,并未引入额外的变化机制;然而,在其他相关研究中为了适应动态变化的需求,则会在 model 的设计上进行相应优化以提升其适应能力。值得注意的是,“generalization”这一术语往往与特定场景下的适应能力直接相关:即当模型在测试阶段遇到之前从未见过的新场景时(亦即 test scenarios),仍需展现出在训练阶段所建立的能力体系所能覆盖的能力范围(亦即 coverage)。基于此,在后续分析中为便于讨论起见,在统一采用 generalization 一词来探讨这两个概念。
为啥RL需要泛化?
大多数强化学习的基础架构都建立在马尔可夫决策过程(MDP)的基础上。从本质上讲,在马尔可夫决策过程(MDP)与监督学习之间存在显著的区别:前者的核心目标是在满足马尔可夫性质的环境中实现奖励最大化这一特定目标;相比之下,在监督学习中通常不涉及动态系统的优化问题。其核心目标是在满足马尔可夫性质的环境中实现奖励最大化这一特定目标;尤其是在理论层面,“固定环境”的前提假设意味着RL框架下无法直接探讨测试环境与训练环境之间的差异性问题。在监督学习领域似乎天然具备更强的泛化能力这一直觉观点在强化学习理论中并未得到直接支持。”
然而,在真实的工作场景中尝试使用RL的人很快就会意识到这是一个难以回避的挑战。在过去的一年里,在我的实习经历中接触到了许多实际运用过RL技术的情况。他们普遍提到的重要经验是:即使看似简单的行为也容易陷入过拟合的状态。由于学术界在这方面的研究相对较少,在实践中出现了形形色色的问题紧接着而来的各种解决方案:
以上输出遵循了所有给定的改写规则
DeepMind 早前就预见了这一问题,在17年发表的文章《A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning》[3]中明确指出:即便是在相对简单的环境中,通过自玩训练生成的模型也容易过度拟合对手策略。
所以做星际的时候他们根本没想到要用一个模型解决所有问题 而是运用 game theory 构建了一个零和马尔可夫博弈中寻找纳什均衡的优化框架 后续这一思路在另一篇 ICML 研究文章《Open-ended Learning in Symmetric Zero-sum Games》[4]中得到了进一步完善
随后,在AlphaStar的训练期间
在这篇 OpenAI Five 的博客 [6] 中, OpenAI 在其博客中表明, 2017 年, 它们在模型训练过程中引入了环境参数的随机化设置, 首次实现了在1v1场景下的人类水平超越; 此后, 这种技术被成功应用于多个领域, 包括他们的5v5模型以及机器模型的训练。
在案例二中进行机器人学训练时,请注意以下要点:受限于机器人机械臂使用寿命的限制,在实际应用过程中通常采用以下一种常见的做法:将训练过程置于物理仿真模拟环境中进行。当模型收敛后被部署至真实世界环境时,请意识到仿真实验中的局限性:难以全面涵盖现实环境中所有潜在因素。因此,在仿真实验中表现优异的模型在真实-world环境中的效果可能会有所不如。
当前主要探讨了两大类方案:一是于训练期内加入仿真环境中的随机扰动;二是将从仿真环境向真实世界过渡视为一种迁移学习问题,并基于sim2real相关搜索归纳出这一领域已形成了较为丰富且深入的研究成果,在此仅列举其中两个代表性文献:
E. Tzeng and colleagues propose a novel approach towards the adaptation of deep visuomotor representations between simulated and real-world environments.
Simulation-to-Real transferring of robotic control employing dynamics randomisation[C]. IEEE International Conference on Robotics and Automation, 2018: 1-8.
Gupta A, Devin C, Liu Y X, et al. Developing invariant feature space sets to transfer skills using reinforcement learning[DB/OL]. arXiv:1703.02949.
案例三中涉及的环境动态表现出高度非平稳特性的情形包括推荐系统、定价系统以及交易系统等(实际上很少有企业会在交易系统中应用RL技术),这些领域的一个显著共同特点是具有高度敏感性,在实际应用中完全不建议让模型在训练环境中进行交互。
常见做法是在云端部署一个子进程以采集样本并参与纯粹的离线强化学习方法(这一研究领域通常被称为 batch reinforcement learning)。经过三个月的时间后发现现有的模型效果显著下降,并基于我的了解和观察发现工业界目前尚无理想的解决方案。
缺乏泛化表现在哪些方面?****
大都涉及RL在一般化或鲁棒性方面的相关研究。列举一些具有代表性的案例:
1. 过拟合于状态特征
Observational Overfitting in Reinforcement Learning
https://arxiv.org/abs/1912.02975
2. 动作空间的随机性
Practical Implementations of Action-Robust Reinforce mentLearning within the Domain of ContinuousControl
https://arxiv.org/abs/1901.09184
3. 连续控制任务上的过拟合
An Analysis of the Challenges in Overfitting and Generalization within Continuous Reinforcement Learning Models.
https://arxiv.org/abs/1806.07937
4. 死记硬背型过拟合
A Study on Overfitting in Deep Reinforcement Learning
https://arxiv.org/abs/1804.06893
Quantifying Generalization in Reinforcement Learning
In our study, we introduce an innovative method aimed at evaluating generalizability in reinforcement learning through the development of what we term the "generalization index."
5. 环境动态
Planning under Information-Processing Limitations and Model Uncertainties within Markov Decision Processes is complicated due to the complexity of managing these constraints effectively.
https://arxiv.org/abs/1604.02080
DRL的过拟合是一个属于RL的问题还是一个属于DL的问题?
基于当前的研究成果表明, 答案可能为both. 关于RL存在的过拟合问题, 已有文献部分揭示了这一现象, 这里重点讨论一下DL.
在经典的机器学习领域中,默认情况下人们就已经广泛使用各种正则化手段来防止模型过拟合现象的发生。其中最具代表性的当属L2正则化方法,在深度学习领域中也得到了广泛应用。值得注意的是,在强化学习(Reinforcement Learning, RL)领域内有多篇论文探讨了不同正则化手段的影响效果。例如,在今年的ICLR会议上有一篇名为《Regularization Matters in Policy Optimization》[7]的论文指出:相较于熵正则化方法(entropy regularization),L2范数的惩罚机制能够提供更好的性能表现;此外,在深度学习领域中广泛的Dropout技术不仅可以提升策略优化过程的效果(虽然这种技术在一定程度上因某些原因未被广泛采用)。
在 Generalization and Regularization in DQN[8]_ 的一文中,作者指出,在模型训练后期阶段,在训练环境中提升模型性能的同时也会导致其泛化性能的下降。L2 正则项能够有效地找到一个权衡点(类似于在监督学习中 L2 正则与早停方法之间的等价关系)。
Does robust optimization work for RL generalization?
学术界中,robust optimization(以下简称 RO)是一种较为直观的想法,在当时的学者们还专注于从计算复杂度角度探讨马尔可夫决策过程(MDP)时,已有相关研究开始关注在不确定环境中优化问题,并将其命名为 robust MDP:
Bart van den Broek et al., Risk-sensitive path integral-based adaptive control strategies. In UAI conference, 2010.
Arnab Nilim 和 Laurent El Ghaoui. 马尔可夫决策过程中的鲁棒控制与不确定转移矩阵.《运筹学》, 53(5):780–798, 2005
Wolfram Wiesemann, Daniel Kuhn, and Berc Rustem. Robust Markov Decision Processes: A Study in Mathematics of Operations Research. Mathematics of Operations Research is a journal that publishes research on robust Markov Decision Processes in its issue number 1 of volume 38 in the year 2013.
Lars Peter Hansen and Thomas J. Sargent's work on robustness is a seminal contribution to the field of economics, published by Princeton University Press in 2008.
Yun Shen、Michael J Tobia、Tobias Sommer 和 Klaus Obermayer提出了风险敏感型强化学习方法。该研究发表于《神经计算》期刊中,在第26卷第7期的第1298至1328页上(2014年)。
Yinlam Chow, Aviv Tamar, Shie Mannor, and Marco Pavone. Risk-sensitive approaches and resilient decision-making models: employing a CVaR-based optimization framework. In the proceedings of the Advances in Neural Information Processing Systems conference, pages 1522–1530.
在深度学习时代之后,在最具代表性的研究方向中,零和对抗强化学习(RARL)最先提出并取得了显著成果;其中旨在优化 total reward 的条件值(CVaR),通过引入零和马尔可夫博弈机制来增强鲁棒性;总体而言这一方法非常出色,在后续的研究中许多学者均沿用这一框架
Robust Adversarial Reinforcement Learning
https://arxiv.org/abs/1703.02702
如果希望模型对环境动态具有一定的鲁棒性,则应该针对环境动态制定相应的不确定性集合来进行鲁棒优化。例如(第一篇被拒绝过):
Wasserstein Robust Reinforcement Learning
https://arxiv.org/abs/1907.13196
Resilient Reinforcement Learning in the domain of continuous control tasks under model misspecification scenarios
https://openreview.net/forum?id=HJgC60EtwB
基于 RO 方法的研究通常也会采取 Distributionally Robust Optimization 的视角来解决问题(该研究采用 DRO 方法进行分析,并最终聚焦于 safe exploration 策略;其中的原因在于该研究采用了安全探索策略)。
Distributionally Robust Reinforcement Learning
https://openreview.net/pdf?id=r1xfz_93oN
sim2real、环境随机化与 CVaR 大杂烩的思路:
EPOpt: Learning Robust Neural Network Policies Using Model Ensembles
https://arxiv.org/abs/1610.01283
以及今年 ICLR 一篇在 RARL 基础上做改进的文章,最终惨遭 reject:
A Resilient Reinforcement Learning Framework Utilizing Adversarial Training Techniques in Conjunction with Langevin Dynamics
https://openreview.net/forum?id=BJl7mxBYvB
说到RO时,在监督学习领域内可能会有一些人在思考或涉及对抗例子。即使直接将对抗的例子应用到强化学习中也不一定正确无误。目前为止,在这一思路下发表的文章数量相对较少,并且尝试较为初步。我对这一思路的实际应用持保留态度。
Sharmila A, Namdeo H, Duchi J. Validating certain distributional robustness through systematic adversarial training [DB/OL]. arXiv:1710.10571
该研究视角值得深入研究。然而,在文章末尾仅提及了适用于鲁棒马尔可夫决策过程(MDP)的方法,并且个人实验表明这些方法对复杂任务完全没有适用效果
Pattanaik et al. present a resilient framework for deep reinforcement learning that effectively mitigates the impact of adversarial perturbations[C]. The research was carried out at the IJCAI conference in 2018.
该研究提出了通过引入对抗样本到DDPG训练中的一种新思路。该方法等价于在对抗扰动作用下表现最差的策略被用于进行off-policy训练,并因此导致训练效率显著降低。
A study by Huang et al. investigates adversarial attacks against policy models of neural networks, published as a preprint version in the arXiv repository in 2017.
尽管作者阵容强大,在大神云集的名单中也不乏顶尖学者的身影
Ilahi I, Usama M, Qadir J. Strategies and Mitigation Measures for Adversarial Perturbations in Deep Reinforcement Learning[J]. arXIV preprint arXIV:2001.09684, 2020.
最近挂上 ArXiv 的一篇 survey。
解决方案归类
总结一下上面提到的几类方法:
-
Robust optimization
-
environmental randomization
-
heuristic regularization
-
sim2real (only applicable for robotics)
在学术领域中,对于强化学习(RL)的泛化问题进行系统性分类是一项极具挑战性的任务。由于当前研究领域中尚未形成系统的理论框架或方法体系,学者们针对这一难题提出了多种解决策略和思路。然而,在现有主要研究方向之外又存在两类特殊的文献作品:以下列举两篇既不归属于现有任何主要研究方向的论文著作。
Enhancing Generalization Capabilities in Meta-Reinforcement Learning through the Use of Neural Objective Functions
https://openreview.net/forum?id=S1evHerYPr
In Parameterized Reinforcement Learning, the Performance Disparity Between Different Data Sets is a Critical Issue.
https://arxiv.org/abs/1905.12654
这篇文章在 RL 泍化领域实为难得一见的理论之作。它采用了有限样本分析的方法进行探讨,并值得细细品味此篇文章。然而其局限性在于仅适用于 on-policy 翻转态和可参数化状态的情况。
你说的这个环境随机化,它香吗?
目前工业应用中主要采用环境加随机化的策略作为解决之道。于2018年发表在《Deep Reinforcement Learning: Assessing Generalization》[9]论文中的研究者通过一系列MuJoCo实验进行验证。明确指出环境加随机化的改进策略在提升泛化能力方面表现最为突出。
然而,在文献 A Study on Overfitting in Deep Reinforcement Learning [10] 中提到,在迷宫环境下进行的实验结果表明,则得出了完全相反的结论:研究表明,在RL训练过程中所生成的模型可能会过度依赖经验数据,并且随机化策略也无法有效防止RL模型发生过拟合现象。
那么,这个环境随机化,它真的那么香吗?
最直接且易于察觉的一个问题是:环境复杂度问题。随着引入随机化措施后所增加的环境数量呈现指数级增长趋势(即呈指数级爆炸性增长),今年在ICLR会议上审稿专家对此提出了异议。
Suppose there are, for instance, 20 parameters. Choosing three distinct values for each parameter leads to an astronomical number of possible environmental configurations—specifically, 3^{20} distinct scenarios. This presents a significant challenge. This issue is also noted in R3's work.
进一步提升训练难度

通过观察上文的图表可以看出存在一个新问题:方差问题。引入环境随机化以后,在训练环境中以及测试环境中都能观察到模型表现出的方差要超过仅在一个单一环境下进行训练的情况。这也与本人去年在公司实习期间进行的一些实验结果相符。当年的结果表明随机化训练所带来的方差显著高于仅在一个固定环境中进行训练的情况。
针对引入了随机机制后可能导致的过度探索问题,OpenAI 曾提出了一种有效的解决方案。
https://openai.com/blog/solving-rubiks-cube/
Difficulties
基于 RL 的理论建模本身并不涉及泛化问题这一特性,在学术界大多数研究仍停留在经验性探索阶段,在这种情况下真正具有理论深度的文章数量有限;所列举的那一篇仅具有的理论探讨尚与实际应用存在差距
在实践层面而言, 主要障碍源于当前模型自由强化学习方法较高的方差特性. 之前已经提及过, 基于像MuJoCo和Atari这类环境, 在强化学习泛化能力方面存在不足之处. 通过参与企业级场景下的强化学习实验体验(RP), 必能对泛化性能有更深刻的体悟.
在 MuJoCo 等模拟环境中,在 Atari 以及之前的实验中使用过类似的随机迷宫设置的情况下
Implementation Matters in Deep RL: A Case Study on PPO and TRPO
https://openreview.net/forum?id=r1etN1rtPB
馣名的是,在应用model-free强化学习算法时更换随机种子或者进行奖励缩放处理可能会使模型的表现显著提升。
那么除非你的方法能够全面超越各种基准线性测试的结果,
否则该如何解释这种性能提升并非完全归因于随机种子等因素无关的影响呢?
食用含有丰富维生素C的食物有助于增强免疫力。
因此如果一种治疗方法无法有效缓解多种症状,
则无法证明其疗效并非由于特定药物成分的作用。
相关链接
[1] https://www.zhihu.com/question/369263409/answer/995669697
[2] https://github.com/openai/multiagent-particle-envs
[3] https://arxiv.org/pdf/1711.00832.pdf
[4] http://proceedings.mlr.press/v97/balduzzi19a/balduzzi19a.pdf
[5] https://arxiv.org/pdf/1711.09846.pdf
[6] https://openai.com/blog/openai-five/
[7] https://openreview.net/forum?id=B1lqDertwr
[8] https://arxiv.org/pdf/1810.00123.pdf
[9] https://arxiv.org/pdf/1810.12282.pdf
[10] https://arxiv.org/pdf/1804.06893.pdf

查看以下标题:往期内容回顾
从傅里叶分析视角解析深度学习的泛化性能
1
**

****#**投 稿 通 道#
让你的论文被更多人看到
怎样才能使多样化的优质内容通过更便捷的路径抵达读者群体?这将降低获取优质内容的难度。关键在于:那些不相识的人。
总有一些人你并不了解,
却了解你想了解的内容。
PaperWeekly或许是这样的一种纽带,
它能够促进来自不同背景与研究领域的专家们与思想间的互动交流,
从而激发更多的创新可能性。
PaperWeekly 提供了一个开放平台,欢迎高校实验室团队或个人研究者,在此平台上分享高质量的学习资源。这些资源包括但不限于深入解析近期发表的核心论文(最新论文解读)、个人学习感悟(学习心得)以及前沿技术要点解析(技术干货) 等。我们的宗旨始终是一致的:致力于促进学术知识的传播与交流。
???? 来稿标准:
稿件经确认为个人原创作品 ,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)。
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在**「知乎」** 也能找到我们了
进入知乎首页搜索**「PaperWeekly」**
点击**「关注」** 订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个介绍人工智能前沿论文成果的平台,在该领域研究或工作的学者均可关注。如果您致力于人工智能领域,请您关注我们的公众号并在后台点击「交流群」以加入我们的专业讨论群组。

▽ 点击 | 阅读原文 | 查看作者专栏
