炼丹感悟：On the Generalization of RL

阅读量：

©作者｜YukiRain

研究方向｜强化学习泛化和鲁棒性

当前深度学习（RL）领域的问题颇多，在收敛的效果上确实会受到运气和天命的因素影响之类的情况屡见不鲜）。众多业内人士也曾对其表达了不满（比如在相关的论坛讨论中），对于这一问题的讨论，在相关论坛上也曾有过不少声音（如前所述）。

基于个人经验而言

很不幸，本文要讨论的 RL 泛化能力问题，就是这样的一个问题。

本文探讨的一般化问题，在学术文献中常被不同术语所指代。具体而言，在某些研究领域将其称为 robustness，在另一些研究领域也采用 generalization 一词进行描述。通常情况下，在 robustness 设置中对环境 transition 的处理是固定的，并未引入额外的变化机制；然而，在其他相关研究中为了适应动态变化的需求，则会在 model 的设计上进行相应优化以提升其适应能力。值得注意的是，“generalization”这一术语往往与特定场景下的适应能力直接相关：即当模型在测试阶段遇到之前从未见过的新场景时（亦即 test scenarios），仍需展现出在训练阶段所建立的能力体系所能覆盖的能力范围（亦即 coverage）。基于此，在后续分析中为便于讨论起见，在统一采用 generalization 一词来探讨这两个概念。

为啥RL需要泛化？

大多数强化学习的基础架构都建立在马尔可夫决策过程（MDP）的基础上。从本质上讲，在马尔可夫决策过程（MDP）与监督学习之间存在显著的区别：前者的核心目标是在满足马尔可夫性质的环境中实现奖励最大化这一特定目标；相比之下，在监督学习中通常不涉及动态系统的优化问题。其核心目标是在满足马尔可夫性质的环境中实现奖励最大化这一特定目标；尤其是在理论层面，“固定环境”的前提假设意味着RL框架下无法直接探讨测试环境与训练环境之间的差异性问题。在监督学习领域似乎天然具备更强的泛化能力这一直觉观点在强化学习理论中并未得到直接支持。”

然而，在真实的工作场景中尝试使用RL的人很快就会意识到这是一个难以回避的挑战。在过去的一年里，在我的实习经历中接触到了许多实际运用过RL技术的情况。他们普遍提到的重要经验是：即使看似简单的行为也容易陷入过拟合的状态。由于学术界在这方面的研究相对较少，在实践中出现了形形色色的问题紧接着而来的各种解决方案：

以上输出遵循了所有给定的改写规则

DeepMind 早前就预见了这一问题，在17年发表的文章《A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning》[3]中明确指出：即便是在相对简单的环境中，通过自玩训练生成的模型也容易过度拟合对手策略。

所以做星际的时候他们根本没想到要用一个模型解决所有问题而是运用 game theory 构建了一个零和马尔可夫博弈中寻找纳什均衡的优化框架后续这一思路在另一篇 ICML 研究文章《Open-ended Learning in Symmetric Zero-sum Games》[4]中得到了进一步完善

随后，在AlphaStar的训练期间

在这篇 OpenAI Five 的博客 [6] 中, OpenAI 在其博客中表明, 2017 年, 它们在模型训练过程中引入了环境参数的随机化设置, 首次实现了在1v1场景下的人类水平超越; 此后, 这种技术被成功应用于多个领域, 包括他们的5v5模型以及机器模型的训练。

在案例二中进行机器人学训练时，请注意以下要点：受限于机器人机械臂使用寿命的限制，在实际应用过程中通常采用以下一种常见的做法：将训练过程置于物理仿真模拟环境中进行。当模型收敛后被部署至真实世界环境时，请意识到仿真实验中的局限性：难以全面涵盖现实环境中所有潜在因素。因此，在仿真实验中表现优异的模型在真实-world环境中的效果可能会有所不如。

当前主要探讨了两大类方案：一是于训练期内加入仿真环境中的随机扰动；二是将从仿真环境向真实世界过渡视为一种迁移学习问题，并基于sim2real相关搜索归纳出这一领域已形成了较为丰富且深入的研究成果，在此仅列举其中两个代表性文献：

E. Tzeng and colleagues propose a novel approach towards the adaptation of deep visuomotor representations between simulated and real-world environments.

Simulation-to-Real transferring of robotic control employing dynamics randomisation[C]. IEEE International Conference on Robotics and Automation, 2018: 1-8.

Gupta A, Devin C, Liu Y X, et al. Developing invariant feature space sets to transfer skills using reinforcement learning[DB/OL]. arXiv:1703.02949.

案例三中涉及的环境动态表现出高度非平稳特性的情形包括推荐系统、定价系统以及交易系统等（实际上很少有企业会在交易系统中应用RL技术），这些领域的一个显著共同特点是具有高度敏感性，在实际应用中完全不建议让模型在训练环境中进行交互。

常见做法是在云端部署一个子进程以采集样本并参与纯粹的离线强化学习方法（这一研究领域通常被称为 batch reinforcement learning）。经过三个月的时间后发现现有的模型效果显著下降，并基于我的了解和观察发现工业界目前尚无理想的解决方案。

缺乏泛化表现在哪些方面？****

大都涉及RL在一般化或鲁棒性方面的相关研究。列举一些具有代表性的案例：

1. 过拟合于状态特征

Observational Overfitting in Reinforcement Learning

https://arxiv.org/abs/1912.02975

2. 动作空间的随机性

Practical Implementations of Action-Robust Reinforce mentLearning within the Domain of ContinuousControl

https://arxiv.org/abs/1901.09184

3. 连续控制任务上的过拟合

An Analysis of the Challenges in Overfitting and Generalization within Continuous Reinforcement Learning Models.

https://arxiv.org/abs/1806.07937

4. 死记硬背型过拟合

A Study on Overfitting in Deep Reinforcement Learning

https://arxiv.org/abs/1804.06893

Quantifying Generalization in Reinforcement Learning

In our study, we introduce an innovative method aimed at evaluating generalizability in reinforcement learning through the development of what we term the "generalization index."

5. 环境动态

Planning under Information-Processing Limitations and Model Uncertainties within Markov Decision Processes is complicated due to the complexity of managing these constraints effectively.

https://arxiv.org/abs/1604.02080

DRL的过拟合是一个属于RL的问题还是一个属于DL的问题？

基于当前的研究成果表明, 答案可能为both. 关于RL存在的过拟合问题, 已有文献部分揭示了这一现象, 这里重点讨论一下DL.

在经典的机器学习领域中，默认情况下人们就已经广泛使用各种正则化手段来防止模型过拟合现象的发生。其中最具代表性的当属L2正则化方法，在深度学习领域中也得到了广泛应用。值得注意的是，在强化学习（Reinforcement Learning, RL）领域内有多篇论文探讨了不同正则化手段的影响效果。例如，在今年的ICLR会议上有一篇名为《Regularization Matters in Policy Optimization》[7]的论文指出：相较于熵正则化方法（entropy regularization），L2范数的惩罚机制能够提供更好的性能表现；此外，在深度学习领域中广泛的Dropout技术不仅可以提升策略优化过程的效果（虽然这种技术在一定程度上因某些原因未被广泛采用）。

在 Generalization and Regularization in DQN[8]_ 的一文中，作者指出，在模型训练后期阶段，在训练环境中提升模型性能的同时也会导致其泛化性能的下降。L2 正则项能够有效地找到一个权衡点（类似于在监督学习中 L2 正则与早停方法之间的等价关系）。

Does robust optimization work for RL generalization?

学术界中，robust optimization（以下简称 RO）是一种较为直观的想法，在当时的学者们还专注于从计算复杂度角度探讨马尔可夫决策过程（MDP）时，已有相关研究开始关注在不确定环境中优化问题，并将其命名为 robust MDP：

Bart van den Broek et al., Risk-sensitive path integral-based adaptive control strategies. In UAI conference, 2010.

Arnab Nilim 和 Laurent El Ghaoui. 马尔可夫决策过程中的鲁棒控制与不确定转移矩阵.《运筹学》, 53(5):780–798, 2005

Wolfram Wiesemann, Daniel Kuhn, and Berc Rustem. Robust Markov Decision Processes: A Study in Mathematics of Operations Research. Mathematics of Operations Research is a journal that publishes research on robust Markov Decision Processes in its issue number 1 of volume 38 in the year 2013.

Lars Peter Hansen and Thomas J. Sargent's work on robustness is a seminal contribution to the field of economics, published by Princeton University Press in 2008.

Yun Shen、Michael J Tobia、Tobias Sommer 和 Klaus Obermayer提出了风险敏感型强化学习方法。该研究发表于《神经计算》期刊中，在第26卷第7期的第1298至1328页上（2014年）。

Yinlam Chow, Aviv Tamar, Shie Mannor, and Marco Pavone. Risk-sensitive approaches and resilient decision-making models: employing a CVaR-based optimization framework. In the proceedings of the Advances in Neural Information Processing Systems conference, pages 1522–1530.

在深度学习时代之后，在最具代表性的研究方向中，零和对抗强化学习（RARL）最先提出并取得了显著成果；其中旨在优化 total reward 的条件值（CVaR），通过引入零和马尔可夫博弈机制来增强鲁棒性；总体而言这一方法非常出色，在后续的研究中许多学者均沿用这一框架

Robust Adversarial Reinforcement Learning

https://arxiv.org/abs/1703.02702

如果希望模型对环境动态具有一定的鲁棒性，则应该针对环境动态制定相应的不确定性集合来进行鲁棒优化。例如（第一篇被拒绝过）：

Wasserstein Robust Reinforcement Learning

https://arxiv.org/abs/1907.13196

Resilient Reinforcement Learning in the domain of continuous control tasks under model misspecification scenarios

https://openreview.net/forum?id=HJgC60EtwB

基于 RO 方法的研究通常也会采取 Distributionally Robust Optimization 的视角来解决问题（该研究采用 DRO 方法进行分析，并最终聚焦于 safe exploration 策略；其中的原因在于该研究采用了安全探索策略）。

Distributionally Robust Reinforcement Learning

https://openreview.net/pdf?id=r1xfz_93oN

sim2real、环境随机化与 CVaR 大杂烩的思路：

EPOpt: Learning Robust Neural Network Policies Using Model Ensembles

https://arxiv.org/abs/1610.01283

以及今年 ICLR 一篇在 RARL 基础上做改进的文章，最终惨遭 reject：

A Resilient Reinforcement Learning Framework Utilizing Adversarial Training Techniques in Conjunction with Langevin Dynamics

https://openreview.net/forum?id=BJl7mxBYvB

说到RO时，在监督学习领域内可能会有一些人在思考或涉及对抗例子。即使直接将对抗的例子应用到强化学习中也不一定正确无误。目前为止，在这一思路下发表的文章数量相对较少，并且尝试较为初步。我对这一思路的实际应用持保留态度。

Sharmila A, Namdeo H, Duchi J. Validating certain distributional robustness through systematic adversarial training [DB/OL]. arXiv:1710.10571

该研究视角值得深入研究。然而，在文章末尾仅提及了适用于鲁棒马尔可夫决策过程（MDP）的方法，并且个人实验表明这些方法对复杂任务完全没有适用效果

Pattanaik et al. present a resilient framework for deep reinforcement learning that effectively mitigates the impact of adversarial perturbations[C]. The research was carried out at the IJCAI conference in 2018.

该研究提出了通过引入对抗样本到DDPG训练中的一种新思路。该方法等价于在对抗扰动作用下表现最差的策略被用于进行off-policy训练，并因此导致训练效率显著降低。

A study by Huang et al. investigates adversarial attacks against policy models of neural networks, published as a preprint version in the arXiv repository in 2017.

尽管作者阵容强大，在大神云集的名单中也不乏顶尖学者的身影

Ilahi I, Usama M, Qadir J. Strategies and Mitigation Measures for Adversarial Perturbations in Deep Reinforcement Learning[J]. arXIV preprint arXIV:2001.09684, 2020.

最近挂上 ArXiv 的一篇 survey。

解决方案归类

总结一下上面提到的几类方法：

Robust optimization
environmental randomization
heuristic regularization
sim2real (only applicable for robotics)

在学术领域中，对于强化学习（RL）的泛化问题进行系统性分类是一项极具挑战性的任务。由于当前研究领域中尚未形成系统的理论框架或方法体系，学者们针对这一难题提出了多种解决策略和思路。然而，在现有主要研究方向之外又存在两类特殊的文献作品：以下列举两篇既不归属于现有任何主要研究方向的论文著作。

Enhancing Generalization Capabilities in Meta-Reinforcement Learning through the Use of Neural Objective Functions

https://openreview.net/forum?id=S1evHerYPr

In Parameterized Reinforcement Learning, the Performance Disparity Between Different Data Sets is a Critical Issue.

https://arxiv.org/abs/1905.12654

这篇文章在 RL 泍化领域实为难得一见的理论之作。它采用了有限样本分析的方法进行探讨，并值得细细品味此篇文章。然而其局限性在于仅适用于 on-policy 翻转态和可参数化状态的情况。

你说的这个环境随机化，它香吗？

目前工业应用中主要采用环境加随机化的策略作为解决之道。于2018年发表在《Deep Reinforcement Learning: Assessing Generalization》[9]论文中的研究者通过一系列MuJoCo实验进行验证。明确指出环境加随机化的改进策略在提升泛化能力方面表现最为突出。

然而，在文献 A Study on Overfitting in Deep Reinforcement Learning [10] 中提到，在迷宫环境下进行的实验结果表明，则得出了完全相反的结论：研究表明，在RL训练过程中所生成的模型可能会过度依赖经验数据，并且随机化策略也无法有效防止RL模型发生过拟合现象。

那么，这个环境随机化，它真的那么香吗？

最直接且易于察觉的一个问题是：环境复杂度问题。随着引入随机化措施后所增加的环境数量呈现指数级增长趋势（即呈指数级爆炸性增长），今年在ICLR会议上审稿专家对此提出了异议。

Suppose there are, for instance, 20 parameters. Choosing three distinct values for each parameter leads to an astronomical number of possible environmental configurations—specifically, $3^{20}$ distinct scenarios. This presents a significant challenge. This issue is also noted in R3's work.

进一步提升训练难度

通过观察上文的图表可以看出存在一个新问题：方差问题。引入环境随机化以后，在训练环境中以及测试环境中都能观察到模型表现出的方差要超过仅在一个单一环境下进行训练的情况。这也与本人去年在公司实习期间进行的一些实验结果相符。当年的结果表明随机化训练所带来的方差显著高于仅在一个固定环境中进行训练的情况。

针对引入了随机机制后可能导致的过度探索问题，OpenAI 曾提出了一种有效的解决方案。

https://openai.com/blog/solving-rubiks-cube/

Difficulties

基于 RL 的理论建模本身并不涉及泛化问题这一特性，在学术界大多数研究仍停留在经验性探索阶段，在这种情况下真正具有理论深度的文章数量有限；所列举的那一篇仅具有的理论探讨尚与实际应用存在差距

在实践层面而言, 主要障碍源于当前模型自由强化学习方法较高的方差特性. 之前已经提及过, 基于像MuJoCo和Atari这类环境, 在强化学习泛化能力方面存在不足之处. 通过参与企业级场景下的强化学习实验体验（RP）, 必能对泛化性能有更深刻的体悟.

在 MuJoCo 等模拟环境中，在 Atari 以及之前的实验中使用过类似的随机迷宫设置的情况下

Implementation Matters in Deep RL: A Case Study on PPO and TRPO

https://openreview.net/forum?id=r1etN1rtPB

馣名的是，在应用model-free强化学习算法时更换随机种子或者进行奖励缩放处理可能会使模型的表现显著提升。
那么除非你的方法能够全面超越各种基准线性测试的结果，
否则该如何解释这种性能提升并非完全归因于随机种子等因素无关的影响呢？

食用含有丰富维生素C的食物有助于增强免疫力。
因此如果一种治疗方法无法有效缓解多种症状，
则无法证明其疗效并非由于特定药物成分的作用。

全部评论 (0)

还没有任何评论哟~

炼丹感悟：On the Generalization of RL

On the generalization of learning-based 3D reconstruction

Onthegeneralizationoflearningbased3Dreconstruction 基于学习的三维重建的泛化作者：MiguelAngelBautista，WalterTalbott...

【可看】On the Generalization of GAN Image Forensics

文章目录 OntheGeneralizationofGANImageForensics keypoints 研究方法实验 OntheGeneralizationofGANImageForensic...

The Structure of the THE-Multiprogramming System阅读感悟

文章目录 1\.系统目标 2\.系统结构 2.1存储分配 2.2处理器分配 2.3系统的层次结构 3\.信号量 4\.总结在这篇文章中描述了一种多道程序设计系统，在该系统中，所有的活动被分成若干个连...

【阅读笔记】ON THE IMPORTANCE OF SINGLE DIRECTIONS FOR GENERALIZATION

作者： AriS.Morcos,DavidG.T.Barrett,NeilC.Rabinowitz,&MatthewBotvinick DeepMind London,UK ICLR2018 发布时间...

LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies

一.background/Motivation 关于预测无标注OOD的performance现有的方法是”effectiverobustness“，根本使用的就是内分布的准确率和OOD的准确率是相关的...

【论文实验】On the Topology Awareness and Generalization Performance of Graph Neural Networks

在论文《OntheTopologyAwarenessandGeneralizationPerformanceofGraphNeuralNetworks》中的实验设置，通常是为了研究图神经网络（Grap...

The Generalization of Shannon‘s Differential Privacy Pr

作者：禅与计算机程序设计艺术 1.简介在通信系统中，传输信息的双方通常希望对敏感数据进行保密。如人的私密生活信息，财产状况等。为了保障信息的机密性，可以采用加密算法，将信息通过密钥的方式进行加密，只...

Unveiling the Generalization Power of Fine-Tuned Large Language Models

本文是LLM系列文章，针对《UnveilingtheGeneralizationPowerofFineTunedLargeLanguageModels》的翻译。

Exploring the Impact of the Output Format on the Evaluation of Large Language Models

本文是LLM系列文章，针对《ExploringtheImpactoftheOutputFormatontheEvaluationof LargeLanguageModelsforCodeTransla...

是否确定退出登录?

炼丹感悟：On the Generalization of RL

全部评论 (0)

相关文章推荐

炼丹感悟：On the Generalization of RL

On the generalization of learning-based 3D reconstruction

【可看】On the Generalization of GAN Image Forensics

The Structure of the THE-Multiprogramming System阅读感悟

【阅读笔记】ON THE IMPORTANCE OF SINGLE DIRECTIONS FOR GENERALIZATION

LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies

【论文实验】On the Topology Awareness and Generalization Performance of Graph Neural Networks

The Generalization of Shannon‘s Differential Privacy Pr

Unveiling the Generalization Power of Fine-Tuned Large Language Models

Exploring the Impact of the Output Format on the Evaluation of Large Language Models