必读论文|20篇强化学习研究必读论文速递
强化学习属于机器学习领域中的一类方法。
它侧重于根据所处环境采取相应的行动策略。
强化学习的目标是以实现最大的预期利益为基础进行优化设计和研究。
其灵感源自心理学中的行为主义理论。
有机体通过受到奖励或惩罚刺激逐渐形成了对这些刺激的预期,并发展出习惯性地追求最大利益的行为模式。
本期Aminer特推出20篇强化学习必读论文。
1. ** Emergent Tool Use From Multi-Agent Autocurricula**
链接:https://www.aminer.cn/pub/5e5e18bb93d709897ce2b772/emergent-tool-use-from-multi-agent-autocurricula
作者:B. Baker, I. Kanitscheider, T. Markov, Wu Y., G. Powell, B. McGrew, I. Mordatch
本文的前六位作者来自Open AI, 第七位作者来自Google Brain. OpenAI是游戏开发领域内应用机器学习技术的主要力量之一. 本文展示了游戏AI的一个演示案例, 在该案例中, 该人工智能系统通过参与捉迷藏游戏来发展出一套能够自我优化的胜利策略. 通过采用隐式课程的学习机制, 在一个具有互动性和竞争性的环境中, 各个智能体之间能够不断发现新的任务, 并由此持续积累新的策略知识.
Highly Efficient Off-Policy Meta-Reinforcement Learning Using Probabilistic Context Variables
该论文由伯克利人工智能研究实验室(BAIR)发布于2019年ICML会议。其主要贡献在于提出了一种新的视角以解决元学习领域中各任务采样效率低的问题。该研究采用task encoding方法旨在解决两方面的问题:一是从前人经验中获取新任务的有效信息;二是更准确地评估新任务的不确定性。此研究借鉴POMDP探索思路将task inference与learning过程分离。这种分离有助于提升元学习算法在样本利用方面的表现。
3. ** Guided Meta-Policy Search**
该论文由Russell Mendonca, Abhishek Gupta([https://www.aminer.cn/profile/abhishek-gupta/562d52f045cedb3398dc5658])、Rosen Kralev,Pieter Abbeel、以及Sergey Levine与Chelsea Finn共同撰写
现有的元强化学习方法在元训练阶段确实面临较大的数据需求挑战,在大多数场景中都难以满足现有计算资源的技术限制。本研究深入探讨了在元学习过程中(即外循环的学习过程)如何通过有监督的模仿学习机制提供指导信息,并结合内循环强化学习的优势,在不依赖额外假设的情况下实现了高效的自监督训练框架。引入人类提供的示范案例将有助于提升训练效率,在稀疏奖励条件下显著改善优化效果。通过范例辅助训练能够在元优化过程中提高搜索效率,并在此基础上实现更好的收敛效果
4. ** Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning**
该研究团队开发了一种创新的方法,在强化学习领域展示了显著的性能提升效果。具体而言,在他们的实验结果中表明,在处理复杂决策过程时能够显著减少计算开销的同时还能保证系统的稳定性表现。
为了更深入地探讨折现系数不同取值及其对优化过程的影响,本研究开发了一组专门用于评估不同影响因素的实验框架。现有理论认为,低折扣因子表现欠佳的现象源于(过小)行动差异数值导致,这一理论观点已需重新评估。研究发现,状态空间内行动差距规模的变化是主要原因所在,为此我们提出了一种新的优化策略,以期为近似的强化学习方法提供更低折扣因子的支持。
5. ** Distributional Reinforcement Learning for Efficient Exploration**
链接:https://www.aminer.cn/pub/5cf48a29da56291d5828a61c/distributional-reinforcement-learning-for-efficient-exploration
作者:Mr. Borislav Mavrin, Dr. Shangtong Zhang, Ms. Hengshuai Yao, Mr. Linglong Kong, Mr. Kaiwen Wu, Dr. Yaoliang Yu
在分布式的强化学习框架下分析可知,价值函数估计器所具有的分布特性既包含参数化形式也存在内生性不确定性.本研究主要聚焦于两大模块构建新型强化学习算法.首先,我们采用递减权重机制以减少内在不确定性的影响.其次,我们通过计算上分位数奖励来优化奖励分配策略.实验结果表明,在Atari 2600平台上测试发现,在所评估的方法中占据优势的是14种策略中的12种.
Methods for Combining Tree Search Algorithms in Reinforcement Learning Techniques
链接:https://www.aminer.cn/pub/5bdc31b417c44a1f58a0b3ae/how-to-combine-tree-search-methods-in-reinforcement-learning
作者:Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor
本文的研究者分别来自Technion Israel Institute of Technology和CNRS。他们在2019年的AAAI会议上获得了最佳论文奖。有限时域前瞻策略(Finite-horizon lookahead policies)被广泛应用于强化学习领域,并展现了显著的效果。传统的实现通常采用特定的规划方法,在AlphaZero中常使用蒙特卡罗树搜索(例如)。其中一种合理的方法是将规划问题视为树状结构,在叶子节点存储值信息,在根节点获取的信息不用于更新策略。本文质疑该方法的有效性。具体而言,在后续过程中通常不具备收缩性质,并不能保证收敛性。本文提出了一种改进方法:通过记录最佳树路径的结果值来更新根节点的所有子节点。
7. ** Better Exploration with Optimistic Actor Critic**
该研究论文探讨了基于乐观型演员评估器(Optimistic Actor Critic)的更深入探索方法。该研究由Kamil Ciosek、Quan Vuong、Robert Loftin以及Katja Hofmann共同撰写完成。
本文提出了一种对actor-critic算法的改进方案。这种属于无模型强化学习的一种方法,并被应用于解决连续控制任务的问题。然而由于其在样本利用方面的不足[1] ,该方法难以广泛应用[2] 。文章将这一缺陷总结为两个主要现象:一是过度依赖估计导致的不充分探索问题[3] ,即由于贪婪actor更新来源于一个过虑(欠估计)critic评估而导致agent无法充分探索那些它并不了解的动作情况;二是动作采样范围受限的问题[4] ,即总是以相同的可能性在与当前平均值左右相反的方向上进行采样操作[5] ,这种做法会导致资源浪费并降低效率[6] 。针对这些问题的文章提出了一个新算法称为OAC(Optimistic Actor-Critic),该方法通过构建高置信区间和低置信区间来分别估计state-action的价值函数[7] 。其中高置信区间的策略能够显著提升策略梯度算法中的抽样效率[8] ,同时在保证计算资源使用效率的前提下几乎不增加额外计算负担[9] 。实验结果表明,在面对具有挑战性的连续控制任务时该新算法表现出色[10] 。
Policy Validation Tools: Focusing on Accountable Reinforce Learning
链接:https://www.aminer.cn/pub/5d9edbfa47c8f7664602e444/policy-certificates-towards-accountable-reinforcement-learning
作者:Christoph Dann, Lihong Li, Wei Wei, Emma Brunskill
当前强化学习算法缺乏在运行前提供关于其当前策略质量的具体信息,在本研究中我们开发出了一种方法来生成策略证书旨在解决这一问题,并为此提供了一种方法使得人类能够在认证结果不达标时进行干预
9. ** Rainbow: Combining Improvements in Deep Reinforcement Learning**
该研究由一组知名学者共同完成:Matteo Hessel博士及其合著者包括Joseph Modayil(其个人页面为https://www.aminer.cn/profile/joseph-modayil/...)、Hado van Hasselt等学者
本篇论文的主要观点在于通过整合深度Q-Networks算法的改进方法形成一个多功能网络系统,并命名为Rainbow。
Deep reinforcement learning within a handful of trials employing probabilistic dynamics models (https://www.aminer.cn/pub/5b3d98cc17c44a510f801cad/deep-reinforcement-learning-in-a-handful-of-trials-using-probabilistic-dynamics-models)_
该论文由Kurtland Chua、Roberto Calandra、Rowan McAllister以及Sergey Levine四位作者共同撰写,并在《aminer》平台的公开页面上进行了详细介绍:https://www.aminer.cn(pub/5b3d98cc17c44a510f801cad)/deep-reinforcement-learning-in-a-handful-of-trials-using-probabilistic-dynamics-models
本文系统研究基于 model 的方法中采用何种技术及其实现途径。
11. ** Model-Ensemble Trust-Region Policy Optimization**
该网页链接为高质量论文索引服务AmiNer上的文章索引页面
原文
改写后
第12章 基于样本高效强化学习:一种基于随机集成值展开的方法
链接:https://www.aminer.cn/pub/5b67b4b417c44aac1c86732c/sample-efficient-reinforcement-learning-with-stochastic-ensemble-value-expansion
作者包括Jacob Buckman、Danijar Hafner以及George Tucker等
13. ** Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning**
链接:https://www.aminer.cn/pub/5aed14e217c44a4438159a90/model-based-value-estimation-for-efficient-model-free-reinforcement-learning
作者:Vladimir Feinberg, Alvin Wan, Ion Stoica, Michael I. Jordan, Joseph E. Gonzalez, Sergey Levine
The role of Social Influence in Establishing Intrinsic Motivation within the Context of Multi-Agent Deep Reinforcement Learning
链接:https://www.aminer.cn/pub/5ce2d1a8ced107d4c64518ba/social-influence-as-intrinsic-motivation-for-multi-agent-deep-reinforcement-learning
作者:Natasha Jaques, Angeliki Lazaridou, Edward Hughes, Caglar Gulcehre, Pedro A. Ortega, Dj Strouse, Joel Z. Leibo, Nando de Freitas
[Acquiring eye-hand coordination for robotic grasping tasks through deep learning techniques and utilizing large-scale datasets for training]
Link: https://www.aminer.cn/pub/5d9edb5b47c8f76646015f57/learning-hand-eye-coordination-for-robotic-grasping-with-deep-learning-and-large
Authors: Sergey Levine, Peter Pastor, Alex Krizhevsky, Julian Ibarz, Deirdre Quillen
16. ** Noisy Networks For Exploration**
该研究论文可通过以下链接访问:https://www.aminer.cn/pub/5d9edc8c47c8f76646044397/noisy-networks-for-exploration
17. ** Neural Architecture Search with Reinforcement Learning**
作者:Brett Zoph, V Quoc
18. ** A Distributional Perspective on Reinforcement Learning**
该文章的详细信息如下:
文章标题为《从分布视角审视强化学习》,发布于https://www.aminer.cn
文章作者包括 Marc G. Bellemare先生、The Will Dabney先生以及Rémi Munos先生
本文的作者为Tim Salimans博士、Jianyang Ho博士、Xu Chen教授以及Ilya Sutskever博士等知名学者
20. ** Value Prediction Network**
链接
相关推荐:
[精选] 最新推荐:新冠相关学术研究综述](https://www.aminer.cn/research_report/5eaab021ab6e30e67b2c96a4)
您可参考以下内容:必读论文 | 精选知识图谱领域的权威文献十篇
[重要文献 | 十篇精选认知图谱研究文献]
