[基础论文阅读]Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
[基础论文阅读]MAADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
论文核心:MADDPG算法
文章链接:https://proceedings.neurips.cc/paper/2017/file/68a9750337a418a86fe06c1991a1d64c-Paper.pdf
文章来源:NeurIPS 2017
参考了知乎答主:https://zhuanlan.zhihu.com/p/436281028
摘要
MADDPG是基于actor-critic的多智能体强化学习算法,采用CTDE框架。既可以应用于包含通信信道的协作场景,也可以应用于智能体之间只存在物理交互的竞争性场景中。文章还引入了一种训练方案,该方案利用针对每个智能体的一组策略,从而产生更强大的多智能体策略。
研究点:研究协作或协作竞争混合场景下的MADRL算法
场景设定:部分可观、完全协作(共用同一奖励)/竞争(目标相互冲突)
训练方法:集中训练、分布式执行
学习到的是连续策略(文章说)
简介
多智能体的应用有: multi-robot control, the discovery of communication and language, multiplayer games, the analysis of social dilemmas, 或者分层强化学习中的多个分层可以视为多智能体。
MADDPG基于actor-critic的简单扩展,其中 critic 增加了有关其他智能体策略的额外信息,而 actor 只能访问本地信息。 训练完成后,在执行阶段只使用local actor以分散的方式行动。
MADDPG的优势:①在执行时仅使用本地信息(即他们自己的观察)的学习策略,②不假设环境或智能体之间通信方法的任何特定结构,③不仅适用于合作交互,而且适用于涉及物理和通信行为的竞争或混合交互。
由于centralized critic明确地使用了其他智能体的策略,我们表明智能体可以在线学习其他智能体的近似模型,并在自己的策略学习过程中有效地使用。 通过使用一组策略训练智能体来提高多智能体策略的稳定性,因此需要与各种合作者和竞争者的策略进行稳健的交互。
MADDPG需要对其他智能体的决策过程进行显式建模。通过要求智能体与其他智能体的任何可能策略的集合成功交互,从而提高训练稳定性和训练后后智能体的稳健性。
背景

论文原文自带PG DPG DDPG的简要讲解,所以这里不详述。
Method
multi-agent actor-critic



其中Q_i^\pi(x,a_1,...,a_N)是一个centralized action-value function,输入为所有智能体的动作和某些状态信息x,输出为 智能体i的Q value。最简单的情况下x=(o_1,...,O_N),也可以加入其他信息。

experience replay buffer D内包含元组


在MAPPDG中有一个想法,就是如果我们知道了所有智能体采取的所有行动,那么就算是策略变化了,环境也是平稳的。
inferring Policies of other Agents
公式6需要知道其他智能体的策略和观察,在可以通信的条件下,这些信息可以被其他智能体轻易得到,但是在非通信条件下存在困难。为了消除需要其他智能体知道策略的假设,每一个智能体i有一个对于智能体j真实策略\mu_j的预测\hat{\mu}_{\phi_i^j},可以简写为\hat{\mu}_i^j。这个近似策略通过最大化智能体j的动作的概率log和正则化项得到:

H是策略分布的熵,采用近似策略的情况下,公式6的y可以用\hat{y}代替:

公式7完全可以通过online的方式得到,即在更新Q_i^\mu之前,从replay buffer中得到智能体j的最新采样,梯度更新\phi_i^j。将每一个智能体的动作log probability直接输入到Q,而不是采样。
Agents with Policy Ensembles
MARL的很大一个挑战就是环境的不平稳性,这在竞争的场景中尤为突出,智能体可能会过度拟合对手的行为得到一个好的策略,但是这种策略容易对手行为的转变的影响,十分脆弱。为了获得对对手的策略变化更加鲁棒的多智能体策略,文章提出了训练一组k个不同的sub-policies。在每一个回个,随机执行一个sub-policy。

实验
实验部分采用了particle环境,考虑了cooperative 和competitive 两种情况,场景设置十分丰富。
总结
MADDPG适用于连续动作空间,基于actor-critic,适用于CTDE,适用于合作和竞争还有mix环境,可以用于多智能体通信,MADDPG中每一个智能体都学习一个actor网络和Q网络,每一个Q都考虑到了其他智能体的动作。

模型存在的缺陷:Q网络的输入空间随着智能体数目线性增加,无法扩展到大规模智能体系统中。
