论文介绍
在大规模多智能体系统中,智能体数量多,博弈关系复杂,给策略学习带来很大难度。因此,简化学习过程是一个重要的研究课题。在许多多智能体系统中,智能体之间的交互往往发生在本地,这意味着智能体既不需要与所有其他智能体协调,也不需要一直与其他智能体协调。传统方法试图使用预定义的规则来捕获代理之间的交互关系。然而,由于难以将代理之间的复杂交互转化为规则,这些方法不能直接用于大规模环境。
在本文中,我们通过一个完整的图对代理之间的关系进行建模,并提出了一种基于两阶段注意网络(G2ANet)的新型游戏抽象机制,该机制可以指示两个代理之间是否存在交互以及交互的重要性。我们将这种检测机制集成到基于图神经网络的多代理强化学习中以进行游戏抽象,并提出了两种新颖的学习算法GA-Comm和GA-AC。我们在Traffic Junction和Predator-Prey进行实验。结果表明,与最先进的算法相比,所提出的方法可以简化学习过程,同时获得更好的渐近性能。
论文地址
https://arxiv.org/abs/1911.10715
论文下载
https://arxiv.org/pdf/1911.10715.pdf