论文介绍
游戏场景中很多问题可都以建模为多智能体系统,因此多智能体深度强化学习(MARL)已成为一个非常活跃的研究领域。一类特别有趣且广泛适用的问题可以被抽象为部分可观察的合作式多智能体环境,在这种环境中,一组智能体根据自己的局部观察和共享的全局奖励信号来学习协调其行为。
一种自然的解决方案是求助于集中式训练、分布式执行范式。在集中式训练期间,一项关键挑战是多智能体信度分配:如何为单个智能体的策略分配属于它自身的贡献,从而更好地协调以最大化全局奖励。
在本文中,伏羲实验室和天津大学的研究人员提出了一种称为Q值路径分解(QPD)的新方法,可以将系统的全局Q值分解为单个智能体的Q值。和以前的工作限制单个Q值和全局Q值的表示关系不同,我们将累积梯度归因技术运用到深度MARL中,沿着轨迹路径直接分解全局Q值来为智能体进行信度分配。我们在具有挑战性的《星际争霸 II》微观管理任务上评估了QPD,表明其与现有的MARL算法相比,QPD在同质和异质的多智能体场景中均达到了先进的性能。
论文地址
https://arxiv.org/abs/2002.03950
论文下载
https://arxiv.org/abs/2002.03950