Individual Reward Assisted Multi-Agent Reinforcement Learning

发布:2022-12-13 10:43:05
阅读:891
作者:王丽、张玉鹏、胡裕靖、王维埙、张崇洁、高阳、郝建业、吕唐杰、范长杰
分享:复制链接

论文介绍

在许多现实世界中的多代理系统中,团队奖励的稀疏性通常使得算法很难成功地学习合作团队策略。目前,解决这一问题的常见方法是为代理设计一些密集的个人奖励,以指导合作。然而,大多数现有作品利用个人奖励的方式并不总是促进团队合作,有时甚至适得其反。

在本文中,我们提出了Individual Reward Assisted Team Policy Learning(IRAT),它从密集的个人奖励和稀疏的团队奖励中学习每个代理的两个策略并具有差异约束,以相互更新这两个策略。在不同场景(如Multi-Agent Particle Environment和Google Research Football Environment)中的实验结果表明,IRAT显著优于基线方法,可以在不偏离原始团队目标的情况下极大地促进团队策略学习,即使个人奖励具有误导性或与团队奖励冲突。

论文地址

https://proceedings.mlr.press/v162/wang22ao.html

扫码进群
微信群
免费体验AI服务