DDMA: Discrepancy-Driven Multi-Agent Reinforcement Learning

发布:2022-12-13 10:51:52
阅读:705
作者:李超、胡裕靖、田品卓、董绍康、高阳
分享:复制链接

论文介绍

多代理强化学习算法依赖于与环境和其他代理的交互数量来导出近似最优的策略。然而,这些算法可能在代理之间复杂的交互关系中挣扎,并且倾向于漫无目的地探索整个观察空间,从而导致高学习复杂度。受大多数现实场景中多个代理之间偶尔和本地交互的启发,在本文中,我们提出了一个名为差异驱动多代理强化学习(DDMA)的通用框架,以帮助克服这一限制。

在该框架中,我们首先解析每个代理的观察的语义组件,并引入增殖网络,以使用相应的单代理最优策略直接初始化多代理策略,这绕过了不同场景中观察空间的错位。然后,我们基于这两种策略之间的差异对代理之间的偶尔交互进行建模,并对代理频繁交互的这些领域进行更为集中的探索。通过直接初始化和集中的多代理策略学习,我们的框架可以帮助加速学习过程并显著提高渐进性能。通过一个简单示例和几个经典基准测试的实验结果表明,与基线方法相比,我们的框架可以获得更好的性能。

论文地址

https://link.springer.com/chapter/10.1007/978-3-031-20868-3_7

扫码进群
微信群
免费体验AI服务