Explicitly Coordinated Policy Iteration

发布:2022-12-02 10:06:59
阅读:1035
作者:胡裕靖、陈赢峰、范长杰、郝建业
分享:复制链接

论文介绍

由于过度泛化和不协调等问题,在完全合作的随机博弈中协调独立学习者之间的最优策略是困难的。大多数先进的算法都对智能体应用融合启发式算法,通过这种算法可以隐式地实现智能体之间的协调。

然而,这种隐式协调面临实际问题:例如现实世界应用中繁琐的参数调整;缺乏明确的协调机制也可能导致在具有多个最优策略的问题中协调的可能性较低。

基于最优策略的必要条件,我们提出了显式协调策略迭代(EXCEL)算法,并为EXCEL的深度强化学习扩展提出了三种解决方案。通过矩阵游戏和随机游戏的大量实验表明EXCEL比当下最先进的算法具有更快的收敛和更好的协调。

论文地址

https://www.ijcai.org/proceedings/2019/51

论文下载

https://www.ijcai.org/proceedings/2019/0051.pdf

扫码进群
微信群
免费体验AI服务