论文介绍
在多代理域中,应对不时改变行为的非固定代理是一个具有挑战性的问题,其中代理通常需要能够在在线交互期间快速检测其他代理的策略,然后相应地调整自己的策略。本文研究了在马尔可夫博弈中与非固定代理对战时有效的策略检测和重用技术。我们通过使用神经网络作为价值函数逼近器扩展最近的BPR+算法,提出了一种新的深度BPR+算法。
为了准确地检测策略,我们提出了利用对手模型从奖励信号及其行为推断其他代理的策略的纠正信念模型。我们不是直接将单个策略存储为BPR+,而是引入distilled policy network作为BPR+中的策略库,利用策略蒸馏实现高效的在线策略学习和复用。Deep BPR+继承了 BPR+ 的所有优点,并且在具有原始视觉输入的复杂马尔可夫博弈中,与现有算法相比,在检测精度、累积奖励和收敛速度方面表现出更好的性能。
论文链接
https://proceedings.neurips.cc/paper/2018/hash/85422afb467e9456013a2a51d4dff702-Abstract.html
论文下载
https://proceedings.neurips.cc/paper/2018/file/85422afb467e9456013a2a51d4dff702-Paper.pdf