论文介绍
许多现实世界中的问题,如机器人控制和足球比赛,自然被建模为稀疏交互的多智能体系统。在具有稀疏交互的多代理系统中重用单代理知识可以大大加快多代理学习过程。先前的工作依赖于互模拟度量来定义马尔可夫决策过程(MDP)相似性以控制知识转移。然而,互模拟度量计算成本高,不适用于高维状态空间问题。
在这项工作中,我们基于一个新的MDP相似性概念,提出了更具可扩展性的转移学习方法。我们首先基于MDP的N步返回(NSR)值定义MDP相似性。然后,我们提出了两种基于深度神经网络的知识转移方法,即直接价值函数转移和基于NSR的价值函数转移。经过实验,结果表明,所提出的方法可以显著加速多agent强化学习,同时获得更好的渐近性能。
论文地址
https://dl.acm.org/doi/abs/10.5555/3367032.3367098
论文下载
https://www.ijcai.org/proceedings/2019/0065.pdf