论文介绍
深度强化学习 (DRL) 已被应用于解决具有离散动作空间或连续动作空间的各种协作多代理问题。然而,据我们所知,以前的工作从未成功地将DRL应用于具有离散连续混合(或参数化)动作空间的多代理问题。
我们的工作通过提出两种新算法填补了这一空白:深度多智能体参数化Q网络 (Deep MAPQN) 和深度多智能体分层混合Q网络 (Deep MAHHQN)。我们遵循集中训练但分散执行的范式:不同代理之间的不同级别的通信用于促进培训过程,而每个代理在执行期间根据本地观察独立执行其策略。
论文地址
https://arxiv.org/abs/1903.04959
论文下载
https://arxiv.org/pdf/1903.04959.pdf