论文介绍
经验回放缓冲区提高了最近深度强化学习(DRL)方法的样本效率和训练稳定性。然而,对于在普通体验重放缓冲区中广泛使用的先进先出(FIFO)保留,由于一些经验的流出,遗忘和泛化是长时间训练中的问题,尤其是在缓冲区大小有限的情况下。随着训练的进行和探索的减少,学习到的策略产生的经验是状态空间的缩小区域,导致策略进一步适应当前的经验而忘记从以前的经验中获得的知识。
在本文中,我们提出了一种水库采样双重放缓冲区(RSDRB)框架来缓解“遗忘”问题,这可以用策略的泛化来表示。在RS-DRB框架中,根据其探索,将经验存储到两个缓冲区之一,即用于探索和开发的缓冲区,然后以不同的保留策略从两个缓冲区中采样用于训练的经验。我们设计了两个缓冲区之间的自适应采样率,以平衡状态空间的分布。实证结果表明,RS-DRB比FIFO和其他一些保留策略获得更好的训练和泛化性能。
论文下载
https://nos.netease.com/mg-file/mg/neteasegamecampus/art_works/20200812/202008122020238588.pdf