A framework of dual replay buffer: balancing forgetting and generalization in reinforcement learning

发布:2022-12-01 10:41:05
阅读:1112
作者:张琳靓、章宗长、潘致远、陈赢峰、朱疆成、王昭蓉、王蒙、范长杰
分享:复制链接

论文介绍

经验回放缓冲区提高了最近深度强化学习(DRL)方法的样本效率和训练稳定性。然而,对于在普通体验重放缓冲区中广泛使用的先进先出(FIFO)保留,由于一些经验的流出,遗忘和泛化是长时间训练中的问题,尤其是在缓冲区大小有限的情况下。随着训练的进行和探索的减少,学习到的策略产生的经验是状态空间的缩小区域,导致策略进一步适应当前的经验而忘记从以前的经验中获得的知识。

在本文中,我们提出了一种水库采样双重放缓冲区(RSDRB)框架来缓解“遗忘”问题,这可以用策略的泛化来表示。在RS-DRB框架中,根据其探索,将经验存储到两个缓冲区之一,即用于探索和开发的缓冲区,然后以不同的保留策略从两个缓冲区中采样用于训练的经验。我们设计了两个缓冲区之间的自适应采样率,以平衡状态空间的分布。实证结果表明,RS-DRB比FIFO和其他一些保留策略获得更好的训练和泛化性能。

论文下载

https://nos.netease.com/mg-file/mg/neteasegamecampus/art_works/20200812/202008122020238588.pdf

扫码进群
微信群
免费体验AI服务