论文介绍
经验重用是样本高效强化学习的关键。关键问题之一是如何表示和存储体验。以前,经验可以以特征、单个模型和平均模型的形式存储,每一个都处于不同的粒度。但是,新任务可能需要跨多个粒度的经验。
在本文中,我们提出了策略残差表示(PRR)网络,它可以提取和存储多层次的经验。PRR网络在一组具有多级架构的任务上进行训练,其中每个级别中的模块对应于任务的一个子集。因此,PRR 网络以类似频谱的方式表示体验。在针对新任务进行训练时,PRR可以提供不同级别的体验来加速学习。我们在视频游戏中的一组网格世界导航任务、运动任务和战斗任务上使用PRR网络进行实验。结果表明,PRR网络可以更好地重用经验,因此优于一些最先进的方法。
论文地址
https://arxiv.org/abs/1905.13719
论文下载
https://arxiv.org/pdf/1905.13719