Reinforcement Learning Experience Reuse with Policy Residual Representation

发布:2022-12-02 10:23:05
阅读:728
作者:周文吉、俞扬、陈赢峰、关凯、吕唐杰、范长杰、周志华
分享:复制链接

论文介绍

经验重用是样本高效强化学习的关键。关键问题之一是如何表示和存储体验。以前,经验可以以特征、单个模型和平均模型的形式存储,每一个都处于不同的粒度。但是,新任务可能需要跨多个粒度的经验。

在本文中,我们提出了策略残差表示(PRR)网络,它可以提取和存储多层次的经验。PRR网络在一组具有多级架构的任务上进行训练,其中每个级别中的模块对应于任务的一个子集。因此,PRR 网络以类似频谱的方式表示体验。在针对新任务进行训练时,PRR可以提供不同级别的体验来加速学习。我们在视频游戏中的一组网格世界导航任务、运动任务和战斗任务上使用PRR网络进行实验。结果表明,PRR网络可以更好地重用经验,因此优于一些最先进的方法。

论文地址

https://arxiv.org/abs/1905.13719

论文下载

https://arxiv.org/pdf/1905.13719

扫码进群
微信群
免费体验AI服务