论文介绍
迁移学习(TL)通过利用过去学习的相关任务策略中的先验知识,显示出加速强化学习(RL)的巨大潜力。现有的传输方法要么显式计算任务之间的相似性,要么选择适当的源策略来为目标任务提供指导。然而,目前缺少如何通过交替利用来自适当源策略的知识而不明确测量相似性来直接优化目标策略。
在本文中,我们提出了一种新颖的策略传输框架(PTF),利用这一想法来加速RL。此框架通过将多策略转移建模为选项学习问题来学习何时以及哪个源策略最适合重用于目标策略以及何时终止它。PTF可以很容易地与现有的深度RL方法相结合。实验结果表明,它显著加快了学习过程,并在离散和连续动作空间的学习效率和最终性能方面超越了最先进的策略转移方法。
论文地址
https://arxiv.org/abs/2002.08037
论文下载
https://arxiv.org/pdf/2002.08037.pdf