论文介绍
迁移学习是能够利用相关任务中已有的知识对强化学习在目标任务中的学习进行加速的有效手段。目前的大多数迁移方法是通过计算任务之间的相似度或者选择适当的源策略(Source Policies)来引导强化学习算法在目标任务中的探索和学习,但如何选择性地利用先验知识来直接对目标任务中的策略进行优化还没有被探讨过。
在本文中,我们基于上述想法提出一种新型的策略迁移框架PTF,该框架将多策略迁移问题建模为option learning problem,直接学习什么时候进行策略复用,复用哪一个策略,以及什么时候终止策略复用。在离散动作空间和连续动作空间问题的实验中,本文所提出的策略迁移框架PTF展现出显著优于现有迁移学习方法的加速效果。
论文地址
https://www.ijcai.org/proceedings/2020/428