论文介绍
奖赏塑形是提升强化学习算法学习效率的重要途径之一,其核心思想是用附加奖赏函数(也叫塑形奖赏函数,Shaping Reward Function)表达先验知识,避免不必要的探索。然而,目前并没有一些通用的法则去指导怎么设置塑形奖励。因此,研究者往往会在一个问题或项目中反复尝试若干种奖赏塑形方案,直到取得比较好的学习效果。此外,现有的奖赏塑形方法还存在一个问题,即:完全信任给定的附加奖赏函数,不加甄别地使用塑形奖赏而不管其对应的先验知识是否存在不完美甚至是谬误的地方。
本文尝试解决上述问题,提出了一种能够自适应地利用给定附加奖励、有效甄别附加奖励好坏的新型奖赏塑形方法,其主要贡献包括:
(1)提出自适应利用塑形奖赏的问题,并形式化建模为一个带参函数的双层优化问题(Bi-level Optimization of Parameterized Reward Shaping,BiPaRS);
(2)提出双层优化问题的方法,包括:理论证明、梯度近似计算方法、学习算法;
(3)在小车立杆和MuJoCo环境中进行实验验证,结果表明本文提出的方法不但能够准确判断塑形奖赏的好坏,有时甚至还能够反向利用有害的塑形奖赏转,达到加速学习的效果。
论文链接
https://proceedings.neurips.cc/paper/2020/hash/b710915795b9e9c02cf10d6d2bdb688c-Abstract.html