论文介绍
深度强化学习已经在很多决策控制任务上取得了成功,但是,可能因为奖励函数设计不合理或者陷入局部最优解,导致智能体产生一些不良行为。虽然这些不良行为可能不会减少累积奖励,但会破坏用户体验。例如自动驾驶任务中,用速度奖励信号驱动的智能体策略表现出较多的急刹车,从而使用户有很不好的乘坐体验,但人类驾驶员通常不会这样做;而且实际任务中,人们对最大累积奖励的追求往往在奖励到达一定阈值后递减,转而追求类人行为等观感或舒适度目标。
为了克服这个问题,本文提出一种有reward约束的行为克隆方法(RCBC)。该方法结合了模仿学习与有约束的强化学习方法,利用人类示范数据学习类人行为,同时用奖励下限约束保证策略性能,使得策略优化过程中自动探索类人行为和最大化累积奖励的均衡点。文章在多个环境上进行实验,结果表明该方法能够在保证较好的累积奖励的前提下,学习到示范数据的类人行为。
论文链接
https://crazynote.v.netease.com/2021/1011/57727b4b11567a3825acfeab26f9f3dc.pdf