论文介绍
人类在进行决策时,经常会根据预想的一个决策行为去决定目前的注意力焦点。例如,我们在开车时,如果决定在下个路口左转,就会重点关注一下左后视镜中是否有车辆或行人会妨碍我们左转,这种注意力机制在认知学上被称为“自上而下”的注意力机制。
本文受此启发,在强化学习中引入了这种注意力机制,将MDP建模中的Action元素作为注意力机制运算的重要依据,在强化学习智能体上实现了对这种“自上而下”的注意力机制的模拟。最终注意力机制的可视化结果证明了强化学习智能体学习到了符合人类常识的关注焦点,在完整Atari游戏集合上的实验证明了本文方法相较于对比方法可以明显的提升最终效果。
论文链接
https://ieeexplore.ieee.org/document/9231608