论文介绍
当前强化学习在很多领域取得了亮眼的表现,尤其是在游戏领域已经征服了多种多样的游戏,比如棋牌类,即时策略类(RTS),第一人称射击类(FPS)以及多人在线竞技类(MOBA)。然而,体育类游戏(SPG)(比如篮球)作为重要的一类游戏,还鲜有研究。体育类游戏的特点也使得这类环境对于现代强化学习算法来讲还都是一个挑战,比如长时间线,稀疏奖励,多任务(比如进攻,防守,抢篮板,出三分线等),多角色,以及多智能体问题。
我们在本篇文章中提出了一套基于课程学习的整合框架,它主要由两大部分组成:第一部分是多个级联起来的基于课程学习智能体,用来对篮球中的多子任务分别进行学习,并且可以在学习过程中逐步建立起不同子任务的关系;第二部分是一个更高层的课程学习切换器,主要是针对多智能体系统中和协作相关的策略的学习,比如如何传球,帮队友挡拆。在和人类进行的线上测试中,我们这套算法可以达到70%的胜率,并且提升了游戏日活,给游戏带来更多潜在收益。
论文地址
https://dl.acm.org/doi/10.5555/3398761.3399011