论文介绍
对战匹配是网络游戏的核心功能模块之一,匹配决策的好坏将直接影响玩家的游戏体验,甚至整个游戏的生命周期。随着匹配等待玩家的不断增多,匹配方案的数量是指数级爆炸增长的,这也使得现有的匹配方案只能以低效的方式去获得一个局部最优的匹配决策。因此,为了解决这样的问题,我们提出了一套数据驱动的匹配通用框架-GloMatch,将匹配问题转换为一个连续决策问题,通过policy-based深度强化学习算法来不断优化匹配效果。随后,我们在仿真环境和多个线上游戏环境上进行了大量实验,验证了我们方案的有效性。
论文地址
https://dl.acm.org/doi/10.1145/3447548.3467074