近日,信息检索领域的顶级会议SIGIR 2023公布了论文的接收结果:网易伏羲以RL4RS为主题的论文凭借其技术与创新实力成功选入本届Resource Paper,网易伏羲实验室在深度学习研究中所做的工作获得国际审稿专家的高度评价,审稿专家们认为RL4RS将在强化学习推荐技术在现实场景应用中发挥重要作用。
SIGIR(International ACM SIGIR Conference on Research and Development in Information Retrieval)是信息检索领域的旗舰会议,也是中国计算机学会CCF推荐的A类会议,在国际上享有极高的学术声誉。本届会议共收到822篇长文投稿,仅有165篇长文被录用,录用率约20.1%,被录用的稿件体现出信息检索领域国际最前沿的研究水平。以下为网易伏羲入选论文概要:
RL4RS:一个面向基于强化学习的推荐系统的工业数据集
关键词:基于强化学习的推荐系统、工业数据集
RL4RS:A Real-World Dataset for Reinforcement Learning based Recommender System
RL4RS套件:https://github.com/fuxiAIlab/RL4RS
随着推荐系统的发展,SLATE Recommendation、Bundle Recommendation等场景提出了新的挑战。为了解决这些挑战,最近的研究者采用强化学习来进行推荐,其中推荐过程被形式化为用户(环境)和推荐代理(RL代理)之间的序列交互。强化学习是一个备受业界关注的方向,因为RL范式本质上适合处理多步决策问题,直接优化长期用户满意度,并有效地探索组合空间。但是最近的研究中仍存在两个问题:
第一个问题是缺乏针对基于RL的RS问题的真实世界数据集。主要有两种替代方案,一种是人工数据集,例如RecoGym和RECSIM,但它们不是真实应用中用户的实际反馈。另一种是半模拟数据集,即转换为RL数据格式的传统RS数据集(如MovieLens),其主要缺点是许多强制数据转换不合理。以MovieLens数据集为例:为了满足RL数据格式的要求,Adversarial User Model引入了外部电影信息,并假设用户的选择上下文是一个月内发布的电影,每个显示集的最大大小设置为40。
第二个问题是缺乏无偏评估方法。目前的研究中主要有两种评估指标:传统的推荐指标(召回率、准确度等)和纯强化学习指标(如累积奖励)。然而,前者是短期评估指标,后者高度依赖于仿真环境的准确性。策略评估的偏差也来自“外推误差”,即未见过的状态-动作对被错误地估计为具有不切实际的值。
针对这两大问题,网易伏羲提出了RL4RS。
RL4RS是一个全新的资源,旨在解决基于强化学习的推荐系统领域中的现实差距问题。它包括两个真实世界数据集、数据理解工具、可复现的仿真环境、相关RL前沿算法、Batch RL算法和反事实策略评估算法。我们还尝试提出一个新的系统评估框架,包括环境模拟评估、环境评估、反事实策略评估和来自测试集构建的环境评估。
作为强化学习的推荐系统领域内第一个完全开源的工业数据集,RL4RS有助于更好的推荐算法的研究和更好的模拟环境构建的研究。RL4RS提供了强化学习部署前和部署后的数据集,这非常有助于Batch RL等离线强化学习算法的使用与评估。RL4RS能帮助设计更好的推荐系统,有力支持了游戏经济系统平稳运行,呵护游戏产品生命周期,并结合玩家体验为目标提升了用户满意度,在多款雷火游戏业务中落地应用。
2021年RL4RS曾与IEEE BigData 2021大会合办了网易伏羲第一届大数据竞赛——IEEE BigData Cup 2021:RL-based RecSys,吸引了国内外高校近百支队伍的参赛,并在大会上成功举办了主题WorkShop。网易伏羲RL4RS也将于2023年底在全球首屈一指的大数据技术峰会Ray Summit 2023上宣讲。在IEEE BigData 2021比赛中,网易伏羲RL4RS的解决方案获得了大量的好评,让人期待其即将到来的Ray Summit 2023上的发言,为深度学习的技术发展贡献力量。
关于网易伏羲
网易伏羲成立于2017年,是国内专业从事游戏与泛娱乐AI研究和应用的顶尖机构。网易伏羲已经发表200多篇AI顶会论文,拥有400多项发明专利,以及数字人、智能捏脸、AI创作、AI反外挂、AI推荐匹配、AI竞技机器人等多个领域的领先技术。目前,网易伏羲正在向游戏、文旅、文娱等产业开放AI技术及产品,已服务超200家客户,应用日均调用量超数亿次。