网易伏羲研究团队和伏羲TTG技术团队联合发布的强化学习推荐系统工业数据集RL4RS。
项目背景
基于强化学习的推荐系统(基于RL的RS)旨在通过将顺序推荐投射到多步决策任务中,从一批收集的数据中学习一个好的策略。然而,当前基于 RL 的 RS 基准通常存在较大的现实差距,因为它们涉及人工 RL 数据集或半模拟 RS 数据集,并且训练的策略直接在模拟环境中进行评估。
在现实世界中,并不是所有的推荐问题都适合转化为强化学习问题。与之前的学术RL研究不同,基于RL的RS存在外推误差,并且难以在部署前得到充分验证。
在论文中,我们介绍了 RL4RS(推荐系统的强化学习)基准——一种完全从工业应用中收集的新资源,用于训练和评估 RL 算法,特别关注上述问题。它包含两个数据集、调整后的模拟环境、相关的高级 RL 基线、数据理解工具和反事实策略评估算法。RL4RS 套装可在以下位置找到 这个https网址。除了基于RL的推荐系统之外,我们希望该资源能够为强化学习和神经组合优化的研究做出贡献。
比赛主页
https://fuxi-up-research.gitbook.io/fuxi-up-challenges/
论文地址
https://arxiv.org/abs/2110.11073
Github
https://github.com/fuxiAIlab/RL4RS