RL4RS: 网易伏羲开源强化学习推荐系统工业数据集

发布:2022-09-26 16:50:43
阅读:8825
作者:网易伏羲
分享:复制链接

网易伏羲研究团队和伏羲TTG技术团队联合发布的强化学习推荐系统工业数据集RL4RS。

项目背景

基于强化学习的推荐系统(基于RL的RS)旨在通过将顺序推荐投射到多步决策任务中,从一批收集的数据中学习一个好的策略。然而,当前基于 RL 的 RS 基准通常存在较大的现实差距,因为它们涉及人工 RL 数据集或半模拟 RS 数据集,并且训练的策略直接在模拟环境中进行评估。

在现实世界中,并不是所有的推荐问题都适合转化为强化学习问题。与之前的学术RL研究不同,基于RL的RS存在外推误差,并且难以在部署前得到充分验证。

在论文中,我们介绍了 RL4RS(推荐系统的强化学习)基准——一种完全从工业应用中收集的新资源,用于训练和评估 RL 算法,特别关注上述问题。它包含两个数据集、调整后的模拟环境、相关的高级 RL 基线、数据理解工具和反事实策略评估算法。RL4RS 套装可在以下位置找到 这个https网址。除了基于RL的推荐系统之外,我们希望该资源能够为强化学习和神经组合优化的研究做出贡献。

比赛主页

https://fuxi-up-research.gitbook.io/fuxi-up-challenges/

论文地址

https://arxiv.org/abs/2110.11073

Github

https://github.com/fuxiAIlab/RL4RS

扫码进群
微信群
免费体验AI服务