AAAI会议介绍
人工智能顶会,CCF A类会议,H5高达126。
论文介绍
近年来,将强化学习(RL)应用到推荐系统中,引起了人们极大的兴趣和挑战。我们总结了基于RL的大型推荐系统在实际应用中面临的三大挑战: 海量的状态空间和动作空间、高方差和动态的环境以及推荐系统中的奖励不明确。这些问题在现有的文献中没有得到充分的解决,这使得基于RL的推荐应用具有挑战性。
我们研发了一种基于goal-based的强化学习框架GoalRec。结合world model和value function的思想,我们提出了一种model-based的价值函数形式化,能够将环境演变和奖励分离开来。通过使用稠密的推荐环境数据而非奖励信号,我们有效地学习了一个与奖励无关的、高模型容量的world model。不同于传统只预测下一步状态的world model,我们通过引入goal-based 强化学习框架,通过对强化学习策略的参数化序列建模,将world model扩展到了用户轨迹维度。因为传统的model-based planning方法效率较低,我们进一步将world model融入到value function中,且一定程度上帮助value function规避了高方差环境与稀疏奖励信号带来的学习问题。
在网易遇见逆水寒神秘商店场景中,我们部署了这一算法,验证了该算法相比之前的监督学习与普通强化学习算法能带来较大的业务收益。
论文原文
https://crazynote.v.netease.com/2021/1009/4f534d0c98c02905af3321e8fa2ee22d.pdf