Reinforcement Learning Experience Reuse with Policy Residual Representation

发布:2022-12-02 10:23:05
阅读:1887
作者:周文吉、俞扬、陈赢峰、关凯、吕唐杰、范长杰、周志华
分享:复制链接

论文介绍

经验重用是样本高效强化学习的关键。关键问题之一是如何表示和存储体验。以前,经验可以以特征、单个模型和平均模型的形式存储,每一个都处于不同的粒度。但是,新任务可能需要跨多个粒度的经验。

在本文中,我们提出了策略残差表示(PRR)网络,它可以提取和存储多层次的经验。PRR网络在一组具有多级架构的任务上进行训练,其中每个级别中的模块对应于任务的一个子集。因此,PRR 网络以类似频谱的方式表示体验。在针对新任务进行训练时,PRR可以提供不同级别的体验来加速学习。我们在视频游戏中的一组网格世界导航任务、运动任务和战斗任务上使用PRR网络进行实验。结果表明,PRR网络可以更好地重用经验,因此优于一些最先进的方法。

论文地址

https://arxiv.org/abs/1905.13719

论文下载

https://arxiv.org/pdf/1905.13719

最新文章
网易灵动荣登2025中国技术力量年度榜单 ,装载机器人入选年度具身智能明星产品
2025-12-31 15:22:38
AI时代,为什么90%的协作都死在了“说不清楚”上?|有灵智能体有奖邀测
2025-12-30 11:05:29
行动中的认知:预测加工框架下的具身智能——未来展望:迈向自主行动的通用智能
2025-12-29 15:45:13
行动中的认知:预测加工框架下的具身智能——实现路径:主动推断与具身性的融合
2025-12-29 15:44:06
行动中的认知:预测加工框架下的具身智能——理论交融:从“具身心智”到“预测心智”
2025-12-29 15:42:49
热门文章
1CNCC2025在哈尔滨盛大启幕 万余名海内外嘉宾共话“数智赋能、无限可能”
2网易伏羲正式上线满血版DeepSeek!助力网易数智旗下多业务全面接入DeepSeek
3国务院重磅AI新政发布,产业如何平衡生产力跃升与就业挑战?
4《逆水寒》出海,首日登顶多国榜单
5CNCC2025回顾|网易伏羲主题分论坛圆满落幕,产学研共探智能体技术跃迁路径
62024云栖大会启幕:AI硬科技集结 共创“无法计算的价值”
7什么是“具身智能”? 和人形机器人有什么关系?
8评审结果公示丨2025年CCF-网易雷火联合基金
9【科技赋能】中建八局联合网易发布国内第一款无人装载机及其环境系统
10网易灵动荣登2025中国技术力量年度榜单 ,装载机器人入选年度具身智能明星产品
扫码进群
微信群
了解更多资讯