Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

发布:2022-12-07 10:58:49
阅读:1761
作者:杨天培、郝建业、孟昭鹏、章宗长、胡裕靖、陈赢峰、范长杰、王维埙、刘武龙、王照栋、彭佳杰
分享:复制链接

论文介绍

迁移学习是能够利用相关任务中已有的知识对强化学习在目标任务中的学习进行加速的有效手段。目前的大多数迁移方法是通过计算任务之间的相似度或者选择适当的源策略(Source Policies)来引导强化学习算法在目标任务中的探索和学习,但如何选择性地利用先验知识来直接对目标任务中的策略进行优化还没有被探讨过。

在本文中,我们基于上述想法提出一种新型的策略迁移框架PTF,该框架将多策略迁移问题建模为option learning problem,直接学习什么时候进行策略复用,复用哪一个策略,以及什么时候终止策略复用。在离散动作空间和连续动作空间问题的实验中,本文所提出的策略迁移框架PTF展现出显著优于现有迁移学习方法的加速效果。

论文地址

https://www.ijcai.org/proceedings/2020/428

最新文章
网易灵动荣登2025中国技术力量年度榜单 ,装载机器人入选年度具身智能明星产品
2025-12-31 15:22:38
AI时代,为什么90%的协作都死在了“说不清楚”上?|有灵智能体有奖邀测
2025-12-30 11:05:29
行动中的认知:预测加工框架下的具身智能——未来展望:迈向自主行动的通用智能
2025-12-29 15:45:13
行动中的认知:预测加工框架下的具身智能——实现路径:主动推断与具身性的融合
2025-12-29 15:44:06
行动中的认知:预测加工框架下的具身智能——理论交融:从“具身心智”到“预测心智”
2025-12-29 15:42:49
热门文章
1网易伏羲受邀亮相2025云栖大会,展示AI领域前沿创新成果
22024诺贝尔奖公布:物理学与化学奖项凸显人工智能贡献
3《“良渚”中华文明全球青年分享会》即将在网易瑶台召开
4报名即将截止!2025年CCF-网易雷火联合基金二期申报进行中
5创新突破!网易有灵玉声配音平台斩获2024中国设计智造大奖“佳作奖”
6CNCC2025在哈尔滨盛大启幕 万余名海内外嘉宾共话“数智赋能、无限可能”
7网易灵动荣誉图鉴|工业智能场景落地典范,荣誉见证产业价值
8智汇WAIC 2024 | 流利生图,能“颜”善“变”!多模态智能体助手“丹青约”全面升级
9在元宇宙中发现“她力量”,网易瑶台携手TEDx外滩举办元宇宙活动
10网易伏羲RL4RS荣获SIGIR2023 Resource Paper,推动深度学习技术创新
扫码进群
微信群
了解更多资讯