A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

发布:2022-12-01 10:36:30
阅读:2434
作者:郑岩、孟昭鹏、郝建业、章宗长、杨天培、范长杰
分享:复制链接

论文介绍

在多代理域中,应对不时改变行为的非固定代理是一个具有挑战性的问题,其中代理通常需要能够在在线交互期间快速检测其他代理的策略,然后相应地调整自己的策略。本文研究了在马尔可夫博弈中与非固定代理对战时有效的策略检测和重用技术。我们通过使用神经网络作为价值函数逼近器扩展最近的BPR+算法,提出了一种新的深度BPR+算法。

为了准确地检测策略,我们提出了利用对手模型从奖励信号及其行为推断其他代理的策略的纠正信念模型。我们不是直接将单个策略存储为BPR+,而是引入distilled policy network作为BPR+中的策略库,利用策略蒸馏实现高效的在线策略学习和复用。Deep BPR+继承了 BPR+ 的所有优点,并且在具有原始视觉输入的复杂马尔可夫博弈中,与现有算法相比,在检测精度、累积奖励和收敛速度方面表现出更好的性能。

论文链接

https://proceedings.neurips.cc/paper/2018/hash/85422afb467e9456013a2a51d4dff702-Abstract.html

论文下载

https://proceedings.neurips.cc/paper/2018/file/85422afb467e9456013a2a51d4dff702-Paper.pdf

最新文章
具身智能中的身体观
2025-12-25 17:52:03
大模型作为人类与智能体交流门户的战略价值——新圈地运动与智能产业的未来战略
2025-12-24 18:14:28
大模型作为人类与智能体交流门户的战略价值——人与智能体的界面式交流
2025-12-24 18:12:32
大模型作为人类与智能体交流门户的战略价值——从语言到大模型:认识论根基的嬗变
2025-12-24 18:11:28
从开路先锋到智造标杆,网易灵动携手大型央企开始“无人化作业”新阶段
2025-12-24 16:30:32
热门文章
1国家智库发文回应AI就业焦虑:替代之外,人机协作、灵活就业是趋势
2网易瑶台文旅元宇宙持续创新!“科技+艺术”助力打造黄梅戏元宇宙
3洞见AI | 网易灵动:无人驾驶技术正加速工程机器人商业化落地
4正式启动!CCF-网易雷火联合基金2025年二期项目申请指南
5AICon 2025|以具身智能破局工程机械智能化,从游戏AI到产业实践的跨越之路
6强强联合 携手共赢│网易&徐工开启战略合作新纪元
7勇立潮头,争做先锋,潮新闻上线发布会在网易瑶台顺利举行
8活动|Pettichat×网易严选×网易伏羲联合发起:征集宠物语音,邀你读懂宠物心声
9网易与高通合作,基于骁龙8至尊版移动平台打造创新的《永劫无间》手游体验
10网易公司副总裁庞大智:从“被动接单”到“主动修炼” 让以文化为内核的中国游戏产品“叫好也叫座”
扫码进群
微信群
了解更多资讯