Reward-ConstrainedBehaviorCloning

发布:2022-12-09 10:27:56
阅读:6024
作者:王昭蓉、王蒙、张敬奇、陈赢峰、张崇洁
分享:复制链接

论文介绍

深度强化学习已经在很多决策控制任务上取得了成功,但是,可能因为奖励函数设计不合理或者陷入局部最优解,导致智能体产生一些不良行为。虽然这些不良行为可能不会减少累积奖励,但会破坏用户体验。例如自动驾驶任务中,用速度奖励信号驱动的智能体策略表现出较多的急刹车,从而使用户有很不好的乘坐体验,但人类驾驶员通常不会这样做;而且实际任务中,人们对最大累积奖励的追求往往在奖励到达一定阈值后递减,转而追求类人行为等观感或舒适度目标。

为了克服这个问题,本文提出一种有reward约束的行为克隆方法(RCBC)。该方法结合了模仿学习与有约束的强化学习方法,利用人类示范数据学习类人行为,同时用奖励下限约束保证策略性能,使得策略优化过程中自动探索类人行为和最大化累积奖励的均衡点。文章在多个环境上进行实验,结果表明该方法能够在保证较好的累积奖励的前提下,学习到示范数据的类人行为。

论文链接

https://crazynote.v.netease.com/2021/1011/57727b4b11567a3825acfeab26f9f3dc.pdf

最新文章
AI时代,为什么90%的协作都死在了“说不清楚”上?|有灵智能体有奖邀测
2025-12-30 11:05:29
行动中的认知:预测加工框架下的具身智能——未来展望:迈向自主行动的通用智能
2025-12-29 15:45:13
行动中的认知:预测加工框架下的具身智能——实现路径:主动推断与具身性的融合
2025-12-29 15:44:06
行动中的认知:预测加工框架下的具身智能——理论交融:从“具身心智”到“预测心智”
2025-12-29 15:42:49
权威认可!网易灵动装载机器人入选杭州AI制造业首用优秀方案,已落地全国多个工程项目
2025-12-26 14:55:56
热门文章
1“浙里烟火”烟花大会圆满落幕,在元宇宙中沉浸体验亚运氛围
2AI与机器人双轮驱动 网易以虚拟世界技术赋能实体经济数智化变革
32022 IEEE CoG国际会议 网易瑶台带你体验沉浸式新型会议模式
42025青科会启幕,网易伏羲携游戏AI前沿实践共话未来
5SIGGRAPH 2024 | 物理模拟领域再攀高峰!网易伏羲最新技术成果成功入选
6沉浸式元宇宙空间跨域对谈重磅首发!与元宇宙商业之父共议元宇宙未来发展
7网易伏羲-灵动工程机器人亮相2024数博会华为云展区
8从数字世界到物理世界,36氪2024具身智能大会盛启上海
9网易伏羲受邀亮相2025云栖大会,展示AI领域前沿创新成果
10又一无人装载机项目落地!网易灵动助力世界前5的预拌混凝土龙头企业智能化升级
扫码进群
微信群
了解更多资讯