Reward-ConstrainedBehaviorCloning

发布：2022-12-09 10:27:56

阅读：1632

作者：王昭蓉、王蒙、张敬奇、陈赢峰、张崇洁

分享：

论文介绍

深度强化学习已经在很多决策控制任务上取得了成功，但是，可能因为奖励函数设计不合理或者陷入局部最优解，导致智能体产生一些不良行为。虽然这些不良行为可能不会减少累积奖励，但会破坏用户体验。例如自动驾驶任务中，用速度奖励信号驱动的智能体策略表现出较多的急刹车，从而使用户有很不好的乘坐体验，但人类驾驶员通常不会这样做；而且实际任务中，人们对最大累积奖励的追求往往在奖励到达一定阈值后递减，转而追求类人行为等观感或舒适度目标。

为了克服这个问题，本文提出一种有reward约束的行为克隆方法（RCBC）。该方法结合了模仿学习与有约束的强化学习方法，利用人类示范数据学习类人行为，同时用奖励下限约束保证策略性能，使得策略优化过程中自动探索类人行为和最大化累积奖励的均衡点。文章在多个环境上进行实验，结果表明该方法能够在保证较好的累积奖励的前提下，学习到示范数据的类人行为。

论文链接

https://crazynote.v.netease.com/2021/1011/57727b4b11567a3825acfeab26f9f3dc.pdf

相关文章

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

近日，国际计算机图形与交互技术顶会（The ACM Special Interest Group on Computer Graphics，简称SIGGRAPH）公布论文接收结果：网易伏羲最新研究成果《Preconditioned Nonlinear Conjugate Gradient Method for Real-time Interior-point Hyperelasticity》成功入选。8月，团队成员将赴美国科罗拉多州丹佛市，在SIGGRAPH 2024大会上亲述报告，与全世界计算机图形爱好者展开交流。

2024-07-25 17:30:20

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

网易伏羲技术成果再获KDD认可，四篇入选论文展现AI研究领域深厚底蕴

近日，国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称 KDD)公布了论文接收结果：网易伏羲共有四篇论文中稿Research Track和Applied Data Science Track。这四篇论文的研究方向涉及可解释性、在线营销、组合优化、主动学习等多个领域的关键问题，为数据科学领域带来了新的亮点。

2024-06-19 16:39:04

网易伏羲技术成果再获KDD认可，四篇入选论文展现AI研究领域深厚底蕴

Learn2Sing 2.0: Diffusion and Mutual Information-Based Target Speaker SVS by Learning from Singing Teacher

论文所提出的方法能够在没有歌声数据的情况下，通过10个解码步骤为目标说话人合成高质量的歌声。

2023-01-18 10:18:55

Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis

论文介绍了 Opencpop，这是一种公开可用的高质量普通话歌唱语料库，专为歌声合成(SVS)而设计。语料库包含100首流行的普通话歌曲，由一位女专业歌手演唱。音频文件以44,100赫兹的采样率以录音室质量录制，并提供相应的歌词和乐谱。

2023-01-18 10:12:59

One-shot Voice Conversion for Style Transfer based on Speaker Adaptation

在本论文中，我们建立在识别合成框架的基础上，提出了一种基于说话人自适应的风格转换的一次性语音转换方法。

2023-01-18 10:09:25

Visinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis

论文提出了VISinger，这是一个完整的端到端高质量歌声合成(SVS)系统，可直接从歌词和乐谱生成音频波形。我们的方法受到VITS的启发，它采用基于VAE的后验编码器，增强了基于标准化流的先验编码器和对抗解码器，以实现完整的端到端语音生成。

2023-01-17 14:19:11

Generating Coherent Narratives by Learning Dynamic and Discrete Entity States with a Contrastive Framework

论文扩展了transformer模型来动态地进行实体状态更新和句子实现，以促进叙事性文本的生成。我们提出了一个对比框架来学习离散空间中的状态表征，并在解码器中插入额外的注意力层到解码器中，以更好地利用这些状态。

2023-01-17 14:11:52

LayerConnect: Hypernetwork-Assisted Inter-Layer Connector to Enhance Parameter Efficiency

论文提出了LayerConnect(超网络辅助层间连接器)来提高推理效率。具体来说，在两个Transformer层之间插入一个具有线性结构的轻量级连接器，每个连接器内部的参数由一个由插值器和下采样器组成的超级网络进行调整。

2023-01-17 14:05:15

Unraveling the Mystery of Artifacts in Model Generated Texts

随着神经文本生成模型(TGM)生成与人类书写无法区分文本的能力的发展，文本生成技术的滥用可能会产生严重后果。论文建议系统地研究人工生成的形式和范围，方法是破坏文本，用语言或统计特征代替它们，并应用综合梯度的可解释方法。

2023-01-16 10:23:20

QiuNiu: A Chinese Lyrics Generation System with Passage-Level Input

论文演示了QiuNiu中文歌词生成系统，它以段落级文本而不是一些属性或关键字为条件。通过使用段落级文本作为输入，生成的歌词内容有望反映用户需求的细微差别。QiuNiu系统支持短篇小说、散文、诗歌等多种形式的篇章级输入。

2023-01-16 10:17:35

最新文章

人工智能驱动智能制造：重塑制造业的未来格局

2025-07-10 18:03:56

人工智能之智能制造：重塑现代工业新生态

2025-07-10 18:03:15

美术服务之Spine动画：高效构建游戏视觉表现力

2025-07-10 17:59:42

美术服务之Spine动画：2D骨骼动画的技术突破与商业价值

2025-07-10 17:53:45

矿山施工无人化：推动矿业智能化转型的新方向

2025-07-10 17:49:16

热门文章

1从90ms到5000立方米：网易如何用游戏黑科技引爆矿山革命？

2网易瑶台创新实践再获认可！“元豫宙”等多个项目获评2023年职工技术创新成果

3《证券时报》深度报道：网易灵动AI“动”力觉醒，人机协作助力实体经济智能化转型

4首度公开｜网易伏羲：去中心化，从单智能体到群体智能的跃迁

5从春晚机器人到“黑灯工地”-网易灵动装载机器人降本30%、提效至120%，用人工智能重塑生产力边界

6智汇WAIC 2024｜网易灵动以“机械智心”开启工程机器人新纪元

7世界互联网大会发布2023互联网创新发展十大案例，网易无人装载机器人入选

8划重点 | 9月不可错过的精彩科技盛宴邀您抢先看！

9"2022群智云财务高峰论坛"元宇宙专场活动在网易瑶台圆满落幕

10网易瑶台为第三届健康中国创新传播大会暨第八届中国健康品牌建设大会搭建元宇宙线上会场

产品

智慧矿山挖掘机器人

搅拌站无人装载机器人

港口清舱装载机器人

网易机器人

有灵智能体

资料库

伏羲实验室

关于我们

咨询电话

0571-89852163 转 21951

周一至周五 9:00-18:00

邮件咨询

fuxi@service.netease.com

投诉及建议

fuxi-tousu@service.netease.com

友情链接：网易伏羲友情链接3 友情链接4 友情链接5 友情链接7 友情链接8

公司简介-客户服务-网易伏羲隐私政策-联系我们-商务合作-加入我们网易公司版权所有 ©1997-2023

在线客服

合作咨询

生态合作

扫码进群

微信群

免费体验AI服务