ICLR 2023 | 网易伏羲3篇论文入选，含强化学习、自然语言处理等领域

发布：2023-03-02 10:54:52

阅读：21888

作者：网易伏羲

第十一届国际表征学习会议（International Conference on Learning Representations，下文简称ICLR）预计将于5月1日至5日在卢旺达首都基加利线下举办。并于近期公布论文接收结果：网易伏羲共有3篇论文入选，包含oral presentation paper和spotlight presentation paper各一篇；论文内容涉及强化学习、自然语言处理等方向。

ICLR是人工智能与机器学习领域最顶级的学术会议之一，与ICML、NeurIPS并称机器学习三大会。作为机器学习领域最年轻的会议，至今仅有10年的历史。但由于深度学习日新月异的发展以及大会牵头人Yoshua Bengio、Yann LeCun的影响力，ICLR会议很快便得到研究者们的认可，在Google Scholar的学术会议/杂志排名中，ICLR目前排名第十位。

本次ICLR会议共收到接近5000篇的投稿，中稿率为31.8%。其中所有中稿论文的top 5%为oral presentation，top 25%为spotlight presentation。

以下为此次入选的三篇论文概要：

《Tailoring Language Generation Models under Total Variation Distance》

基于全变差距离的语言生成模型

关键词：语言模型，文本生成

涉及领域：text generation，language model

文本生成是自然语言处理技术中的常见任务，并在网易有非常广泛的应用场景，如文字游戏、智能NPC、文章辅助创作、歌词辅助创作等。目前文本生成的标准范式是采用最大似然估计（MLE）作为优化方法。从分布的角度来看，MLE实际上最小化了真实数据和模型分布之间的KL散度（KLD）。但是，这种方法迫使模型对所有训练样本（无论这些样本质量如何）都分配了非零的概率。此外，在试图覆盖数据分布中的低概率区域，模型系统地高估了损坏的文本序列的概率，我们猜测这是自回归解码时文本退化的主要原因之一。为了补救这个问题，网易伏羲和清华大学黄民烈教授研究团队利用对异常值鲁棒的全变差距离（TVD），开发了合适的方式应用于语言生成。

实验表明KLD对于异常点是更敏感的，TCD是鲁棒的。

然后引入TaiLr目标来平衡TVD的估计。直观地说，TaiLr降低了具有低模型概率的真实数据样本的权重，并且具有可调整的惩罚强度。实验结果表明，我们的方法在不牺牲多样性的情况下减轻了对退化序列的高估，并在广泛的文本生成任务中提高了生成质量。

《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》

EUCLID：基于多项选择动态模型的高效无监督强化学习

关键词：无监督强化学习，预训练模型

涉及领域：Model-based RL，Unsupervised RL

强化学习(RL)通常需要大量的交互数据和精心设计的特定任务奖励进行策略学习，从而导致低的样本效率和难以快速泛化到新的下游任务。因此，无监督强化学习应运而生，即通过无监督的方式在无标签的大量样本中进行预训练，以此为先验知识达到在多个下游任务种快速适应的效果，这一训练范式能够促进强化学习在充满未知任务的现实世界的落地应用。

但过往的工作往往专注于通过探索环境预训练出一个具有不同技能的策略，而仅仅通过多样化探索的预训练方式难以保证下游任务的性能提升，甚至可能导致预训练消耗越大，性能越低的“不匹配”问题。因此，网易伏羲和天津大学深度强化学习实验室团队提出了EUCLID框架，引入了基于模型的RL范式，通过长时间的预训练，从精确的动态模型中获益，以实现快速的下游任务适应和更高的采样效率。在微调阶段，EUCLID利用预先训练的动态模型进行策略引导的规划，这样的设置可以消除由不匹配问题引起的性能震荡，获得单调的性能提升。

EUCLID框架是首个将世界模型引入无监督强化学习的框架，解决了此前无监督强化学习难以在现实场景应用的最大问题——不匹配问题，能够在低成本的无标签数据预训练的基础上，只使用100k的交互样本快速适应多个下游任务，实现了基于无监督的高效预训练框架，相比model free算法提高20倍采样效率，并在URL社区的多个标准benchmark中达到接近上界的性能。在实际应用方面，EUCLID框架将对基于强化学习的游戏竞技机器人的训练起到显著降本增效作用。这是由于实际的游戏场景不同于学术研究中采用的模拟环境，需要大量计算资源来运行，而强化学习算法的训练又需要成规模地运行多个游戏实例进行样本采集，导致训练成本高昂。EUCLID框架可以有效地对游戏场景进行数字孪生建模，一旦完成建模，强化学习算法可以较少甚至不依赖于原始游戏场景进行样本采集。神经网络化的世界模型使得超大规模的样本采集和强化学习训练成为可能，这将极大提高游戏竞技机器人的训练效率，节省大量训练成本。

《Neural Episodic Control with State Abstraction》

基于状态抽象的神经情景控制

关键词：情景控制、状态抽象

情景控制（episodic control）方法通常会将Agent经历过的高价值样本保存到内存当中，并在学习的过程中利用内存中的已知信息来加快模型收敛，提升样本利用率。然而，已有的方法往往只记录真实的state、action和state value，而没有考虑样本之间的隐层信息（例如，状态转移、拓扑相似度等等），进而在泛化性、样本利用率等方面仍旧有所欠缺；此外，由于状态信息通常使用浮点数表示，已有方法无法有效存储和检索内存中的信息。

因此，网易伏羲和九州大学Pangu实验室研究团队提出改进的情景控制算法——NECSA（Neural Episodic Control with State Abstraction）：

1.利用原始状态之间的多步转移信息，将高维的转移片段抽象到有限的格子空间中；

2.并提出一种高效的状态分析方法，来对格子空间中的状态进行综合评价；

3.最后，这些评价信息会以intrinsic reward的形式来辅助Agent学习，提升高价值样本的学习效率；

实验结果表明，NECSA在所有的实验环境中都拿到了最高的分数，达到了state-of-the-art水平。

此外，NECSA可以作为一个独立的模块来方便的集成到已有的强化学习算法中，具备很强的通用性。NECSA的典型应用场景之一是游戏竞技机器人的训练。对于真实游戏场景中复杂且高维的状态表征，NECSA给出了一种基于状态分析来增强学习效果的新思路，一方面可以更好更快地达到优化目标（如：提升机器人竞技水平、拟人性等），另一方面还有可能提供良好的模型可解释性。网易伏羲未来将在多个游戏场景中推动NECSA方法的实际落地。

特别感谢清华大学黄民烈教授团队对《Tailoring Language Generation Models under Total Variation Distance》的重要研究贡献，感谢天津大学深度强化学习实验室对《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》的重要研究贡献；以及九州大学Pangu实验室对《Neural Episodic Control with State Abstraction》的重要研究贡献。

网易伏羲作为国内专业从事游戏与泛娱乐AI研究和应用的顶尖机构，正在把AI技术和产品开放给更多合作伙伴，让人工智能技术惠及更多领域；目前，网易伏羲已服务超200家客户，应用日均调用量超数亿次。

自然语言处理NLP 机器学习人工智能

人工智能开发工具：推动技术创新的核心驱动力

人工智能开发工具涵盖多个维度，满足不同场景需求。代码生成与辅助工具通过自然语言解析业务逻辑，快速生成可执行代码，显著提升开发效率。低代码/无代码平台以可视化界面为核心，允许非技术用户通过拖拽操作搭建AI应用，缩短项目周期。智能体开发框架则聚焦多代理系统协作，支持复杂任务的自动化编排与执行。此外，模型训练与部署平台提供全流程解决方案，涵盖数据预处理、算法优化到云端部署，助力企业高效完成模型迭代。

2025-07-04 17:19:15

人工智能开发工具：加速智能时代的核心引擎

人工智能开发工具正重塑技术创新流程，通过模块化组件、自动化训练和可视化部署，将算法能力转化为行业解决方案。这类工具的核心价值在于降低开发门槛，使企业能够快速构建专属智能系统。本文将从工具类型、核心功能、场景赋能及技术演进四个维度，解析人工智能开发工具如何推动产业智能化进程。

2025-07-04 17:17:14

人工智能技术属性：算法创新与多维特征的融合

人工智能技术属性是理解其核心价值与发展方向的关键。作为计算机科学的重要分支，人工智能的本质在于模拟人类智能，其技术属性不仅体现在算法模型的创新上，还涵盖了智能性、自主性、协同性等多维度特征。这些属性共同构成了人工智能技术的基础框架，并推动其在各领域的深度应用。

2025-07-03 18:03:16

人工智能技术属性解析：驱动智能变革的核心基因

人工智能技术正重塑全球产业格局，其本质是通过模拟人类认知机制构建自主决策系统。区别于传统软件，人工智能具备持续进化、环境适配与自主决策三重技术特性，成为数字化转型的核心引擎。本文从智能性、适应性、自主性、进化性四个维度，系统拆解人工智能的技术基因及其产业赋能逻辑。

2025-07-03 18:00:18

人工智能与智能社会：技术革命与社会变革的双重奏

人工智能（AI）是计算机科学的核心分支，旨在模拟人类智能，实现感知、认知、决策等能力。其发展历程可分为三个阶段：符号逻辑阶段（1956-1976）：以布尔代数和演绎推理为基础，开发逻辑编程语言及机器定理证明系统。专家系统阶段（1976-2006）：通过知识库与规则构建领域专家系统，如医疗诊断、农业咨询等，但受限于人工知识构建的局限性。深度学习阶段（2006至今）：依托大数据与神经网络技术，实现图像识别、自然语言处理等突破，推动AI进入实用化时代。

2025-07-02 17:48:17

人工智能与智能社会：塑造未来的核心驱动力

人工智能（AI）正以前所未有的深度与广度渗透社会生活，驱动传统社会形态向智能社会加速演进。这一转型不仅体现在技术工具的革新，更意味着社会运行规则、产业模式、治理理念与人类生活方式的系统性重构。

2025-07-02 17:47:17

主视觉KV设计：品牌传播的核心视觉语言

主视觉KV（Key Vision）是品牌或活动推广中的核心视觉设计，通过统一的图形、色彩和文案传递品牌价值或活动主题。它不仅是品牌识别的视觉符号，更是市场传播的“定盘星”，为后续海报、包装、宣传物料等提供风格指引。优秀的主视觉KV能快速吸引目标受众注意，强化品牌记忆，提升市场竞争力。

2025-07-01 18:02:48

人工智能模型与理论：技术演进与未来方向

人工智能模型与理论的发展经历了从符号主义到连接主义，再到深度学习的多重变革。早期符号主义依赖逻辑推理和规则系统，通过明确的符号表示模拟人类思维，但受限于知识获取的复杂性。20世纪80年代，连接主义兴起，神经网络通过模拟人脑神经元之间的连接关系，逐步实现对数据的非线性建模。这一阶段的突破性成果包括反向传播算法和感知机，为后续深度学习奠定了基础。

2025-07-01 17:57:18

人工智能模型与理论的核心框架与应用逻辑

人工智能模型与理论研究构建了现代智能系统的根基，其核心在于通过数学框架与计算机制模拟人类认知能力。本文将系统拆解基础理论模型、关键学习范式及产业落地逻辑，为技术实践提供理论锚点。

2025-07-01 17:52:40

人工智能架构：技术分层与未来演进

人工智能架构的基础层由硬件设施和数据服务构成。硬件设备包括高性能芯片（如GPU、TPU）、服务器及存储系统，为大规模计算提供算力支持。例如，AI芯片通过并行计算加速深度学习训练，而分布式存储系统则保障海量数据的快速读写。数据服务涵盖数据采集、清洗、标注与管理。高质量数据是AI模型训练的“燃料”，经过预处理后形成标准化数据集。例如，图像识别领域依赖标注精确的图片库，自然语言处理则需要语料库的持续扩展。这一层的技术突破，直接决定AI系统的性能上限。

2025-06-30 17:53:17