ICLR 2023 | 网易伏羲3篇论文入选,含强化学习、自然语言处理等领域

发布:2023-03-02 10:54:52
阅读:5922
作者:网易伏羲

第十一届国际表征学习会议(International Conference on Learning Representations,下文简称ICLR)预计将于5月1日至5日在卢旺达首都基加利线下举办。并于近期公布论文接收结果:网易伏羲共有3篇论文入选,包含oral presentation paper和spotlight presentation paper各一篇;论文内容涉及强化学习、自然语言处理等方向。

ICLR

ICLR是人工智能与机器学习领域最顶级的学术会议之一,与ICML、NeurIPS并称机器学习三大会。作为机器学习领域最年轻的会议,至今仅有10年的历史。但由于深度学习日新月异的发展以及大会牵头人Yoshua Bengio、Yann LeCun的影响力,ICLR会议很快便得到研究者们的认可,在Google Scholar的学术会议/杂志排名中,ICLR目前排名第十位。

本次ICLR会议共收到接近5000篇的投稿,中稿率为31.8%。其中所有中稿论文的top 5%为oral presentation,top 25%为spotlight presentation。

以下为此次入选的三篇论文概要:

《Tailoring Language Generation Models under Total Variation Distance》

基于全变差距离的语言生成模型

关键词:语言模型,文本生成

涉及领域:text generation,language model

文本生成是自然语言处理技术中的常见任务,并在网易有非常广泛的应用场景,如文字游戏、智能NPC、文章辅助创作、歌词辅助创作等。目前文本生成的标准范式是采用最大似然估计(MLE)作为优化方法。从分布的角度来看,MLE实际上最小化了真实数据和模型分布之间的KL散度(KLD)。但是,这种方法迫使模型对所有训练样本(无论这些样本质量如何)都分配了非零的概率。此外,在试图覆盖数据分布中的低概率区域,模型系统地高估了损坏的文本序列的概率,我们猜测这是自回归解码时文本退化的主要原因之一。为了补救这个问题,网易伏羲和清华大学黄民烈教授研究团队利用对异常值鲁棒的全变差距离(TVD),开发了合适的方式应用于语言生成。

KLD对于异常点更敏感,TCD是鲁棒的

实验表明KLD对于异常点是更敏感的,TCD是鲁棒的。

然后引入TaiLr目标来平衡TVD的估计。直观地说,TaiLr降低了具有低模型概率的真实数据样本的权重,并且具有可调整的惩罚强度。实验结果表明,我们的方法在不牺牲多样性的情况下减轻了对退化序列的高估,并在广泛的文本生成任务中提高了生成质量。

TaiLr目标的计算图

《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》

EUCLID:基于多项选择动态模型的高效无监督强化学习

关键词:无监督强化学习,预训练模型

涉及领域:Model-based RL,Unsupervised RL

强化学习(RL)通常需要大量的交互数据和精心设计的特定任务奖励进行策略学习,从而导致低的样本效率和难以快速泛化到新的下游任务。因此,无监督强化学习应运而生,即通过无监督的方式在无标签的大量样本中进行预训练,以此为先验知识达到在多个下游任务种快速适应的效果,这一训练范式能够促进强化学习在充满未知任务的现实世界的落地应用。

融入模型的无监督强化学习训练范式

但过往的工作往往专注于通过探索环境预训练出一个具有不同技能的策略,而仅仅通过多样化探索的预训练方式难以保证下游任务的性能提升,甚至可能导致预训练消耗越大,性能越低的“不匹配”问题。因此,网易伏羲和天津大学深度强化学习实验室团队提出了EUCLID框架,引入了基于模型的RL范式,通过长时间的预训练,从精确的动态模型中获益,以实现快速的下游任务适应和更高的采样效率。在微调阶段,EUCLID利用预先训练的动态模型进行策略引导的规划,这样的设置可以消除由不匹配问题引起的性能震荡,获得单调的性能提升。

EUCLID框架中的多项选择学习机制

EUCLID框架是首个将世界模型引入无监督强化学习的框架,解决了此前无监督强化学习难以在现实场景应用的最大问题——不匹配问题,能够在低成本的无标签数据预训练的基础上,只使用100k的交互样本快速适应多个下游任务,实现了基于无监督的高效预训练框架,相比model free算法提高20倍采样效率,并在URL社区的多个标准benchmark中达到接近上界的性能。在实际应用方面,EUCLID框架将对基于强化学习的游戏竞技机器人的训练起到显著降本增效作用。这是由于实际的游戏场景不同于学术研究中采用的模拟环境,需要大量计算资源来运行,而强化学习算法的训练又需要成规模地运行多个游戏实例进行样本采集,导致训练成本高昂。EUCLID框架可以有效地对游戏场景进行数字孪生建模,一旦完成建模,强化学习算法可以较少甚至不依赖于原始游戏场景进行样本采集。神经网络化的世界模型使得超大规模的样本采集和强化学习训练成为可能,这将极大提高游戏竞技机器人的训练效率,节省大量训练成本。

《Neural Episodic Control with State Abstraction》

基于状态抽象的神经情景控制

关键词:情景控制、状态抽象

情景控制(episodic control)方法通常会将Agent经历过的高价值样本保存到内存当中,并在学习的过程中利用内存中的已知信息来加快模型收敛,提升样本利用率。然而,已有的方法往往只记录真实的state、action和state value,而没有考虑样本之间的隐层信息(例如,状态转移、拓扑相似度等等),进而在泛化性、样本利用率等方面仍旧有所欠缺;此外,由于状态信息通常使用浮点数表示,已有方法无法有效存储和检索内存中的信息。

因此,网易伏羲和九州大学Pangu实验室研究团队提出改进的情景控制算法——NECSA(Neural Episodic Control with State Abstraction):

1.利用原始状态之间的多步转移信息,将高维的转移片段抽象到有限的格子空间中;

2.并提出一种高效的状态分析方法,来对格子空间中的状态进行综合评价;

3.最后,这些评价信息会以intrinsic reward的形式来辅助Agent学习,提升高价值样本的学习效率;

NECSA算法

实验结果表明,NECSA在所有的实验环境中都拿到了最高的分数,达到了state-of-the-art水平。

NECSA在所有的实验环境中都拿到了最高的分数

此外,NECSA可以作为一个独立的模块来方便的集成到已有的强化学习算法中,具备很强的通用性。NECSA的典型应用场景之一是游戏竞技机器人的训练。对于真实游戏场景中复杂且高维的状态表征,NECSA给出了一种基于状态分析来增强学习效果的新思路,一方面可以更好更快地达到优化目标(如:提升机器人竞技水平、拟人性等),另一方面还有可能提供良好的模型可解释性。网易伏羲未来将在多个游戏场景中推动NECSA方法的实际落地。

特别感谢清华大学黄民烈教授团队对《Tailoring Language Generation Models under Total Variation Distance》的重要研究贡献,感谢天津大学深度强化学习实验室对《EUCLID:Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》的重要研究贡献;以及九州大学Pangu实验室对《Neural Episodic Control with State Abstraction》的重要研究贡献。

网易伏羲作为国内专业从事游戏与泛娱乐AI研究和应用的顶尖机构,正在把AI技术和产品开放给更多合作伙伴,让人工智能技术惠及更多领域;目前,网易伏羲已服务超200家客户,应用日均调用量超数亿次。

相关文章
使用TensorFlow和Keras构建深度学习模型
构建一个基于TensorFlow和Keras的深度学习模型,用于图像分类任务。在这个示例中,我们将使用CIFAR-10数据集,它包含10个不同的类别,每个类别有6000张32x32彩色图像。
2023-06-02 10:24:53
如何使用线性回归预测连续变量(附实例)
本文介绍了线性回归的工作原理,并通过一个实际的例子演示了如何使用Python进行线性回归预测。线性回归是一种简单但有效的机器学习算法,可以用于解决许多实际问题,如房价预测、销售预测等。在实际应用中,我们需要根据具体问题选择合适的特征和模型,并进行数据预处理和模型优化,以获得更好的预测效果。
2023-06-02 10:15:10
用于对象识别的视觉词袋
随着计算机视觉领域的不断发展,人们对于对象识别的研究也越来越深入。其中,视觉词袋(visual bag-of-words,简称BoW)是常用的对象识别方法。本文将会介绍视觉词袋方法的原理、优缺点,并举例说明。
2023-06-01 10:56:01
图像分割注释的一致性对模型有什么影响?
在图像分割中,注释是指人工标记图像中每个像素所属的类别或区域。对于训练机器学习模型,准确的注释是至关重要的,因为它们是模型学习图像特征的基础。注释的一致性是指多个注释者对同一图像进行注释时所得到的注释结果的一致性。在实际应用中,通常需要多个注释者对同一图像进行注释,以确保注释的准确性和一致性。
2023-06-01 10:32:03
用于图像压缩的变分自编码器(附实现过程)
变分自编码器(Variational Autoencoder,VAE)是一种无监督学习的神经网络,可以用于图像压缩和生成。与传统的自编码器不同,VAE不仅可以重建输入图像,还可以生成类似于输入图像的新图像。VAE的主要思想是将输入图像编码为潜在变量的分布,然后从中采样生成新的图像。
2023-06-01 10:21:15
词干化与词形还原:提高文本分析准确性的重要预处理技术
词干化和词形还原是文本预处理中常用的技术,可以帮助减少词汇的复杂性,提高文本分析的准确性。在使用时应该根据具体任务需求选择合适的技术和工具,并注意处理不规则单词和多语言支持等问题。
2023-05-31 10:36:14
时间序列建模方法和过程(附实例)
时间序列建模是一种预测未来趋势和行为的方法,通过对历史数据的分析和建模,可以预测未来的趋势和行为。时间序列建模可以应用于多个领域,如经济学、金融学、气象学、工业生产等领域。本文将介绍时间序列建模的方法和过程,并提供实例。
2023-05-31 10:30:22
利用dropout层实现多层感知器的有效正则化
dropout是一种非常有效的正则化方法,可以帮助减少过拟合的风险。通过在训练期间随机删除神经元,dropout可以强制模型学习更加鲁棒的特征,并防止神经元之间的共适应。在实践中,使用dropout的方法非常简单,只需要在每个隐藏层之后添加一个dropout层,并指定一个保留概率即可。
2023-05-31 10:18:41
id3算法中信息增益是指什么
ID3算法是一种用于决策树学习的基本算法之一,它通过计算每个特征的信息增益来选择最佳的分裂点,从而生成一棵决策树。信息增益是ID3算法中一个非常重要的概念,用来衡量一个特征对于分类任务的贡献程度。本文将对信息增益的概念、计算方法以及在ID3算法中的应用进行详细介绍。
2023-05-30 10:29:21
id3算法生成决策树的过程(附实现代码)
ID3算法是一种简单而有效的决策树生成算法,它通过计算每个特征的信息增益来选择最佳特征,并递归地生成决策树。它在处理小数据集和具有离散特征的数据集时表现良好,并且易于理解和实现。但是,它不能处理连续特征和缺失值,并且容易受到噪声数据的干扰。因此,在实际应用中,需要根据数据集的特点选择合适的算法和优化技术。
2023-05-30 10:26:05

在线客服

合作咨询