网易伏羲获得NeurIPS MineRL BASALT竞赛冠军

发布:2023-03-16 13:58:41
阅读:8437
作者:网易伏羲
分享:复制链接

近日,一项以拟人化为目标的人工智能竞赛NeurIPS 2022 MineRL BASALT Competition公布了最终结果,网易伏羲凭借在所有竞赛任务上的出色表现,在历时三个月的严格评审环节中脱颖而出,夺得了冠军。网易伏羲作为游戏人工智能领域的专业研究机构,一直在开展游戏机器人拟人化的课题研究和业务落地。在许多游戏场景中,非玩家角色(Non-Player Character,缩写NPC)是否拟人,是否能够呈现出人类的行为和情感特征,往往会对玩家和游戏本身产生重要的影响。拟人化的非玩家角色可以:

  • 使游戏的世界更加真实和具体,让玩家更好地理解游戏中的游戏机制和规则,提升游戏的沉浸感。
  • 使玩家更容易与游戏中的角色产生情感共鸣,增加游戏的参与度。
  • 让玩家获得更多的乐趣和成就感,提升游戏的内在价值和吸引力。

例如,即将公测的网易旗舰级武侠MMORPG逆水寒手游引入了全新的智能NPC系统,让玩家能和不同性格的NPC进行开放式的互动,打造了一个极具武侠江湖气息的世界,在内测期间广受好评。

正是基于拟人化课题的重要研究价值和业务价值,网易伏羲参与了此次MineRL BASALT竞赛。MineRL BASALT竞赛的全称为The MineRL Benchmark for Agents that Solve Almost-Lifelike Tasks Competition,本届比赛由主办方MineRL Labs依托于全球最具影响力的人工智能学术会议之一NeurIPS举办。竞赛要求每支参赛队伍提交能像人一样完成(甚至比人类更精专)四项Minecraft(我的世界)游戏任务的智能体(Agent),这些任务包括:

  • FindCave(图1):在世界中漫游并寻找山洞,找到之后进入山洞。
  • WaterFall(图2):找到合适的山顶位置造一个美丽的瀑布景观,然后走到低处欣赏瀑布。
  • AnimalPen(图3):建造一个紧邻村落房屋的篱笆围栏,然后在世界中找到至少两只相同种类的小动物,并将它们引导到篱笆内。
  • VillageHouse(图4):于所在的村落附近选择一块合适的空地,建造一个与村落建筑风格一致的房子,再绕房子一圈欣赏建造成果。
Minecraft游戏任务的智能体

MineRL BASALT竞赛所提出的这些任务更加贴近人类的生产、生活,鼓励更加拟人化的智能体。然而,像人与否或者说拟人程度是一个较为主观的概念。毕竟,瀑布景观是否美丽、房子是否精美、建造过程是否合理等问题很难通过某种客观指标去精确刻画。因此,与以往的人工智能竞赛不同,MineRL BASALT竞赛并不以某种既定的指标来衡量参赛队伍的成绩,而是通过人类专家评审的方式来比较参赛队伍所提交智能体的优劣。

竞赛主办方为参赛者提供了650GB的专家数据集用以算法训练,每一条专家数据包含一段视频以及对应的动作序列。此外,主办方还提供了OpenAI发布的VPT(Video Pre-Trained)模型,允许参赛者基于该模型进行算法训练。尽管没有对参赛者采用何种技术做出限制,竞赛主办方更希望参赛者能从人机协作的角度,以Learning from Human Feedback为指导思想来创造更加智能的AI程序。为此,主办方给参赛者设置了不少挑战:

  • 不提供Minecraft环境的内部状态(例如:位置坐标、地形地貌信息),只提供游戏画面作为智能体的观察输入,同时也不提供任何奖励信号。
  • 在对参赛者的方案进行复现的验证阶段,参赛者提交的算法只能利用6核CPU、56GB内存、单张K80显卡进行训练,并且训练时间只有4天。
  • 允许参赛者采用自己的数据训练模型,但数据总量不能超过30M。
  • 允许利用公开的预训练模型,但模型总大小不能超过30M(VPT模型除外)。

这些限制尽管给参赛者带来极大的挑战,但在现实场景的应用中却非常普遍,这也进一步表明了利用人类知识或反馈来辅助算法模型训练的必要性。网易伏羲遵循了人机协作的训练范式,所采用的解决方案融合了方法和人类先验,利用二者各自的优势对彼此进行互补。经过分析,网易伏羲团队发现竞赛所要求的四项任务都可以拆分为两个部分:

  • 人类无法准确(用代码)描述怎么做的部分,主要是一些识别任务,如:如何在游戏画面中识别出山洞,如何识别出一块放置瀑布的地方。
  • 人类可以准确描述怎么做的部分,主要是一些可以流程化的任务,如:导航到发现的山洞,放置瀑布。

对于识别类的任务,团队采用了“自动样本生成→人工样本标注→分类/识别模型训练→模型自动标注→人工检验→模型修正”的人机协作训练方法。其中,“模型自动标注→人工检验→模型修正”的过程会反复循环执行,直到分类/识别模型的效果符合预期。对于流程化的任务,团队采用了一种游戏AI开发中常用的方法——有限状态机(Finite State Machine,FSM)来将人类先验知识转化成代码。图5展示了网易伏羲所采用方案的总体框架。

网易伏羲所采用方案的总体框架

图6到图9分别展示了网易伏羲竞赛方案在四项任务中的最终效果。可以看出由人机协作方案训练出的智能体在FindCave任务中可以准确识别出山洞,在WaterFall任务中能够在山间选一个合适的位置放置瀑布并造出水帘洞效果,在AnimalPen任务中能在地上挖坑防止小动物跑掉,在VillageHouse任务中还能在误入山洞之后破土而出再进行房屋建造,最终效果如图6-图9所示:

最终效果如图6-图9

本次竞赛中网易伏羲所开发的解决方案基于网易伏羲自主研发的有灵机器人平台实现。有灵机器人是网易伏羲推出的人机协作线上任务平台(以下简称“平台”),支持用户快速建模、发布和运营可由机器与人协作完成的任务。平台的基础是网易伏羲基于MDP(Markov Decision Processes,马尔可夫决策过程)、POMDP(Partially Observable Markov Decision Process,部分可观察马尔可夫决策过程)等数学模型设计的全新编程范式——AOP(Agent-Oriented Programming,面向智能体编程),其核心价值在于为对接机器(或AI)和人工提供了统一的规范接口和服务。

图10展示了有灵机器人平台的整体架构,基于AOP的编程范式,平台主要包含了AI能力系统、众包平台和低代码平台。其中,AI能力系统集成了网易伏羲在机器学习算法和模型训练方面的多年积累,众包平台为AI能力系统中算法模型的训练提供源源不断的高质量数据,低代码平台支持学习任务和众包任务的快速构建和发布,并能将样本生成、数据存储、模型训练、模型部署进行串联,形成自动闭环。

网易有灵机器人平台整体架构

以本次MineRL BASALT竞赛为例,网易伏羲所采用的人机协作模型训练方法在“人工样本标注”和“人工检验”阶段将相应的众包任务通过低代码平台发布到众包平台中,而经过人类标注的数据再通过AOP规范化接口输入到AI能力系统中,喂给机器学习算法进行分类/识别模型的训练和修正。值得一提的是,众包数据的质量直接影响着模型训练的效果。

伏羲有灵众包平台提供了基于用户画像的区间估计、真值推断等自动质检功能,在降本增效、缩短标注周期、保证质量等方面都有一系列的前沿算法举措,同时也是目前市面上唯一可以支持实时人机交互标注方式的众包平台。也正是得益于有灵机器人平台提供的能力支撑,网易伏羲才能在短时间内完成人机协作模型训练方案,克服本次MineRL BASALT竞赛的诸多挑战,夺得最终的冠军。

除此之外,网易伏羲强化学习团队也基于有灵机器人平台,为网易旗下24工作室的知名动作游戏《永劫无间》提供了拟人化机器人的支持,这其中主要包括了寻路机器人和战斗机器人。在寻路方面,为了实现能够像玩家一样飞檐走壁、吾身无拘的机器人,比较关键的一点是要对永劫无间高度复杂的三维场景有非常良好的感知。为此,网易伏羲团队为算法模型设计了包括射线雷达、球状雷达、深度图、时间序列等在内的一系列复杂输入特征和处理这些特征的神经网络结构。而基于有灵机器人AOP编程范式,只需要利用其规范化的接口定义模型输入、输出特征和模型结构,就能直接调用AI能力系统中的学习算法进行训练,完全做到与算法端解耦合。

图11展示了网易伏羲强化学习团队所训练出的拟人化寻路机器人与游戏原本内置的寻路机器人之间的差异。可以看到,内置AI只会一直不停地跳着前进,而伏羲AI能够像较高水平玩家那样,采用滑步蓄力、钩索拉近等高阶操作方式前进。目前,网易伏羲强化学习团队正在利用伏羲有灵众包平台,构建类似于竞赛中的数据-训练-评估自动闭环,进一步优化永劫无间中机器人的拟人性。

永劫无间拟人化寻路机器人效果展示

自然界经过漫长的生物进化过程才造就了人类这样的智慧生物,而人类在创造高智能机器人的过程中,如果能有效利用自身的知识和智慧来辅助机器人“进化”,则一定会极大地加速这个过程。在未来几十年里,人机协作将会是社会智能化发展的主旋律,机器的智能需要人类提携,人类智能需要机器辅助。在智能体与世界连接的根节点上,一定不会缺少人类,只是角色可能不断的从任务的执行者变为组织者、管理者、决策者和发现者。

网易有灵机器人在提供任务标准化建模工具的基础上,期望能作为中小型企业和广大劳动者的桥梁,为任务的建模、发布和执行提供平台化支撑。未来,有灵机器人将探索更多虚实融合的场景,让智能体去更好地满足人们生产劳动的需求,并全面开放合作共建机会,与生态伙伴共创人机协作新时代。

扫码进群
微信群
免费体验AI服务