网易伏羲获得NeurIPS MineRL BASALT竞赛冠军

发布：2023-03-16 13:58:41

阅读：19662

作者：网易伏羲

近日，一项以拟人化为目标的人工智能竞赛NeurIPS 2022 MineRL BASALT Competition公布了最终结果，网易伏羲凭借在所有竞赛任务上的出色表现，在历时三个月的严格评审环节中脱颖而出，夺得了冠军。网易伏羲作为游戏人工智能领域的专业研究机构，一直在开展游戏机器人拟人化的课题研究和业务落地。在许多游戏场景中，非玩家角色（Non-Player Character，缩写NPC）是否拟人，是否能够呈现出人类的行为和情感特征，往往会对玩家和游戏本身产生重要的影响。拟人化的非玩家角色可以：

使游戏的世界更加真实和具体，让玩家更好地理解游戏中的游戏机制和规则，提升游戏的沉浸感。
使玩家更容易与游戏中的角色产生情感共鸣，增加游戏的参与度。
让玩家获得更多的乐趣和成就感，提升游戏的内在价值和吸引力。

例如，即将公测的网易旗舰级武侠MMORPG逆水寒手游引入了全新的智能NPC系统，让玩家能和不同性格的NPC进行开放式的互动，打造了一个极具武侠江湖气息的世界，在内测期间广受好评。

正是基于拟人化课题的重要研究价值和业务价值，网易伏羲参与了此次MineRL BASALT竞赛。MineRL BASALT竞赛的全称为The MineRL Benchmark for Agents that Solve Almost-Lifelike Tasks Competition，本届比赛由主办方MineRL Labs依托于全球最具影响力的人工智能学术会议之一NeurIPS举办。竞赛要求每支参赛队伍提交能像人一样完成（甚至比人类更精专）四项Minecraft（我的世界）游戏任务的智能体（Agent），这些任务包括：

FindCave（图1）：在世界中漫游并寻找山洞，找到之后进入山洞。
WaterFall（图2）：找到合适的山顶位置造一个美丽的瀑布景观，然后走到低处欣赏瀑布。
AnimalPen（图3）：建造一个紧邻村落房屋的篱笆围栏，然后在世界中找到至少两只相同种类的小动物，并将它们引导到篱笆内。
VillageHouse（图4）：于所在的村落附近选择一块合适的空地，建造一个与村落建筑风格一致的房子，再绕房子一圈欣赏建造成果。

MineRL BASALT竞赛所提出的这些任务更加贴近人类的生产、生活，鼓励更加拟人化的智能体。然而，像人与否或者说拟人程度是一个较为主观的概念。毕竟，瀑布景观是否美丽、房子是否精美、建造过程是否合理等问题很难通过某种客观指标去精确刻画。因此，与以往的人工智能竞赛不同，MineRL BASALT竞赛并不以某种既定的指标来衡量参赛队伍的成绩，而是通过人类专家评审的方式来比较参赛队伍所提交智能体的优劣。

竞赛主办方为参赛者提供了650GB的专家数据集用以算法训练，每一条专家数据包含一段视频以及对应的动作序列。此外，主办方还提供了OpenAI发布的VPT（Video Pre-Trained）模型，允许参赛者基于该模型进行算法训练。尽管没有对参赛者采用何种技术做出限制，竞赛主办方更希望参赛者能从人机协作的角度，以Learning from Human Feedback为指导思想来创造更加智能的AI程序。为此，主办方给参赛者设置了不少挑战：

不提供Minecraft环境的内部状态（例如：位置坐标、地形地貌信息），只提供游戏画面作为智能体的观察输入，同时也不提供任何奖励信号。
在对参赛者的方案进行复现的验证阶段，参赛者提交的算法只能利用6核CPU、56GB内存、单张K80显卡进行训练，并且训练时间只有4天。
允许参赛者采用自己的数据训练模型，但数据总量不能超过30M。
允许利用公开的预训练模型，但模型总大小不能超过30M（VPT模型除外）。

这些限制尽管给参赛者带来极大的挑战，但在现实场景的应用中却非常普遍，这也进一步表明了利用人类知识或反馈来辅助算法模型训练的必要性。网易伏羲遵循了人机协作的训练范式，所采用的解决方案融合了方法和人类先验，利用二者各自的优势对彼此进行互补。经过分析，网易伏羲团队发现竞赛所要求的四项任务都可以拆分为两个部分：

人类无法准确（用代码）描述怎么做的部分，主要是一些识别任务，如：如何在游戏画面中识别出山洞，如何识别出一块放置瀑布的地方。
人类可以准确描述怎么做的部分，主要是一些可以流程化的任务，如：导航到发现的山洞，放置瀑布。

对于识别类的任务，团队采用了“自动样本生成→人工样本标注→分类/识别模型训练→模型自动标注→人工检验→模型修正”的人机协作训练方法。其中，“模型自动标注→人工检验→模型修正”的过程会反复循环执行，直到分类/识别模型的效果符合预期。对于流程化的任务，团队采用了一种游戏AI开发中常用的方法——有限状态机（Finite State Machine，FSM）来将人类先验知识转化成代码。图5展示了网易伏羲所采用方案的总体框架。

图6到图9分别展示了网易伏羲竞赛方案在四项任务中的最终效果。可以看出由人机协作方案训练出的智能体在FindCave任务中可以准确识别出山洞，在WaterFall任务中能够在山间选一个合适的位置放置瀑布并造出水帘洞效果，在AnimalPen任务中能在地上挖坑防止小动物跑掉，在VillageHouse任务中还能在误入山洞之后破土而出再进行房屋建造，最终效果如图6-图9所示：

本次竞赛中网易伏羲所开发的解决方案基于网易伏羲自主研发的有灵机器人平台实现。有灵机器人是网易伏羲推出的人机协作线上任务平台（以下简称“平台”），支持用户快速建模、发布和运营可由机器与人协作完成的任务。平台的基础是网易伏羲基于MDP(Markov Decision Processes,马尔可夫决策过程)、POMDP(Partially Observable Markov Decision Process,部分可观察马尔可夫决策过程)等数学模型设计的全新编程范式——AOP（Agent-Oriented Programming，面向智能体编程），其核心价值在于为对接机器（或AI）和人工提供了统一的规范接口和服务。

图10展示了有灵机器人平台的整体架构，基于AOP的编程范式，平台主要包含了AI能力系统、众包平台和低代码平台。其中，AI能力系统集成了网易伏羲在机器学习算法和模型训练方面的多年积累，众包平台为AI能力系统中算法模型的训练提供源源不断的高质量数据，低代码平台支持学习任务和众包任务的快速构建和发布，并能将样本生成、数据存储、模型训练、模型部署进行串联，形成自动闭环。

以本次MineRL BASALT竞赛为例，网易伏羲所采用的人机协作模型训练方法在“人工样本标注”和“人工检验”阶段将相应的众包任务通过低代码平台发布到众包平台中，而经过人类标注的数据再通过AOP规范化接口输入到AI能力系统中，喂给机器学习算法进行分类/识别模型的训练和修正。值得一提的是，众包数据的质量直接影响着模型训练的效果。

伏羲有灵众包平台提供了基于用户画像的区间估计、真值推断等自动质检功能，在降本增效、缩短标注周期、保证质量等方面都有一系列的前沿算法举措，同时也是目前市面上唯一可以支持实时人机交互标注方式的众包平台。也正是得益于有灵机器人平台提供的能力支撑，网易伏羲才能在短时间内完成人机协作模型训练方案，克服本次MineRL BASALT竞赛的诸多挑战，夺得最终的冠军。

除此之外，网易伏羲强化学习团队也基于有灵机器人平台，为网易旗下24工作室的知名动作游戏《永劫无间》提供了拟人化机器人的支持，这其中主要包括了寻路机器人和战斗机器人。在寻路方面，为了实现能够像玩家一样飞檐走壁、吾身无拘的机器人，比较关键的一点是要对永劫无间高度复杂的三维场景有非常良好的感知。为此，网易伏羲团队为算法模型设计了包括射线雷达、球状雷达、深度图、时间序列等在内的一系列复杂输入特征和处理这些特征的神经网络结构。而基于有灵机器人AOP编程范式，只需要利用其规范化的接口定义模型输入、输出特征和模型结构，就能直接调用AI能力系统中的学习算法进行训练，完全做到与算法端解耦合。

图11展示了网易伏羲强化学习团队所训练出的拟人化寻路机器人与游戏原本内置的寻路机器人之间的差异。可以看到，内置AI只会一直不停地跳着前进，而伏羲AI能够像较高水平玩家那样，采用滑步蓄力、钩索拉近等高阶操作方式前进。目前，网易伏羲强化学习团队正在利用伏羲有灵众包平台，构建类似于竞赛中的数据-训练-评估自动闭环，进一步优化永劫无间中机器人的拟人性。

自然界经过漫长的生物进化过程才造就了人类这样的智慧生物，而人类在创造高智能机器人的过程中，如果能有效利用自身的知识和智慧来辅助机器人“进化”，则一定会极大地加速这个过程。在未来几十年里，人机协作将会是社会智能化发展的主旋律，机器的智能需要人类提携，人类智能需要机器辅助。在智能体与世界连接的根节点上，一定不会缺少人类，只是角色可能不断的从任务的执行者变为组织者、管理者、决策者和发现者。

网易有灵机器人在提供任务标准化建模工具的基础上，期望能作为中小型企业和广大劳动者的桥梁，为任务的建模、发布和执行提供平台化支撑。未来，有灵机器人将探索更多虚实融合的场景，让智能体去更好地满足人们生产劳动的需求，并全面开放合作共建机会，与生态伙伴共创人机协作新时代。

人工智能

人工智能开发工具：推动技术创新的核心驱动力

人工智能开发工具涵盖多个维度，满足不同场景需求。代码生成与辅助工具通过自然语言解析业务逻辑，快速生成可执行代码，显著提升开发效率。低代码/无代码平台以可视化界面为核心，允许非技术用户通过拖拽操作搭建AI应用，缩短项目周期。智能体开发框架则聚焦多代理系统协作，支持复杂任务的自动化编排与执行。此外，模型训练与部署平台提供全流程解决方案，涵盖数据预处理、算法优化到云端部署，助力企业高效完成模型迭代。

2025-07-04 17:19:15

人工智能开发工具：加速智能时代的核心引擎

人工智能开发工具正重塑技术创新流程，通过模块化组件、自动化训练和可视化部署，将算法能力转化为行业解决方案。这类工具的核心价值在于降低开发门槛，使企业能够快速构建专属智能系统。本文将从工具类型、核心功能、场景赋能及技术演进四个维度，解析人工智能开发工具如何推动产业智能化进程。

2025-07-04 17:17:14

人工智能技术属性：算法创新与多维特征的融合

人工智能技术属性是理解其核心价值与发展方向的关键。作为计算机科学的重要分支，人工智能的本质在于模拟人类智能，其技术属性不仅体现在算法模型的创新上，还涵盖了智能性、自主性、协同性等多维度特征。这些属性共同构成了人工智能技术的基础框架，并推动其在各领域的深度应用。

2025-07-03 18:03:16

人工智能技术属性解析：驱动智能变革的核心基因

人工智能技术正重塑全球产业格局，其本质是通过模拟人类认知机制构建自主决策系统。区别于传统软件，人工智能具备持续进化、环境适配与自主决策三重技术特性，成为数字化转型的核心引擎。本文从智能性、适应性、自主性、进化性四个维度，系统拆解人工智能的技术基因及其产业赋能逻辑。

2025-07-03 18:00:18

人工智能与智能社会：技术革命与社会变革的双重奏

人工智能（AI）是计算机科学的核心分支，旨在模拟人类智能，实现感知、认知、决策等能力。其发展历程可分为三个阶段：符号逻辑阶段（1956-1976）：以布尔代数和演绎推理为基础，开发逻辑编程语言及机器定理证明系统。专家系统阶段（1976-2006）：通过知识库与规则构建领域专家系统，如医疗诊断、农业咨询等，但受限于人工知识构建的局限性。深度学习阶段（2006至今）：依托大数据与神经网络技术，实现图像识别、自然语言处理等突破，推动AI进入实用化时代。

2025-07-02 17:48:17

人工智能与智能社会：塑造未来的核心驱动力

人工智能（AI）正以前所未有的深度与广度渗透社会生活，驱动传统社会形态向智能社会加速演进。这一转型不仅体现在技术工具的革新，更意味着社会运行规则、产业模式、治理理念与人类生活方式的系统性重构。

2025-07-02 17:47:17

主视觉KV设计：品牌传播的核心视觉语言

主视觉KV（Key Vision）是品牌或活动推广中的核心视觉设计，通过统一的图形、色彩和文案传递品牌价值或活动主题。它不仅是品牌识别的视觉符号，更是市场传播的“定盘星”，为后续海报、包装、宣传物料等提供风格指引。优秀的主视觉KV能快速吸引目标受众注意，强化品牌记忆，提升市场竞争力。

2025-07-01 18:02:48

人工智能模型与理论：技术演进与未来方向

人工智能模型与理论的发展经历了从符号主义到连接主义，再到深度学习的多重变革。早期符号主义依赖逻辑推理和规则系统，通过明确的符号表示模拟人类思维，但受限于知识获取的复杂性。20世纪80年代，连接主义兴起，神经网络通过模拟人脑神经元之间的连接关系，逐步实现对数据的非线性建模。这一阶段的突破性成果包括反向传播算法和感知机，为后续深度学习奠定了基础。

2025-07-01 17:57:18

人工智能模型与理论的核心框架与应用逻辑

人工智能模型与理论研究构建了现代智能系统的根基，其核心在于通过数学框架与计算机制模拟人类认知能力。本文将系统拆解基础理论模型、关键学习范式及产业落地逻辑，为技术实践提供理论锚点。

2025-07-01 17:52:40

人工智能架构：技术分层与未来演进

人工智能架构的基础层由硬件设施和数据服务构成。硬件设备包括高性能芯片（如GPU、TPU）、服务器及存储系统，为大规模计算提供算力支持。例如，AI芯片通过并行计算加速深度学习训练，而分布式存储系统则保障海量数据的快速读写。数据服务涵盖数据采集、清洗、标注与管理。高质量数据是AI模型训练的“燃料”，经过预处理后形成标准化数据集。例如，图像识别领域依赖标注精确的图片库，自然语言处理则需要语料库的持续扩展。这一层的技术突破，直接决定AI系统的性能上限。

2025-06-30 17:53:17