SIGGRAPH Asia 2024 | 网易伏羲研究成果入选，3D面部动画技术再获新突破

发布：2024-10-10 15:18:42

阅读：30316

作者：网易伏羲

近日，国际计算机图形与交互技术顶会SIGGRAPH Asia 2024公布论文接收结果：网易伏羲最新研究成果《FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model》成功入选。今年12月，SIGGRAPH Asia 2024大会将在日本东京举行，届时网易伏羲实验室视觉计算团队成员将在大会现场亲述报告，与来自世界各地的计算机图形学专家和爱好者进行深入交流。

ACM SIGGRAPH年会由美国计算机学会（ACM）主办的计算机图形学顶级年度会议，每年在全球范围内举行两次，包括夏季在北美举办的SIGGRAPH以及冬季在亚洲举办的SIGGRAPH Asia。该会议是迄今为止世界上影响最广、规模最大，也是最权威的集科学、技术、艺术、商业于一身的图形学技术展示和学术会议。

此次网易伏羲的相关研究成果成功入选并受邀分享，彰显了其在表情理解与生成领域长期的创新努力，同时也为这些技术的应用与进步开辟了新的方向。该项研究成果首先在游戏中进行了落地实验，目前已成功应用于《逆水寒》手游中，合作推出的独具特色的“剧组模式”玩法自3月上线以来受到用户广泛好评，玩家能在游戏中一键完成AI选角、取景和拍摄，打字就能生成影视大片。

此外，在表情捕捉技术方面，该技术相较于传统的面部捕捉技术展现出了明显的优势。传统方法通常需要先进行面部捕捉，然后由美术人员进行精修；而采用我们的方法，算法可以直接输出高质量的结果，只需少量精修即可达到甚至超越传统方法的效果，不仅大幅减少了面部捕捉后处理的人力需求，显著提升了工作效率，同时也确保了最终输出的高质量。

在推动实践应用的同时，网易伏羲也在不断推进技术的迭代更新。论文中的核心技术——表情理解能力，已在ICCV 2021、CVPR 2022、CVPR 2023、CVPR 2024以及ECCV 2024国际表情识别挑战赛中连续五年夺冠，在CVPR 2024和ECCV 2024中更是包揽了全部赛道的冠军。未来，网易伏羲将进一步深入探索人脸表情的细粒度理解和生成，为行业带来更多创新成果。

以下为本次入选论文概要：

《FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model》

基于表情基础大模型实现鲁棒的3D面部动画迁移

关键词：表情表征，面部动画迁移，半监督学习涉及领域：表情理解，面部动画捕捉，人脸重建

论文链接：http://arxiv.org/abs/2409.13180

开源链接：https://github.com/FuxiVirtualHuman/free_avatar

3D面部动画迁移旨在捕捉人类面部的表情和动作，为数字化身创建逼真的面部动画。相关技术在多个领域展现出广阔的应用前景，尤其是在数字人、CG游戏、虚拟现实（VR）和增强现实（AR）等领域。它不仅可以增强角色动画的真实性和细节，使游戏世界更加生动，还能提供更加沉浸式的体验，帮助用户在虚拟环境中实现更自然的互动和交流。在工业界，面部动作捕捉系统，如Faceware和ARKit已经被广泛应用于实际生产，相比手动创建的动画，这些系统能够呈现更为精细的面部表情。随着计算机视觉技术的发展，视频驱动的面部动画迁移方法因其便捷性和低成本而受到越来越多的关注。然而，在实现自然和准确的表情迁移的同时，保证面部表情的一致性仍是一个待解决的挑战。

现有的方法通常同时采用面部几何先验和表情特征，以保持输入人脸和目标脸之间表情的语义一致性。然而，这些方法往往难以驱动目标角色生成高保真表情。首先，基于面部标记点的几何约束难以有效捕捉表达的细微变化，例如轻微皱眉和嘴唇压缩。此外，现有方法所采用的表情特征通常基于有限类别的离散情感分类任务进行训练，无法捕捉到细微的情感差异。

在此背景下，网易伏羲开创性地提出了一种仅依赖表情表征的高精度面部动画迁移方法——FreeAvatar，不仅能够在不牺牲精度的情况下大幅提升动画生成的速度，还能够更好地捕捉到细微的情感差异，使得生成的面部动画更加自然流畅。

该方法首先通过学习一个表情基础大模型(Expression Foundation Model)，构建了一个细粒度且表征能力强大的隐空间。在这个空间中，具有相似表情的面部图像会聚集在一起，而不同表情的图像则相互远离。接着，我们提出了一种高效的表情驱动多角色动画器(Expression-driven Multi-avatar Animator)，能够从提取的表情表征中自适应地生成多个目标角色的面部动画。这一技术突破将大幅降低动画制作的成本与门槛，同时有效提升角色表情的细腻程度和真实感，为多个行业领域提供了创新的解决方案。

该方法的具体亮点和突破如下：

算法创新：我们开发的表情基础大模型旨在构建一个通用的、细粒度且连续的潜在空间，该空间能够适应多种风格的面部图像，包括风格化的人物角色。借助这一模型，FreeAvatar 在进行面部动画迁移时能够保持高度的表情一致性。鲁棒性强：该方案不仅适用于各种背景、光照条件以及不同视角下的面部图像，而且我们还专门针对非真人面部进行了数据和算法优化，确保了其在处理动漫角色或卡通人物时同样具备优秀的泛化能力。降低成本与使用门槛：只需输入一张RGB图像，就能生成相应虚拟角色的面部动画，极大地扩展了应用范围的同时，显著降低了使用成本和技术门槛。

为了展示这一方法的有效性，以下是一系列演示案例，包括与现有面部捕捉设备的比较，与单目人脸重建方法的比较以及结合人脸重建技术完成特定角色的面部动画迁移。这些测试结果不仅凸显了该面部动画迁移算法在处理多样化的面部表情时所具备的高保真度，同时也证明了其在各种复杂环境条件下，甚至是应用于风格化的动漫角色时，依然保持着出色的泛化能力。这一系列的测试验证了该算法作为面部动画制作领域的一种低成本、低门槛、高效解决方案的潜力。

与Faceware面部捕捉设备的效果对比

与MataHuman Animator面部捕捉设备的效果对比

与最新单目人脸重建方案的效果对比

结合人脸重建技术生成特定演员的3D面部动画

（输入素材来源于网络，如有侵权请联系我们）

此次入选SIGGRAPH Asia 2024，标志着网易伏羲在表情理解与生成领域的前沿探索得到了国际认可。未来，随着技术的不断进步，网易伏羲将继续深化对面部表情细粒度理解和生成的研究，推动相关技术迈向更高层次，为行业带来更多的创新成果，助力创造更加丰富和真实的虚拟体验。我们期待，在不久的将来，无论是虚拟的游戏世界还是现实的应用场景，都能在网易伏羲表情理解与生成技术的推动下展现出更加细腻的情感表达，共同开启一个全民共创、充满创意与想象力的新时代。

扫码入群探讨更多前沿技术进展

市场生态合作:fuxi.mkt@service.netease.com

商务合作：fuxi@service.netease.com

合作电话：（0571）89852163转21951

AOP 人工智能

人工智能之模型与理论：智能系统构建的科学根基

人工智能的理论体系为模型设计提供逻辑基础与方法论指导，而模型则是理论在具体任务中的实现载体。理论研究关注智能的本质、学习的边界、推理的机制等根本问题，涵盖计算学习理论、概率推理、优化方法、信息论等；模型则聚焦于可计算、可训练、可部署的算法结构，如神经网络、决策树、支持向量机等。二者相辅相成：理论推动模型创新，模型验证理论可行性。正是这种“理论—模型—应用”的闭环演进，驱动了人工智能从符号主义、连接主义到当前数据驱动范式的持续跃迁。

2026-03-06 18:36:24

人工智能之模型与理论：驱动智能涌现的核心引擎

当我们谈论人工智能时，那些令人惊叹的图像生成、流畅的对话交互和精准的预测决策，都非凭空产生。它们背后，站着一系列深邃的数学模型与理论基础，正是这些理论与模型的演进与突破，构成了人工智能从概念走向现实、从简单走向强大的核心驱动力量。理解人工智能的模型与理论，并非仅是技术专家的专利，更是我们洞察科技发展趋势、把握未来创新方向的关键。它揭示了机器如何学习、如何理解、如何进行决策的内在逻辑。从浅显的线性回归到深不可测的神经网络，从经典的符号主义到连接主义的崛起，一部人工智能发展史，本质上就是其核心模型与理论不断进化与融合的历史。

2026-03-06 18:35:50

人工智能-机器视觉：赋能现代产业的智慧感知基石

在当今科技飞速发展的时代，人工智能与机器视觉的结合正以前所未有的深度与广度重塑我们的生产和生活。这不仅仅是让机器“看见”图像，更是赋予其理解、分析和决策的能力，就像为设备装上了智能的眼睛与大脑。从无人工厂里精准的自动化检测，到自动驾驶汽车对复杂环境的感知，再到医疗影像的辅助分析，人工智能驱动的机器视觉已成为推动各行业智能化升级的核心力量。理解这一融合技术的核心内涵、技术架构与应用价值，对于把握数字化转型的脉搏至关重要。

2026-03-04 17:30:34

人工智能-机器视觉：赋能智能感知的核心技术

机器视觉是人工智能在图像与视频理解领域的关键应用分支，致力于让计算机系统具备“看”和“理解”视觉信息的能力。它通过摄像头、传感器等设备采集图像数据，结合图像处理、模式识别与深度学习算法，实现对目标的检测、识别、测量、定位与行为分析。人工智能为机器视觉提供了强大的模型训练与推理能力，使其从传统的规则化图像处理迈向数据驱动的智能感知。二者深度融合，共同构成了智能制造、自动驾驶、安防监控、医疗影像等众多智能化场景的技术底座。

2026-03-04 17:29:58

人工智能-机器学习：驱动智能时代的核心引擎与演进路径

在当今数字化浪潮中，人工智能与机器学习已然成为推动社会变革和产业升级的核心技术力量。它们不仅是学术研究的前沿热点，更是广泛应用于各行各业、重塑生产与生活方式的实践工具。理解人工智能与机器学习的深刻内涵、相互关系以及发展脉络，对于把握技术趋势、发掘商业价值至关重要。

2026-02-26 18:22:08

人工智能-机器学习：驱动智能系统发展的核心技术引擎

人工智能是使机器模拟人类智能行为的科学与工程，涵盖感知、推理、学习、决策与交互等多个维度。而机器学习作为人工智能的核心分支，专注于通过算法让计算机系统从数据中自动学习规律，并在未见过的场景中做出预测或决策。简言之，机器学习为人工智能提供了“从经验中成长”的能力，使其不再依赖人工编写的固定规则，而是通过数据驱动实现自适应优化。当前绝大多数先进的人工智能应用，如图像识别、语音助手、推荐系统等，其底层技术均建立在机器学习基础之上。

2026-02-26 18:19:01

具身智能：打开AI通往物理世界的新大门

要理解具身智能，首先需要打破一个常见的惯性认知：智能并非只存在于“大脑”中。具身智能的核心思想源于“具身认知”哲学理念，它强调感知、思考、学习和行动是一个连续、一体的过程，而智能正是从智能体（Agent）本身与其所处环境的持续动态交互中涌现出来的能力。简单定义，具身智能是指一个拥有物理或虚拟身体的智能体，它能够通过该身体所具备的多模态传感器（如视觉、听觉、触觉）去主动感知环境，并通过计算模型（如深度学习、强化学习）进行理解、推理与规划后，驱动执行器（如机械臂、轮子）与环境产生互动，从而完成特定任务或在交互中自我进化。其核心特征在于形成一个紧密的 “感知-理解-决策-行动” 闭环，使智能体能够在充满不确定性的动态物理世界中自适应地运行。这与传统AI仅在静态、封闭的数据集上进行训练和推理的模式形成了鲜明对比。具身智能的“身体”是它理解世界、获取经验并最终执行任务的必要媒介。

2026-02-25 18:18:38

具身智能：在物理世界中生成与演化的智能新范式

具身智能（Embodied Intelligence）是一种强调智能必须根植于具有物理形态的身体，并通过与环境持续交互而涌现的认知科学与人工智能范式。其核心观点是：真正的智能并非仅源于抽象符号处理或静态数据训练，而是通过感知、行动与环境反馈的闭环循环中逐步形成。具身智能体拥有可与物理世界互动的身体——无论是机器人、虚拟角色还是生物体——并通过“做中学”（learning by doing）不断积累经验、调整策略并发展出适应性行为。这一范式标志着人工智能从“观察世界”向“生活在世界中”的根本转变。

2026-02-25 18:04:55

具身智能的发展趋势：从理论探索到产业融合的演进路径

当前具身智能系统正从孤立的功能模块向一体化架构发展。传统机器人系统通常将感知、规划、控制等环节分离设计，导致信息流断裂与决策延迟。新一代具身智能架构强调端到端的学习与优化，通过多模态融合感知、统一表征学习和联合策略训练，实现从原始传感器输入到动作输出的直接映射。这种架构能够更好地处理现实世界中的不确定性，提高系统的适应性与鲁棒性。

2026-02-09 18:25:33

具身智能的发展趋势：迈向通用物理智能体的演进路径

具身智能正经历从任务专用向任务通用的关键转变。早期系统多针对单一场景（如仓库分拣、家庭递送）进行定制开发，行为模式固定、泛化能力弱。当前发展趋势聚焦于构建具备跨任务迁移能力的通用具身智能体，其核心在于发展统一的感知-决策-执行架构，使同一智能体能通过高层指令理解与底层技能复用，完成多样化物理任务。例如，一个机器人既能整理桌面，也能操作家电或协助烹饪。这种通用性依赖于基础模型的引入与模块化技能库的建设，标志着具身智能从“工具”向“伙伴”的角色升级。

2026-02-09 18:24:52