网易伏羲：让生成式AI与中国用户心有灵犀

发布：2023-04-13 11:12:23

阅读：34027

作者：网易伏羲

从临近中国的兔年开始，生成式AI（又称AIGC）的发展可谓“兔”飞猛进。几乎每周都有许多新的消息和成果发布，更低的门槛和更好的效果不断冲击大众认知，让越来越多的人认知到生成式AI已经成为推进下一轮技术革新的重要动力。同时，也有越来越多的人开始思考一些问题，比如：为什么最好的生成效果不在中国？中国的生成式AI离国外有多远？要做出最好的生成式AI，除了模型，我们还需要建设哪些东西？

网易伏羲作为国内首个专注数字文娱领域的人工智能研究机构，从17年成立之初开始关注生成式AI的发展和落地可能，这些问题在过去的几年内不断在团队内部被提及、讨论，并驱动一系列工作的开展和推进。本文将介绍网易伏羲对这些问题的思考，以及当前的一些进展。

自然语言与生成式AI

这一轮生成式AI的爆发，需要从自然语言处理技术的突破说起，17年谷歌提出Transformer架构，使得计算机可以更加高效地进行文本内容知识的学习，从而推动BERT、GPT等一些列大规模文本模型的诞生，从理解和生成的维度都获得了巨大突破。

自然语言处理这门连接人类和计算机交流的基础学科，也成为驱动包括文本、图像、音频、视频、三维模型等各个维度生成式AI爆发的核心基座。一方面人们从海量的互联网数据当中整理可以用于生成式AI训练的数据，另外一方面通过自然语言来对齐各个模态的信息，使得这些知识可以互通。这也可以很好的解释为什么英文生态的公司和机构在这一轮技术热潮中更容易占据先机--当前规模最大、内容最丰富、质量最高的机器学习语料是由英文构成的。

例如文本下游微调数据，英文领域有像T0-SF，Muffin等大量优质的数据集，图文领域也有像LAION-2B，MSCOCO等开源数据集。相比于国内，中文领域虽然这两年也有多个相关数据集的建设，如200G悟道文本预训练数据集，“悟空”1亿图文对数据集等，但是无论从数量还是质量上来比，与海外的数据还是存在着一定的差距。

除此之外，英文生态本身也具备非常明确的先天优势，其包含了大量其他语种不具备的优质的内容。比如说全球最顶尖的学术论文、编程代码、多个行业领域的规范标准。这些构成了英文的独天得天独厚的优势，也使得基于英文生态的研究方案可以更好的去推动和落地。

如何走出数据困境

面对这样的数据困境，国内的研究者和机构又采取了哪些办法？归结来看大概有4种策略：

1、直接用开源模型，走API翻译

这可能是最直接的方案，尤其在图文生成领域，去年stable diffusion模型开源之后国内有不少创业公司尝试直接基于该模型进行适配训练和推理生成，同时利用API的翻译接口将中文的输入转化成英文实现对中文用户的支持。这条路线的好处是可以快速地将最新的英文生态的工作应用到国内。缺点也非常明显，一方面是中文翻译可能引起语义的缺失，很多英文这个领域当中常用的说法在中文当中是没有办法很好的表达的，比如说中国的许多成语以及谚语：

飞流直下三千尺

from MidJourney

竹杖芒鞋轻胜马

from MidJourney

海外数据的内容组成也大多由当地的人文地理，生活历史构成，对于中文的知识缺乏很好的理解，比如说中国的历史古迹、名人、美食和生活习俗。

西湖断桥

from Midjourney

过桥米线

from Midjourney

第三点也是最核心的一点：已有开源模型数的数据据存在偏见，合规性和安全性都留有风险。举例说，这些模型在种族问题上不平等，也存在大量裸露、暴力的内容。直接将这些数据模型用于国内的生产，存在着巨大的隐患，所以从年初开始，相关部门对生成式AI的能力构成加大了审核力度。

2、海外数据翻译

这种方案是第一种方案的改进版。具备一定研究能力的机构，会选择将海外数据整理下来之后进行英文到中文的翻译，借助英文数据已有的成果，构建更加可靠的自有模型，目前国内有不少研究机构和企业采取了这条路线。优点是可以继承英文的丰富的数据生态，同时可以对涉黄、涉政的数据进行系统性筛选。

缺点还是存在领域差异，包括对一些特定的中文表述、生态、文化习俗的缺失，以及数据本身还是带有非常强的偏见，甚至是歧视。即使去除了不合规的数据，这些隐性的问题还是很难解决的。比如“穿旗袍的女孩”，“七夕节日”等等。

3、中文数据构建

这是一条相对难走的道路，需要大量前期的积累。数据的整理的工作往往在短期内难以获得成效，其阶段性价值也难以衡量。但完善的高质量数据的建设，将对生成式AI后期的工作推进带来可靠的助力。所以在伏羲以往的讨论当中，这也被认定为是一条难走却又正确的道路。自建中文数据集的好处在于可以解决中文场景的一系列基础性问题，弥补模型对中文知识的欠缺，更好的去控制数据安全，从而对数据的合规性进行有效审核。

国内目前也有一些做了中文数据构建的这些工作，高质量对齐数量例如coco-cn，数据量级别在十万级别，数据量较少。wukong数据集是目前较大规模的开源图文数据集，但相比海外的对标数据集目前还是存在一定差距。许多场景之下，相关的研究人员也开始呼吁国内的政府和企业可以推进高质量的中文数据集的共建，我们也看到有许多国内同行开始加入到这个行列。

4、多语言兼容

自建数据集虽好，但依然无法解决其他语言优质内容缺乏的问题。所以多语言兼容是目前看起来大规模预训练模型技术比较切实可行的方案。当然，这个方案目前依旧在验证当中，当前已经有一些相关的工作，通过多语言的方案，将英文场景下图文理解，文图生成功能，扩展到其他的语种中，打通了英文体系和其他语种的障碍。

在ChatGPT的训练过程当中，已经体现展现出跨语言的可行性以及潜力。由于有大量的多元数据融合，目前GPT的中文能力已经比许多纯中文预训练模型更加出色。在图文生成领域，Niji模型的跨语言能力和生成效果都是不错的。

伏羲的破境之举

从生成式AI的整体效果考虑，伏羲选择了一条比较长期的技术路线。在兼容开源数据的同时，又分为4步推进，首先是建设高质量的大规模中文数据集；其次构建中文领域的优质理解模型；然后基于数据集和理解模型重构图文生成算法，做到语义的有效提升；最后引入专家和人类的反馈引导模型生成用户更加需要的高质量内容。

1、建设大规模中文数据

伏羲联合网易多个部门，包括网易雷火、传媒、云音乐等核心业务，从用户和业务维度提供对数据的理解和需求，完成对于优质数据的定义，建设包括文本质量，图像美观度，版权合规性以及伦理评估等评价标准。以此框架作为约束共同推进数据构建，同时设计了一套基于分布式任务的数据可信系统，各专家团队各自提供数据质量评审模型，完成共同打分后再交由数据治理引擎统一管理。

2、构建中文领域的理解模型

基于伏羲自研千亿文本模型的技术积累，“玉言”系列理解模型先后登顶知名中文榜单FewCLUE和CLUE分类榜单，在CLUE1.1分类任务排行榜(包含AFQMC[文本相似度]、TNEWS[短文本分类]、IFLYTEK[长文本分类]、OCNLI[自然语言推理]、WSC[代词消歧]、CSL[关键词识别]6个理解任务）上超过人类水平。玉言系列中的百亿生成模型与对话模型已完成开源，理解模型也会在近期开源。

在文本理解的基础之上，伏羲自2021年起着力打造“玉知”多模态图文理解大模型，采用图片-文本双塔结构和模块化的训练思想，基于亿级别的中文图文数据对，先后迭代了三种规格的模型版本，在中文图文理解水平上达到业界领先水平，并具有良好的泛化性，在下游各类任务如分类，检索，推荐等方面表现优异；并且，在图文模型的预训练过程中，针对包含不同文本长度的图文对采用不同的训练策略，这使得“玉知”模型对语义具有较强的理解能力。同时，利用网易伏羲开源的EET高效推理框架，对模型压缩、算法适配、硬件底层等方面进行优化，使其推理速度提升4倍，满足了线上的高并发需求，降低了部署资源的损耗。

在业务数据集的zero-shot评测中

“玉知”多模态理解大模型优于Chinese-CLIP的CN-CLIPViT-H/14

玉知模型也成功在网易的多个业务中得到验证，如网易新闻和网易云音乐的搜索、推荐、智能标注等场景。网易新闻通过图文大模型构建的图文内容表征，在推荐环节采用基于该图文向量的dropoutnet召回优化，对召回源、列表页视频试投、列表页试投整体等效果明显改进，实现视频和整体大盘的业务指标提升，已在线上业务中落地使用。网易云音乐通过图文大模型构建的内容表征引擎和内容相似检索引擎，已成功应用于云音乐视频、长音频、广告等多个内容业务，对内容冷启动效率、CTR预估模型等，带来显著的线上收益。同时进一步联合华为团队，充分分析互联网行业数据集特性，对多模态模型结构进行优化，优选合适编码器并采用多阶段训练模式，共建玉知-悟空模型，进一步构建伏羲在中文跨模态理解领域的领先优势。

3、图文生成算法重构

在图文理解预训练模型的基础上，伏羲进一步推进自研文图生成模型——“丹青”的研发，一种语义增强的文图生成扩散模型。依托于扩散模型的原理，在广泛的（8亿）图文数据上训练以达到较好的生成结果。不同于常见的基于扩散模型的文图生成方法，伏羲自研的模型还具备以下特点：

①模型创新：文图生成的语义能力，非常强依赖对用户输入文本的表征能力，依托于伏羲自研的”玉知”模型在中文语境下的表征能力，自研生成模型在中文场景下具有的超强语义表征能力。此外，伏羲自研模型还侧重文本与图片交互的，强化了在文图引导部分的参数作用，能够让文本更好地引导图片的生成，因此生成的结果也更加贴近用户意图。

②图片多尺度的训练：在广泛的数据集中，自研模型在充分考虑图片的不同尺寸和清晰度问题，将不同尺寸和分辨率的图片进行分桶，从而进行的多尺度训练。在充分保证训练图片训练的不失真的前提下，保留尽可能多的信息，自研模型能够适应不同分辨率的生成。

③数据策略：多阶段的训练能够保证模型既具有广泛性，又保证生成结果的质量。初始阶段，使用亿级别的广泛分布的数据，让模型不仅在语义理解上具有广泛性，可以很好的理解一些成语，古文诗句，例如夫妻肺片，名花倾国等等。同时在生成的画风上也具有多样性，可以生成多种风格。在之后的阶段分别从图文关联度，图片清晰度，图片美观度等多个层面进行数据筛选，以优化生成能力，生成高质量图片。

中文场景下超强的语义理解能力：能够充分理解用户的输入，并且返回给用户想要的东西。尤其在成语，俗语，诗句的理解和生成具备一定优势：

风格的多样性&纯正性：覆盖的风格广泛，例如年轻人热爱的二次元，动漫风格，传统的山水国画风格，以及知名画家的特殊风格等：

中文场景的领域优势：善于生成中国元素的作品，例如宋代美女，传统佳节等场景：

4、人机协同增强的数据闭环

依赖于机器进行数据筛选，不可避免存在诸多缺陷和不完美。依托于网易伏羲的aop众包能力，我们从不同角度引入了人工。在训练阶段，人工从多个维度的评估，筛选出来大批高质量图文匹配、高美观度数据，以补足自动流程缺失能力，帮助基础模型获得更好的效果。同时，我们在模型的生成阶段，也引入人工的反馈，对模型的语义生成能力和图片美观度进行评分，筛选出大批量优质生成的结果，引入模型当做正反馈，实现数据闭环。更好提升了模型的理解能力和生成能力。

后续工作与展望

以上四个维度的建设，使得网易伏羲的图文生成式AI具备较好的中文理解及美观度表达能力，在做到与中国用户“心有灵犀”的工作道路上迈出了第一步。生成式AI技术革新的序幕刚刚开始拉起，随着生产力的不断释放和新的开源生态建立，在联通算法、数据、算力和人的工作上还有很多事情要做。除了持续优化生成效果，对于AI在将来工作流当中的价值、已有知识产权的保护、AI伦理的规范遵守等一些问题，也需要持续的思考和完善。

目前，网易伏羲正在推进中文领域的生成式人工智能平台-“丹青约”的建设，并携手集团内部生态共同参与艺术风格和算法模型的设计和训练。为行业用户提供高效微调适配、低成本模块化推断、开源生态快速集成、生成模型定制加速等完整解决方案，为艺术家们提供更加灵活的生产力工具，寻找更新的艺术形态，为推动中文语义理解和科技创新注入新的力量。

人工智能

人工智能之模型与理论：智能系统构建的科学根基

人工智能的理论体系为模型设计提供逻辑基础与方法论指导，而模型则是理论在具体任务中的实现载体。理论研究关注智能的本质、学习的边界、推理的机制等根本问题，涵盖计算学习理论、概率推理、优化方法、信息论等；模型则聚焦于可计算、可训练、可部署的算法结构，如神经网络、决策树、支持向量机等。二者相辅相成：理论推动模型创新，模型验证理论可行性。正是这种“理论—模型—应用”的闭环演进，驱动了人工智能从符号主义、连接主义到当前数据驱动范式的持续跃迁。

2026-03-06 18:36:24

人工智能之模型与理论：驱动智能涌现的核心引擎

当我们谈论人工智能时，那些令人惊叹的图像生成、流畅的对话交互和精准的预测决策，都非凭空产生。它们背后，站着一系列深邃的数学模型与理论基础，正是这些理论与模型的演进与突破，构成了人工智能从概念走向现实、从简单走向强大的核心驱动力量。理解人工智能的模型与理论，并非仅是技术专家的专利，更是我们洞察科技发展趋势、把握未来创新方向的关键。它揭示了机器如何学习、如何理解、如何进行决策的内在逻辑。从浅显的线性回归到深不可测的神经网络，从经典的符号主义到连接主义的崛起，一部人工智能发展史，本质上就是其核心模型与理论不断进化与融合的历史。

2026-03-06 18:35:50

人工智能-机器视觉：赋能现代产业的智慧感知基石

在当今科技飞速发展的时代，人工智能与机器视觉的结合正以前所未有的深度与广度重塑我们的生产和生活。这不仅仅是让机器“看见”图像，更是赋予其理解、分析和决策的能力，就像为设备装上了智能的眼睛与大脑。从无人工厂里精准的自动化检测，到自动驾驶汽车对复杂环境的感知，再到医疗影像的辅助分析，人工智能驱动的机器视觉已成为推动各行业智能化升级的核心力量。理解这一融合技术的核心内涵、技术架构与应用价值，对于把握数字化转型的脉搏至关重要。

2026-03-04 17:30:34

人工智能-机器视觉：赋能智能感知的核心技术

机器视觉是人工智能在图像与视频理解领域的关键应用分支，致力于让计算机系统具备“看”和“理解”视觉信息的能力。它通过摄像头、传感器等设备采集图像数据，结合图像处理、模式识别与深度学习算法，实现对目标的检测、识别、测量、定位与行为分析。人工智能为机器视觉提供了强大的模型训练与推理能力，使其从传统的规则化图像处理迈向数据驱动的智能感知。二者深度融合，共同构成了智能制造、自动驾驶、安防监控、医疗影像等众多智能化场景的技术底座。

2026-03-04 17:29:58

人工智能-机器学习：驱动智能时代的核心引擎与演进路径

在当今数字化浪潮中，人工智能与机器学习已然成为推动社会变革和产业升级的核心技术力量。它们不仅是学术研究的前沿热点，更是广泛应用于各行各业、重塑生产与生活方式的实践工具。理解人工智能与机器学习的深刻内涵、相互关系以及发展脉络，对于把握技术趋势、发掘商业价值至关重要。

2026-02-26 18:22:08

人工智能-机器学习：驱动智能系统发展的核心技术引擎

人工智能是使机器模拟人类智能行为的科学与工程，涵盖感知、推理、学习、决策与交互等多个维度。而机器学习作为人工智能的核心分支，专注于通过算法让计算机系统从数据中自动学习规律，并在未见过的场景中做出预测或决策。简言之，机器学习为人工智能提供了“从经验中成长”的能力，使其不再依赖人工编写的固定规则，而是通过数据驱动实现自适应优化。当前绝大多数先进的人工智能应用，如图像识别、语音助手、推荐系统等，其底层技术均建立在机器学习基础之上。

2026-02-26 18:19:01

具身智能：打开AI通往物理世界的新大门

要理解具身智能，首先需要打破一个常见的惯性认知：智能并非只存在于“大脑”中。具身智能的核心思想源于“具身认知”哲学理念，它强调感知、思考、学习和行动是一个连续、一体的过程，而智能正是从智能体（Agent）本身与其所处环境的持续动态交互中涌现出来的能力。简单定义，具身智能是指一个拥有物理或虚拟身体的智能体，它能够通过该身体所具备的多模态传感器（如视觉、听觉、触觉）去主动感知环境，并通过计算模型（如深度学习、强化学习）进行理解、推理与规划后，驱动执行器（如机械臂、轮子）与环境产生互动，从而完成特定任务或在交互中自我进化。其核心特征在于形成一个紧密的 “感知-理解-决策-行动” 闭环，使智能体能够在充满不确定性的动态物理世界中自适应地运行。这与传统AI仅在静态、封闭的数据集上进行训练和推理的模式形成了鲜明对比。具身智能的“身体”是它理解世界、获取经验并最终执行任务的必要媒介。

2026-02-25 18:18:38

具身智能：在物理世界中生成与演化的智能新范式

具身智能（Embodied Intelligence）是一种强调智能必须根植于具有物理形态的身体，并通过与环境持续交互而涌现的认知科学与人工智能范式。其核心观点是：真正的智能并非仅源于抽象符号处理或静态数据训练，而是通过感知、行动与环境反馈的闭环循环中逐步形成。具身智能体拥有可与物理世界互动的身体——无论是机器人、虚拟角色还是生物体——并通过“做中学”（learning by doing）不断积累经验、调整策略并发展出适应性行为。这一范式标志着人工智能从“观察世界”向“生活在世界中”的根本转变。

2026-02-25 18:04:55

具身智能的发展趋势：从理论探索到产业融合的演进路径

当前具身智能系统正从孤立的功能模块向一体化架构发展。传统机器人系统通常将感知、规划、控制等环节分离设计，导致信息流断裂与决策延迟。新一代具身智能架构强调端到端的学习与优化，通过多模态融合感知、统一表征学习和联合策略训练，实现从原始传感器输入到动作输出的直接映射。这种架构能够更好地处理现实世界中的不确定性，提高系统的适应性与鲁棒性。

2026-02-09 18:25:33

具身智能的发展趋势：迈向通用物理智能体的演进路径

具身智能正经历从任务专用向任务通用的关键转变。早期系统多针对单一场景（如仓库分拣、家庭递送）进行定制开发，行为模式固定、泛化能力弱。当前发展趋势聚焦于构建具备跨任务迁移能力的通用具身智能体，其核心在于发展统一的感知-决策-执行架构，使同一智能体能通过高层指令理解与底层技能复用，完成多样化物理任务。例如，一个机器人既能整理桌面，也能操作家电或协助烹饪。这种通用性依赖于基础模型的引入与模块化技能库的建设，标志着具身智能从“工具”向“伙伴”的角色升级。

2026-02-09 18:24:52

​网易伏羲：让生成式AI与中国用户心有灵犀

自然语言与生成式AI

如何走出数据困境

伏羲的破境之举

后续工作与展望

网易伏羲：让生成式AI与中国用户心有灵犀