行动中的认知:预测加工框架下的具身智能
近年来,以大语言模型(LLM)为代表的人工智能技术取得了举世瞩目的成就,展现出强大的信息处理与生成能力。然而,在这场繁荣景象之下,一个根本性的局限日益凸显。2025年9月26日,强化学习先驱、图灵奖得主理查德·萨顿(Richard Sutton)在一次访谈中指出,当前试图利用LLM通往通用人工智能(AGI)的路径可能是一条“死胡同”。他认为,智能的本质在于能够从与世界的动态交互中持续学习并更新自身模型,而非仅通过静态数据模仿人类行为。人类与动物的智能是在身体与环境的持续互动、获得反馈、不断调整的循环中产生的。相比之下,LLM的“智能”源于对海量文本的静态训练,完全缺失了在真实世界中获得动态体验的关键环节。这种与物理世界脱节的“离身性”(Disembodiment),正是阻碍LLM迈向AGI之路的根本性瓶颈。在此背景下,具身心智(Embodied Mind)与预测加工(Predictive Processing)两大理论范式正跨越学科边界走向融合,为新一代人工智能的构建提供了极具潜力的思想框架。
理论交融:从“具身心智”到“预测心智”
传统认知科学的“计算隐喻”将认知视为基于内部符号表征的抽象计算过程。自20世纪末起,心智的计算范式持续受到“具身心智”与“预测心智”两大理论的有力挑战,二者的深度融合正为我们勾勒出一幅智能开发的全新图景。
具身心智主张认知过程深度依赖于有机体的身体形态、感觉运动能力及其与环境的耦合和持续互动。智能不再被限定为封闭在头脑中的逻辑推理,而是服务于行动。从婴儿通过感知运动经验探索世界,到我们借助手势深化思考,无不印证认知诞生于“感知—行动”的循环中。预测心智理论将脑构想为一个层级化的生成模型,其核心使命是预判即将到来的感官输入。当实际输入与预测发生偏差时,“预测误差”随之产生——这个信号沿着神经通路自下而上传递,不断修正并更新高层的内部模型,使未来预测更为精准。在此意义上,脑堪称持续校准假设的预测机器,我们感知的世界本质上是脑依托既有模型对感官信号作出的最优推断。起初,这两种理论看似关注点各异甚至存在张力关系:具身心智强调外部环境与身体的决定性作用,预测加工则聚焦于脑内部模型的预测机制。但深入分析后可以发现,二者非但不矛盾,反而构成了完美的互补。以安迪·克拉克(Andy Clark)为代表的“融合派”指出,预测加工为具身心智提供了核心的计算机制。大脑进行预测的根本目的并非被动反映世界,而是为了更有效地指导行动。在此框架下,知觉与行动犹如一枚硬币的两面,密不可分:知觉是通过感官输入检验并修正内部预测的过程;行动则是主动改变感官输入,使其契合自身预测的过程。
这种融合范式为认知科学哲学中长期悬置的内在主义与外在主义之争提供了启发性解决方案。脑的内部模型并非孤立的抽象符号,而是通过身体行动与外部世界持续动态耦合的行动指南。心智既“发生在脑中”,又必须“介入世界”,方能履行其维持生命存续和安康的使命。二者结合共同建构起“行动中的认知”主体——一个通过主动预测与行动同世界互动的“具身预测心智”。
(本文系国家社科基金重大项目“马克思主义认识论与认知科学范式的相关性研究”(22&ZD034)阶段性成果)
(作者系杭州电子科技大学马克思主义学院讲师;浙江大学哲学学院教授、浙江大学脑机智能全国重点实验室兼聘研究员)














