法媒：“世界模型”崛起或不可避免

2026-04-02来源：参考消息

Share - WeChat

　　参考消息网4月1日报道 法国《快报》周刊网站3月15日发表一篇文章，题为《杨立昆巨额融资背后：“世界模型”的崛起不可避免》，内容编译如下：

　　法国著名人工智能专家杨立昆的技术豪赌，是与当前大语言模型的决裂，同时也为欧洲打开一扇机遇之窗。

　　号称“万事通”的人工智能也有出错的时候。近几周，一些网友戏弄地问聊天生成预训练转换器(ChatGPT)等人工智能模型：去附近的洗车店或加油站，步行好还是开车更好？部分人工智能模型固执地推荐更节俭的步行方案。考虑到出门的目的是去洗车或加油，这个回答实在不够聪明。

　　同样在最近，人工智能专家们搭建了一个名为“胡扯基准测试”(bullshit bench)的对比评测，以判断哪家人工智能模型在应对不合逻辑的问题时表现最佳。结果是Anthropic公司(“克劳德”模型)表现尚可，而ChatGPT、米斯特拉尔人工智能公司(Mistral)或深度求索(DeepSeek)则不尽如人意。

　　这件事的深层意义远超表象。当前的生成式人工智能模型正受到越来越多的批评。它的运行基于大语言模型，简单来说，就是逐词生成答案。迄今为止，它在内容创作、推荐或分析方面表现相当出色，秘诀是基于海量文本数据的大规模训练，几乎涵盖整个互联网。当你输入“我失手摔了一只水晶花瓶”这句话，它会回答“花瓶碎了”。这并非因为它懂物理，而是因为这种关联在语料库中大量存在。

　　图灵奖得主杨立昆认为这是一种限制，会阻碍其理解简单的现象。这就是它的玻璃天花板。他刚刚为他新成立的先进机器智能实验室(AMI)争取到创纪录的10亿美元融资，用于打造他所说的“世界模型”。这类模型不再仅仅通过文本数据来学习如何指称事物(比如“指猫为猫”)，它们将拥有对猫的具象认知，包括猫的形态、动作，以及(从空中落下时)总能四脚着地的特性。这种空间表征能力，如同人类或动物一般。杨立昆曾略带挑衅地说，“生成式人工智能的智力水平还不到4岁儿童的五十分之一”，在他看来，甚至还不如一只家猫。

　　因此，“世界模型”的使命截然不同。阿蒂法公司人工智能负责人阿南·瓦赞解释道：“它不再试图预测一个词，而是预测一种状态、一个情境。”尽管杨立昆是这一理念最积极的推动者之一，但这个想法并非完全出自他。上世纪90年代，德国学者于尔根·施米德胡贝就发表了关于智能体如何构建环境预测性表征的早期研究。多年来，众多研究实验室和企业纷纷投身该领域，包括“深层思维”公司(DeepMind)和研究自动驾驶的“出行新方式”公司(Waymo)。人工智能领域另一位重量级人物、计算机视觉专家李飞飞，也通过其初创公司世界实验室公司布局该领域。最近，荷兰工程师皮姆·德维特(杨立昆友人)创立的General Intuition公司也怀着同样的愿景融资超1.3亿美元。

　　不过，在这场竞赛中手握多张王牌的还是杨立昆。他是卷积神经网络系统的奠基人之一。这套系统最初用于读取银行支票上的手写数字，被美国银行实际部署，后来发展为图像识别技术。杨立昆非常清楚如何提取有用信息来训练模型。这些模型不再仅依赖文本，还会使用视频片段、图像、物理传感器数据，甚至电子游戏内容。布鲁塞尔自由大学计算机科学教授于格·贝尔西尼认为：“相比于大语言模型，世界模型更接近卷积神经网络，更接近10年前我们做的人工智能。”杨立昆之前在元宇宙平台公司(Meta)任职期间曾研发过名为JEPA的架构，其目标正是摆脱语言模型，以便更好地理解现实世界。

　　此外，杨立昆还得到了巨大的支持。他此次融资是欧洲所有科技领域规模最大的融资之一，这本身就是证明。因为这一方向似乎已是大势所趋，尤其对人形机器人的发展至关重要。这些机器人的移动和行动虽然越来越灵活，但很难执行预先训练以外的任务。巴黎高等师范学院计算机科学教授让·蓬斯指出：“它们在规划能力上仍不成熟。”也就是说，它们还缺乏预测每个微小动作以达成特定目标的能力。比如做一盘简单的意面，需要完成多个微任务：拿锅、烧水、下面，然后等待一段时间。一旦出现意外，比如锅不在原位，就要重新规划。这是人类与生俱来的能力，“世界模型”就是要模仿这种能力。凯辉创新基金是杨立昆AMI的主要投资方之一。该基金负责人丹尼斯·巴里耶预言：“五六年后，机器人将进入家庭维修管道，进入商店整理货架。”

　　欧洲可以将此视为一次机遇。欧洲在大语言模型和个人生产力领域开始落后，而“世界模型”最具决定性的应用是在工业领域，欧洲正好在这方面拥有海量数据和战略利益。一位美国科技博主在X平台上精辟点评道：“AMI的投资方(包括英伟达、三星、丰田风投和法国的达索)都需要人工智能来理解物理、几何和力学动态。一个会写诗的语言模型，对机器人公司毫无用处。它们需要的能力是预测机械臂以30度角对柔性表面施加12牛顿力时会发生什么。”

　　医疗健康领域也是重点发展方向之一，在该领域的任何失误都可能致命。杨立昆与亚历山大·勒布伦合作，后者是专注于医疗记录的法国初创公司纳布拉公司的创始人。值得注意的是，作为欧洲该领域中坚力量的米斯特拉尔人工智能公司也在布局这一更偏向工业而非大众消费端的赛道。

　　挑战依然众多。投资人丹尼斯·巴里耶承认，关于“世界模型”的文献仍然很少，也没有像大语言模型那样常态化使用的基准测试。“世界模型”仍处于萌芽阶段，其最终形态或许如杨立昆所设想得那样，或许不是。因此不能过早埋葬大语言模型。

　　布鲁塞尔自由大学的于格·贝尔西尼则认为：“杨立昆知道自己在大语言模型竞赛中落败，于是贬低它们。但大语言模型依然非常出色。”

　　最近，工程师艾默里克·鲁谢在本刊专栏中介绍了缩放定律如何让大语言模型持续进步，甚至提升行动规划能力，智能体的崛起便是例证。而且大语言模型也越来越多地接入图像、视频或音频，正在向多模态发展。

　　杨立昆的一位前同事尽管深信“世界模型”的价值，但也坦言自己感到惊讶。为说明观点，他讲述了对大语言模型做的一次测试：一张桌子的桌腿由糖霜制成，上面放着易碎物品，它被置于雨中。系统预测糖可能会融化，并导致桌子不稳。他总结道：“很难说它没有世界模型，它预测了物理层面会发生的事。”

　　即便杨立昆的诊断是对的，他开出的药方就一定正确吗？大语言模型与“世界模型”这两种愿景，或许并没有表面上看起来那么对立。包括杨立昆前东家Meta在内的全球顶尖实验室都在努力融合这两种路径，机器人公司或自动驾驶企业也是如此。

　　巴黎高等师范学院的让·蓬斯指出：“‘世界模型’确实引起一定的热议，但它们仍处于构想阶段。可以肯定的是，人工智能正是靠创新才不断取得进步的。大语言模型得益于谷歌研究人员提出的Transformer架构，而深度学习的成功则来自上世纪80年代末杨立昆参与开创的卷积神经网络。未来必然还会有新的突破出现。”杨立昆正在积极推动，并希望引领下一轮创新。（编译/王忠菊）

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。