LLM遭遇收益递减，AI转向模拟世界寻求人类级智能

近十年来，人工智能的发展轨迹遵循着一个简单的公式：采用更大的神经网络，输入更多的文本，观察性能的提升。扩展定律曾经非常可预测，直到不再如此。随着构建更大更好的聊天机器人变得更加困难、更加昂贵且收益递减，越来越多的AI研究人员正在追求一种根本不同的方法：教AI系统通过在模拟3D世界中行动来学习。

这一转变在Matthew Hutson为《科学》杂志撰写的全面报道中得到了记录，它代表着一种认识：无论用多少参数或数万亿词元进行训练，下一个词元预测可能永远无法产生那种构成人类级智能的因果性、具身性的理解。

“认为仅仅通过扩展LLM就能达到AGI的想法完全是无稽之谈，”新成立的AMI Labs首席科学家Yann LeCun告诉《科学》杂志。”这就好比说通过把飞机造得更大就能进入轨道。”

从语言到世界

这种新范式通常被称为”世界模型”，学习模拟物理世界而非仅仅处理语言的神经网络。与学习文本中统计模式的LLM不同，世界模型学习因果关系：杯子被推下桌子时会掉落，水往低处流，物体相互遮挡。

目前已经出现了两种子方法。在离线世界模型中，智能体通过在模拟中试错进行训练，然后将技能迁移到现实世界。在在线世界模型中，智能体携带一个内部预测模型，使其能够在执行行动之前在脑海中模拟行动的后果，规划、推理和修正方向，这种方式看起来远比模式匹配更像动物认知。

“AI的发展顺序搞反了，”普林斯顿大学的Brenden Lake说。LLM从语言开始，而不是从人类婴儿用来学习物理、因果和物体永存性的具身探索开始。Lake认为，结果是系统”如此陌生、如此不像人类”，以至于它们无法成为通用智能的基础。

资金正在跟进

这一转变不仅仅是理论上的。大量投资正在涌入世界模型研究：

Google DeepMind开发了Genie 3，这是一个系统，可以从文本提示或图像实时生成完全交互式的逼真3D世界（720p分辨率下20-24帧/秒）。它模拟物理、水、光照、地形，并且现在可以集成Google Maps数据进行真实感模拟。DeepMind的SIMA 2智能体能够在它从未见过的商业视频游戏（包括《瓦尔海姆》、《无人深空》和《模拟山羊3》）中导航并遵循指令，甚至可以在它首次遇到的Genie 3生成世界中运行。

NVIDIA正通过其GR00T平台探索用于机器人技术的世界模型，在Isaac Sim物理模拟中训练人形机器人。该公司的Cosmos世界基础模型生成合成训练数据，其DreamZero系统让机器人能够预测行动后的世界变化。

Yann LeCun的AMI Labs由NVIDIA、三星和Bezos Expeditions提供10.3亿美元资金，正在构建LeWorldModel，这是一个仅有1500万个参数（而前沿LLM有数千亿个参数）的紧凑型世界模型，可以在单个GPU上训练数小时。它在机器人Push-T基准测试上达到了96%的成功率，超越了规模大得多的系统。2026年5月发表的一项正式证明（arXiv）表明，LeCun的LeJEPA架构实现了线性可识别性，仅从原始像素就能恢复真实的潜在因果变量（位置、速度、方向）。

General Intuition由Adam Jelley、Pim de Witte和Eloi Alonso创立的初创公司，正在利用Medal游戏平台（每月1000万活跃用户）每年超过20亿游戏剪辑训练世界模型。该公司在种子轮融资中筹集了1.34亿美元，据报道正在以20亿美元估值筹集3亿美元，得到了Jeff Bezos、Eric Schmidt和Vinod Khosla的支持。

World Labs由李飞飞创立，从AMD、NVIDIA、Autodesk和Fidelity筹集了10亿美元，用于其”空间智能”平台Marble，该平台可以从文本、图像或视频生成持久、可编辑的3D环境。

聊天机器人为何碰壁

扩展方法面临三个根本性制约。第一，扩展的幂律意味着每一次额外的性能提升都需要不成比例地增加计算、数据和参数，而其成本现已达数千亿美元。第二，高质量的公开文本数据即将耗尽；2024年的一项研究估计，可用存量将在几年内消耗殆尽。第三，也是最根本的，下一个词元预测无法构建因果模型。LLM可以生成关于球从桌子上掉落的合理句子，但它没有关于重力、动量或物体永存性的内部表示。它无法预测在训练文本中未见过的新情况中会发生什么。

“我们今天拥有的最聪明的系统还不如一只家猫聪明，”LeCun说。

未解之问

并非所有人都相信具身性是必要的。定义了LLM时代的2020年开创性扩展论文的合著者、Anthropic的Jared Kaplan告诉《科学》杂志：”有人提出没有具身性就无法训练AGI，我个人对此非常怀疑。”

General Intuition的de Witte从成本的角度提出了这个问题：”LLM能否发展出隐式世界模型，还是显式模拟是必要的？问题在于成本。”

答案不仅可能决定AI研究的未来，还可能决定技术本身的形态。如果世界模型被证明对于稳健推理、规划和物理理解至关重要，那么LLM扩展的这些年将看起来像一条绕路，富有成效的一条，但仍然是绕路。如果Kaplan是对的，隐式世界模型可以从足够大的语言模型在足够多样化的数据上训练中涌现出来，那么这条绕路可能最终被证明是最直接的路径。

无论如何，这个领域不再仅仅押注于文本。

来源：

[Science AAAS] Hutson M. “As better chatbots get harder to build, AI turns to simulated worlds.” 科学, Vol. 392, Issue 6805, 2026年6月25日. https://www.science.org/content/article/better-chatbots-get-harder-build-ai-turns-simulated-worlds

婷翻译