LLMが限界に達する中、AIは人間レベルの知能への道を模擬世界に求める

過去10年の大半にわたり、人工知能の軌跡は単純な公式に従ってきた。より大規模なニューラルネットワークを用意し、より多くのテキストを与え、性能が向上するのを観察する。スケーリング則は驚くほど予測可能だったが、やがてそうではなくなった。より大きく、より優れたチャットボットを構築することが困難で高コストになり、収穫逓減をもたらすようになるにつれ、増加するAI研究者たちは根本的に異なるアプローチを追求している。すなわち、シミュレーションされた3D世界で行動することによって学習するようにAIシステムに教えることである。

この変化は、マシュー・ハトソン氏によるScienceの詳細な記事で報告されており、次のトークン予測が,どれだけ多くのパラメータや数兆ものトークンで訓練されようとも,人間レベルの知能を特徴づけるような因果的で身体化された理解を生み出すことは決してないかもしれないという認識を表している。

「単にLLMをスケーリングするだけでAGIに到達するという考えは完全なナンセンスだ」と、新設されたAMI Labsの主席科学者であるヤン・ルカン氏はScienceに語った。「それは飛行機を大きくすれば軌道に到達できると言っているようなものだ」

言葉から世界へ

この新しいパラダイムはしばしば「ワールドモデル」と呼ばれ、単に言語を処理するのではなく、物理世界をシミュレーションすることを学習するニューラルネットワークである。テキスト内の統計的パターンを学習するLLMとは異なり、ワールドモデルは因果関係を学習する。すなわち、カップをテーブルから押すと落ちること、水は低い方へ流れること、物体は互いに遮蔽し合うことである。

2つのサブアプローチが登場している。オフライン・ワールドモデルでは、エージェントがシミュレーション内で試行錯誤によって訓練され、その後スキルを現実世界に転移する。オンライン・ワールドモデルでは、エージェントは内部予測モデルを保持し、行動を実行する前に精神的にその結果をシミュレーションし、計画し、推論し、軌道修正を行う,これはパターンマッチングよりもはるかに動物の認知に近い方法である。

「AIは開発の順序を間違えている」とプリンストン大学のブレンデン・レイク氏は述べた。LLMは、人間の幼児が物理学、因果性、物体の永続性について学ぶために使う身体化された探索ではなく、言語から始める。その結果、レイク氏が論じるには、システムは「非常に異質で、非常に人間らしくないもの」となり、汎用知能の基盤として機能することはできない。

資金が追従している

この変化は単に理論的なものではない。ワールドモデル研究には大規模な投資が流入している。

Google DeepMindは、テキストプロンプトや画像から完全にインタラクティブなフォトリアリスティック3D世界をリアルタイム（720pで20～24fps）で生成するシステムGenie 3を開発した。物理、水、照明、地形をモデル化し、現実的なシミュレーションのためにGoogle Mapsデータを統合することもできる。DeepMindのSIMA 2エージェントは、これまで見たことのない市販のビデオゲーム,Valheim、No Man’s Sky、Goat Simulator 3を含む,をナビゲートし、指示に従うことができ、初めて遭遇するGenie 3生成の世界でも動作できる。

NVIDIAは、GR00Tプラットフォームを通じてロボット工学向けのワールドモデルを追求しており、Isaac Sim物理シミュレーション内で人型ロボットを訓練している。同社のCosmosワールドファンデーションモデルは合成訓練データを生成し、DreamZeroシステムはロボットが行動後の世界の変化を予測することを可能にする。

ヤン・ルカン氏のAMI Labsは、NVIDIA、Samsung、Bezos Expeditionsから10億3000万ドルの資金提供を受け、LeWorldModelを構築している。これはわずか1500万パラメータ（最先端LLMの数千億に対して）のコンパクトなワールドモデルで、単一GPUで数時間の訓練が可能である。ロボット用Push-Tベンチマークで96％の成功率を達成し、はるかに大規模なシステムを凌駕している。2026年5月に発表された正式な証明（arXiv）によると、ルカン氏のLeJEPAアーキテクチャは線形識別可能性を達成しており、生のピクセルから真の因果変数（位置、速度、方向）を復元できる。

General Intuitionは、アダム・ジェリー、ピム・デ・ウィッテ、エロイ・アロンソが設立したスタートアップで、Medalのゲーミングプラットフォーム（月間アクティブユーザー1000万人）から年間20億以上のゲームプレイクリップを用いてワールドモデルを訓練している。同社はシード資金で1億3400万ドルを調達し、さらにジェフ・ベゾス、エリック・シュミット、ビノッド・コースラの支援を受けて、評価額20億ドルで3億ドルを調達していると報じられている。

World Labsは、フェイフェイ・リー氏が設立し、AMD、NVIDIA、Autodesk、Fidelityから10億ドルを調達し、テキスト、画像、動画から永続的で編集可能な3D環境を生成する「空間知能」プラットフォーム、Marbleを開発している。

チャットボットが壁にぶつかった理由

スケーリング・アプローチは3つの根本的な制約に直面している。第一に、スケーリングのべき乗則により、追加の性能向上には不釣り合いに多くの計算リソース、データ、パラメータが必要となり、そのコストは現在数千億ドルに達している。第二に、高品質の公開テキストデータは枯渇に近づいており、2024年の研究では利用可能なストックは数年以内に使い果たされると推定されている。第三に、そして最も基本的に、次のトークン予測は因果モデルを構築しない。LLMはボールがテーブルから落ちるというもっともらしい文を生成できるが、重力、運動量、物体の永続性に関する内部表現を持たない。訓練テキストで見たことのない新しい状況で何が起こるかを予測することはできない。

「今日私たちが持っている最も賢いシステムでさえ、家庭の猫ほど賢くない」とルカン氏は述べた。

未解決の問い

身体化が必要であると誰もが確信しているわけではない。LLM時代を定義した2020年の画期的なスケーリング論文の共著者であるAnthropicのジャレッド・カプラン氏は、Scienceに次のように語った。「身体化なしではAGIを訓練できないと示唆する人もいますが、私は個人的にそれには非常に懐疑的です。」

General Intuitionのデ・ウィッテ氏はコストの観点から問題を捉えている。「LLMは暗黙のワールドモデルを発展させることができるのか、それとも明示的なシミュレーションが必要なのか。問題はそのコストにある。」

その答えは、AI研究の未来だけでなく、テクノロジーそのものの形も決定するかもしれない。ワールドモデルが堅牢な推論、計画、物理的理解に不可欠であることが証明されれば、LLMのスケーリングの数年は遠回りだったように見えるだろう,生産的ではあったが、それでも遠回りである。カプラン氏が正しく、十分に大規模な言語モデルが十分に多様なデータで訓練されることで暗黙のワールドモデルが出現するのであれば、その遠回りは最も直接的なルートだったことが判明するかもしれない。

いずれにせよ、この分野はもはやテキストだけに賭けてはいない。

出典：

[Science AAAS] Hutson M.「As better chatbots get harder to build, AI turns to simulated worlds.」Science, Vol. 392, Issue 6805, 2026年6月25日. https://www.science.org/content/article/better-chatbots-get-harder-build-ai-turns-simulated-worlds

雅子訳