Les LLM arrivant à un rendement décroissant, l’IA se tourne vers les mondes simulés pour atteindre l’intelligence humaine

Pendant la majeure partie d’une décennie, la trajectoire de l’intelligence artificielle a suivi une formule simple : prendre un réseau neuronal plus grand, lui fournir plus de texte et observer l’amélioration des performances. Les lois de passage à l’échelle étaient remarquablement prévisibles, jusqu’à ce qu’elles ne le soient plus. Alors que la construction de chatbots toujours plus grands et plus performants devient plus difficile, plus coûteuse et génère des rendements décroissants, un nombre croissant de chercheurs en IA adopte une approche fondamentalement différente : apprendre aux systèmes d’IA à agir dans des mondes 3D simulés.

Ce changement, documenté dans un article détaillé de Science par Matthew Hutson, témoigne d’une prise de conscience : la prédiction du jeton suivant, quel que soit le nombre de paramètres ou de billions de jetons sur lesquels elle est entraînée, ne produira peut-être jamais le type de compréhension causale et incarnée qui caractérise l’intelligence humaine.

« L’idée que le simple passage à l’échelle d’un LLM permettra d’atteindre l’AGI est une absurdité complète », a déclaré Yann LeCun, scientifique en chef du nouvellement créé AMI Labs, à Science. « C’est comme dire qu’on va atteindre l’orbite en agrandissant des avions. »

Des mots aux mondes

Le nouveau paradigme est souvent appelé « world models », des réseaux neuronaux qui apprennent à simuler le monde physique plutôt qu’à simplement traiter le langage. Contrairement aux LLM, qui apprennent des motifs statistiques dans le texte, les world models apprennent des relations causales : qu’une tasse tombe lorsqu’on la pousse d’une table, que l’eau coule vers le bas, que les objets s’occluent mutuellement.

Deux sous-approches ont émergé. Dans les world models hors ligne, les agents s’entraînent par essais et erreurs dans des simulations, puis transfèrent leurs compétences dans le monde réel. Dans les world models en ligne, les agents portent un modèle prédictif interne qui leur permet de simuler mentalement les conséquences des actions avant de les exécuter, planifiant, raisonnant et corrigeant leur trajectoire d’une manière qui ressemble bien davantage à la cognition animale qu’à la reconnaissance de motifs.

« L’IA a développé les choses à l’envers », a déclaré Brenden Lake de l’Université de Princeton. Les LLM commencent par le langage plutôt que par l’exploration incarnée que les nourrissons humains utilisent pour apprendre la physique, la causalité et la permanence des objets. Le résultat, selon Lake, est des systèmes « si étrangers et si peu humains » qu’ils ne peuvent pas servir de fondement à une intelligence générale.

L’argent suit

Le changement n’est pas seulement théorique. Des investissements majeurs affluent vers la recherche sur les world models :

Google DeepMind a développé Genie 3, un système qui génère des mondes 3D photoréalistes entièrement interactifs en temps réel (20 à 24 ips en 720p) à partir de textes ou d’images. Il modélise la physique, l’eau, l’éclairage, le terrain et peut désormais intégrer les données Google Maps pour des simulations réalistes. L’agent SIMA 2 de DeepMind navigue et suit des instructions dans des jeux vidéo commerciaux qu’il n’a jamais vus auparavant, notamment Valheim, No Man’s Sky et Goat Simulator 3, et peut même opérer dans des mondes générés par Genie 3 qu’il rencontre pour la première fois.

NVIDIA poursuit les world models pour la robotique via sa plateforme GR00T, formant des robots humanoïdes dans la simulation physique Isaac Sim. Les Cosmos world foundation models de l’entreprise génèrent des données d’entraînement synthétiques, et son système DreamZero permet aux robots de prédire comment le monde évoluera après une action.

L’AMI Labs de Yann LeCun, financé à hauteur de 1,03 milliard de dollars par NVIDIA, Samsung et Bezos Expeditions, développe le LeWorldModel, un world model compact avec seulement 15 millions de paramètres (contre des centaines de milliards pour les LLM de pointe) qui peut s’entraîner en quelques heures sur un seul GPU. Il a atteint un taux de réussite de 96 % sur le benchmark robotique Push-T, surpassant des systèmes bien plus vastes. Une preuve formelle publiée en mai 2026 (arXiv) montre que l’architecture LeJEPA de LeCun atteint une identifiabilité linéaire : elle peut retrouver les véritables variables causales sous-jacentes (position, vitesse, orientation) à partir des seuls pixels bruts.

General Intuition, une start-up fondée par Adam Jelley, Pim de Witte et Eloi Alonso, entraîne des world models sur plus de 2 milliards d’extraits de jeu par an depuis la plateforme Medal (10 millions d’utilisateurs actifs mensuels). L’entreprise a levé 134 millions de dollars en financement d’amorçage et lève, selon les informations, 300 millions de dollars pour une valorisation de 2 milliards de dollars, avec le soutien de Jeff Bezos, Eric Schmidt et Vinod Khosla.

World Labs, fondée par Fei-Fei Li, a levé 1 milliard de dollars auprès d’AMD, NVIDIA, Autodesk et Fidelity pour sa plateforme d’« intelligence spatiale », Marble, qui génère des environnements 3D persistants et éditables à partir de textes, d’images ou de vidéos.

Pourquoi les chatbots ont atteint un mur

L’approche de passage à l’échelle est confrontée à trois contraintes fondamentales. Premièrement, la loi de puissance du passage à l’échelle signifie que chaque gain de performance supplémentaire nécessite des quantités disproportionnées de calcul, de données et de paramètres, et le coût se chiffre désormais en centaines de milliards de dollars. Deuxièmement, les données textuelles publiques de haute qualité approchent de l’épuisement ; une étude de 2024 estimait que le stock disponible serait épuisé d’ici quelques années. Troisièmement, et plus fondamentalement, la prédiction du jeton suivant ne construit pas de modèles causaux. Un LLM peut générer une phrase plausible à propos d’une balle tombant d’une table, mais il n’a aucune représentation interne de la gravité, de la quantité de mouvement ou de la permanence des objets. Il ne peut pas prédire ce qui se passerait dans une situation nouvelle qu’il n’a pas vue dans les textes d’entraînement.

« Les systèmes les plus intelligents dont nous disposons aujourd’hui ne sont pas aussi intelligents qu’un chat domestique », a déclaré LeCun.

La question ouverte

Tout le monde n’est pas convaincu que l’incarnation soit nécessaire. Jared Kaplan d’Anthropic, co-auteur de l’article fondateur de 2020 sur le passage à l’échelle qui a défini l’ère des LLM, a déclaré à Science : « Certaines personnes ont suggéré qu’on ne peut pas entraîner l’AGI sans incarnation, et personnellement, j’en suis très sceptique. »

De Witte de General Intuition pose la question en termes de coût : « Les LLM peuvent-ils développer des world models implicites, ou une simulation explicite est-elle nécessaire ? La question est celle du coût. »

La réponse pourrait déterminer non seulement l’avenir de la recherche en IA, mais aussi la forme même de la technologie. Si les world models s’avèrent essentiels pour un raisonnement robuste, la planification et la compréhension physique, les années de passage à l’échelle des LLM ressembleront à un détour, productif certes, mais un détour tout de même. Si Kaplan a raison et que des world models implicites peuvent émerger de modèles linguistiques suffisamment vastes entraînés sur des données suffisamment diverses, le détour pourrait bien s’avérer avoir été la route la plus directe après tout.

Quoi qu’il en soit, le domaine ne mise plus exclusivement sur le texte.

Source :

[Science AAAS] Hutson M. « As better chatbots get harder to build, AI turns to simulated worlds. » Science, Vol. 392, Numéro 6805, 25 juin 2026. https://www.science.org/content/article/better-chatbots-get-harder-build-ai-turns-simulated-worlds

Traduit par Lydie