Ante el rendimiento decreciente de los LLM, la IA recurre a mundos simulados para alcanzar la inteligencia humana

Durante la mayor parte de una década, la trayectoria de la inteligencia artificial siguió una fórmula sencilla: tomar una red neuronal más grande, alimentarla con más texto y observar cómo mejoraba el rendimiento. Las leyes de escalamiento fueron notablemente predecibles, hasta que dejaron de serlo. A medida que construir chatbots más grandes y mejores se vuelve más difícil, más costoso y genera rendimientos decrecientes, un número creciente de investigadores de IA está adoptando un enfoque fundamentalmente diferente: enseñar a los sistemas de IA a aprender actuando en mundos 3D simulados.

Este cambio, documentado en un artículo exhaustivo de Matthew Hutson en Science, representa el reconocimiento de que la predicción del siguiente token , sin importar cuántos parámetros o billones de tokens tenga el entrenamiento , quizás nunca produzca el tipo de comprensión causal y corporeizada que caracteriza la inteligencia humana.

“La idea de que simplemente escalar un LLM llevará a la AGI es una completa tontería”, dijo Yann LeCun, científico jefe de AMI Labs, a Science. “Es como decir que vas a llegar a órbita agrandando aviones”.

De las palabras a los mundos

El nuevo paradigma se llama a menudo “world models”, redes neuronales que aprenden a simular el mundo físico en lugar de simplemente procesar lenguaje. A diferencia de los LLM, que aprenden patrones estadísticos en el texto, los world models aprenden relaciones causales: que una taza cae cuando se la empuja de una mesa, que el agua fluye cuesta abajo, que los objetos se ocultan entre sí.

Han surgido dos subenfoques. En los world models fuera de línea, los agentes se entrenan mediante prueba y error dentro de simulaciones y luego transfieren sus habilidades al mundo real. En los world models en línea, los agentes llevan un modelo predictivo interno que les permite simular mentalmente las consecuencias de las acciones antes de ejecutarlas, planificando, razonando y corrigiendo el rumbo de una manera que se parece mucho más a la cognición animal que al reconocimiento de patrones.

“La IA tiene el desarrollo al revés”, dijo Brenden Lake de la Universidad de Princeton. Los LLM comienzan con el lenguaje en lugar de la exploración corporeizada que los bebés humanos usan para aprender sobre física, causalidad y permanencia de objetos. El resultado, argumenta Lake, son sistemas “tan alienígenas y tan poco humanos” que no pueden servir como base para una inteligencia general.

El dinero está siguiendo

El cambio no es meramente teórico. Inversiones importantes están fluyendo hacia la investigación de world models:

Google DeepMind ha desarrollado Genie 3, un sistema que genera mundos 3D fotorrealistas completamente interactivos en tiempo real (20-24 fps a 720p) a partir de indicaciones de texto o imágenes. Modela la física, el agua, la iluminación, el terreno y ahora puede integrar datos de Google Maps para simulación realista. El agente SIMA 2 de DeepMind navega y sigue instrucciones en videojuegos comerciales que nunca antes había visto, incluyendo Valheim, No Man’s Sky y Goat Simulator 3, e incluso puede operar en mundos generados por Genie 3 que encuentra por primera vez.

NVIDIA está desarrollando world models para robótica a través de su plataforma GR00T, entrenando robots humanoides dentro de la simulación física Isaac Sim. Los modelos Cosmos world foundation de la compañía generan datos de entrenamiento sintéticos, y su sistema DreamZero permite a los robots predecir cómo evolucionará el mundo después de una acción.

AMI Labs de Yann LeCun, financiado con 1.030 millones de dólares de NVIDIA, Samsung y Bezos Expeditions, está construyendo el LeWorldModel, un world model compacto con solo 15 millones de parámetros (en comparación con cientos de miles de millones para los LLM de frontera) que puede entrenarse en pocas horas en una sola GPU. Ha alcanzado una tasa de éxito del 96 % en el estándar robótico Push-T, superando a sistemas mucho más grandes. Una prueba formal publicada en mayo de 2026 (arXiv) muestra que la arquitectura LeJEPA de LeCun logra identificabilidad lineal , puede recuperar las verdaderas variables causales subyacentes (posición, velocidad, orientación) a partir de píxeles sin procesar.

General Intuition, una startup fundada por Adam Jelley, Pim de Witte y Eloi Alonso, está entrenando world models con más de 2 mil millones de clips de juego por año de la plataforma Medal (10 millones de usuarios activos mensuales). La compañía recaudó 134 millones de dólares en financiamiento semilla y, según se informa, está recaudando 300 millones de dólares con una valoración de 2 mil millones de dólares, con el respaldo de Jeff Bezos, Eric Schmidt y Vinod Khosla.

World Labs, fundada por Fei-Fei Li, recaudó 1.000 millones de dólares de AMD, NVIDIA, Autodesk y Fidelity para su plataforma de “inteligencia espacial”, Marble, que genera entornos 3D persistentes y editables a partir de texto, imágenes o video.

Por qué los chatbots chocaron contra un muro

El enfoque de escalamiento enfrenta tres limitaciones fundamentales. Primero, la ley de potencia del escalamiento significa que cada ganancia adicional de rendimiento requiere cantidades desproporcionadas de cómputo, datos y parámetros, y el costo ahora asciende a cientos de miles de millones de dólares. Segundo, los datos de texto público de alta calidad se están agotando; un estudio de 2024 estimó que el stock disponible se agotará en unos pocos años. Tercero, y más fundamentalmente, la predicción del siguiente token no construye modelos causales. Un LLM puede generar una oración plausible sobre una pelota que cae de una mesa, pero no tiene una representación interna de la gravedad, el momento o la permanencia de objetos. No puede predecir qué sucedería en una situación novedosa que no haya visto en el texto de entrenamiento.

“Los sistemas más inteligentes que tenemos hoy no son tan inteligentes como un gato doméstico”, dijo LeCun.

La pregunta abierta

No todos están convencidos de que la corporeización sea necesaria. Jared Kaplan de Anthropic, coautor del artículo fundamental de 2020 sobre escalamiento que definió la era de los LLM, dijo a Science: “Algunas personas han sugerido que no se puede entrenar AGI sin corporeización, y yo personalmente soy muy escéptico al respecto”.

De Witte de General Intuition plantea la pregunta en términos de costo: “¿Pueden los LLM desarrollar world models implícitos, o es necesaria la simulación explícita? La pregunta es a qué costo”.

La respuesta podría determinar no solo el futuro de la investigación en IA, sino también la forma de la tecnología misma. Si los world models resultan esenciales para el razonamiento sólido, la planificación y la comprensión física, los años de escalamiento de LLM parecerán un desvío , productivo, pero un desvío al fin y al cabo. Si Kaplan tiene razón y los world models implícitos pueden surgir de modelos de lenguaje suficientemente grandes entrenados con datos suficientemente diversos, entonces el desvío podría resultar haber sido la ruta más directa después de todo.

De cualquier manera, el campo ya no apuesta exclusivamente por el texto.

Fuente:

[Science AAAS] Hutson M. “As better chatbots get harder to build, AI turns to simulated worlds.” Science, Vol. 392, Issue 6805, 25 de junio de 2026. https://www.science.org/content/article/better-chatbots-get-harder-build-ai-turns-simulated-worlds

Traducido por Alessandra