Nuevo artículo en arXiv demuestra un límite fundamental al combinar modelos de lenguaje

Un nuevo artículo publicado en arXiv demostró un límite matemático fundamental en la práctica de combinar múltiples modelos de lenguaje extenso para mejorar la precisión, y el hallazgo desafía uno de los supuestos más comunes en este campo.

El artículo, escrito por el investigador Josef Chen, analiza 67 modelos de frontera de 21 proveedores e introduce el concepto de “techo de cofallo” (β): la fracción de consultas en las que todos los modelos del conjunto se equivocan. Para cualquier sistema multimodelo que selecciona la respuesta de un modelo por consulta, la precisión no puede superar 1 menos β, sin importar cuán sofisticada sea la estrategia de enrutamiento, votación o cascada.

El techo es real y medible

En evaluaciones de matemáticas abiertas, la tasa de cofallo observada fue del 5,2 por ciento, lo que significa que en el 5,2 por ciento de todas las consultas, los 67 modelos se equivocaron simultáneamente. Esto establece un límite superior estricto del 94,8 por ciento de precisión que ninguna técnica de ensamble puede superar con este conjunto.

El artículo encontró que los modelos estadísticos estándar subestimaron significativamente este riesgo de cofallo. Un modelo de cópula gaussiana predijo un β de solo el 2,3 por ciento, aproximadamente 2,5 veces menor que la tasa real observada, con un intervalo de confianza del 90 por ciento de 1,7 a 3,4 veces.

Diversidad de fallos, no cantidad de modelos

La clave: las mejoras al combinar modelos provienen de que fallen en preguntas diferentes, no de agregar más modelos. Con calidad equivalente, los ensambles heterogéneos de baja correlación superan a los enfoques de automezcla de agentes de alta correlación. Pero incluso con conjuntos diversos, combinar modelos rara vez supera al mejor modelo individual a menos que se disponga de una señal de enrutamiento sólida a nivel de consulta.

En tareas de código evaluadas por ejecución (k=17 modelos), la tasa de cofallo fue del 7,9 por ciento. En preguntas del punto de referencia GPQA-Diamond convertidas de opción múltiple a formato de respuesta libre, la tasa saltó al 12,7 por ciento, lo que muestra que el formato de respuesta puede cambiar la ubicación del techo.

Implicaciones prácticas

El artículo recomienda usar un límite de confianza Clopper-Pearson sobre β como diagnóstico estándar previo al entrenamiento, un certificado sobre la ganancia máxima posible de cualquier enrutador, voto o cascada, antes de realizar cualquier entrenamiento. El hallazgo sugiere que muchos equipos de IA que invierten en orquestación multimodelo podrían estar persiguiendo mejoras estructuralmente imposibles de alcanzar.

El preprint aún no ha sido revisado por pares.

Fuente: When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models (arXiv, junio de 2026)