DeepSeek publica DSpark como código abierto, un framework de decodificación especulativa que acelera la inferencia de V4 hasta un 85 por ciento

DeepSeek ha publicado como código abierto DSpark, un framework de decodificación especulativa que acelera la generación de texto por usuario en sus modelos DeepSeek-V4 entre un 60 y un 85 por ciento sin sacrificar la calidad de salida. El framework, junto con la base de código DeepSpec con licencia MIT, está disponible en GitHub y Hugging Face.

DSpark es una optimización de servidor, no un modelo nuevo. Los checkpoints DeepSeek-V4-Pro-DSpark y DeepSeek-V4-Flash-DSpark reutilizan los pesos existentes de V4 con un módulo de borrador adjunto, lo que significa que el despliegue no requiere reentrenar el modelo base.

Cómo funciona

La decodificación especulativa divide la generación en dos roles: un modelo borrador ligero propone un bloque de tokens candidatos, y el modelo objetivo completo los verifica en una sola pasada hacia adelante. El muestreo por rechazo garantiza que la salida final preserve exactamente la distribución objetivo, haciendo que la aceleración sea sin pérdidas.

La innovación de DSpark reside en lo que denomina generación semi-autorregresiva. Los borradores anteriores enfrentaban una disyuntiva: los borradores paralelos como DFlash son rápidos pero sufren tasas de aceptación decrecientes en posiciones de tokens posteriores, mientras que los borradores autorregresivos como Eagle3 mantienen la calidad pero son más lentos. DSpark combina una columna vertebral paralela pesada con una pequeña cabeza secuencial de Markov que añade un sesgo dependiente del prefijo antes de muestrear cada token. La cabeza secuencial añade solo entre un 0,2 y un 1,3 por ciento de latencia por ronda, mientras mejora la longitud de tokens aceptados hasta en un 30 por ciento.

Una cabeza de confianza estima la probabilidad de supervivencia de cada token borrador, y un planificador consciente del hardware ajusta la longitud de verificación según la carga de la GPU. Cuando las GPU están inactivas, el sistema verifica más tokens; cuando están ocupadas, verifica menos. La detención temprana preserva la condición de no pérdida.

Resultados de benchmarks

Los benchmarks fuera de línea en modelos Qwen3 y Gemma4 mostraron que DSpark ofrece secuencias aceptadas entre un 26 y un 31 por ciento más largas que Eagle3 y entre un 16 y un 18 por ciento más que DFlash. Una configuración de DSpark de 2 capas superó a un DFlash de 5 capas.

En producción con DeepSeek-V4:

V4-Flash: generación por usuario entre un 60 y un 85 por ciento más rápida sobre la línea base MTP-1
V4-Pro: entre un 57 y un 78 por ciento más rápida

Las mejoras de rendimiento oscilaron entre el 51 y el 400 por ciento según los niveles de concurrencia, según DeepSeek.

Publicación como código abierto

DeepSeek publicó el informe técnico de DSpark junto con la base de código DeepSpec, que proporciona una cadena de herramientas estandarizada para entrenar y evaluar borradores de decodificación especulativa. El framework ha sido probado en modelos abiertos como Gemma y Qwen, lo que sugiere aplicabilidad más allá del ecosistema propio de DeepSeek.

El lanzamiento marca un paso significativo en hacer más eficiente en costos la inferencia de modelos grandes, particularmente para entornos de producción de alta concurrencia donde la latencia por usuario y el rendimiento total son críticos.

Fuentes: DeepSeek Releases DSpark (MarkTechPost, 27 de junio de 2026); informe técnico de DSpark (DeepSeek); DeepSpec GitHub (licencia MIT); análisis de 36Kr (27 de junio de 2026)

Traducido por Alessandra