DeepSeek ouvre le code de DSpark, un framework de décodage spéculatif qui accélère l’inférence de V4 jusqu’à 85 %

DeepSeek a ouvert le code de DSpark, un framework de décodage spéculatif qui accélère la génération de texte par utilisateur sur ses modèles DeepSeek-V4 de 60 à 85 % sans sacrifier la qualité de sortie. Le framework, accompagné de la base de code DeepSpec sous licence MIT, est disponible sur GitHub et Hugging Face.

DSpark est une optimisation de service, pas un nouveau modèle. Les checkpoints DeepSeek-V4-Pro-DSpark et DeepSeek-V4-Flash-DSpark réutilisent les poids existants de V4 avec un module de draft attaché, ce qui signifie que le déploiement ne nécessite pas de réentraînement du modèle de base.

Comment ça fonctionne

Le décodage spéculatif divise la génération en deux rôles : un modèle draft léger propose un bloc de tokens candidats, et le modèle cible complet les vérifie en un seul passage avant. L’échantillonnage par rejet garantit que la sortie finale préserve exactement la distribution cible, rendant l’accélération sans perte.

L’innovation de DSpark réside dans ce qu’il appelle la génération semi-autorégressive. Les drafters précédents faisaient face à un compromis : les drafters parallèles comme DFlash sont rapides mais souffrent de taux d’acceptation décroissants aux positions de tokens ultérieures, tandis que les drafters autorégressifs comme Eagle3 maintiennent la qualité mais sont plus lents. DSpark combine un lourd backbone parallèle avec une minuscule tête séquentielle de Markov qui ajoute un biais dépendant du préfixe avant d’échantillonner chaque token. La tête séquentielle n’ajoute que 0,2 à 1,3 % de latence par tour tout en améliorant la longueur des tokens acceptés jusqu’à 30 %.

Une tête de confiance estime la probabilité de survie pour chaque token drafté, et un ordonnanceur conscient du matériel ajuste la longueur de vérification en fonction de la charge GPU. Lorsque les GPU sont inactifs, le système vérifie plus de tokens ; lorsqu’ils sont occupés, il en vérifie moins. L’arrêt précoce préserve l’absence de perte.

Résultats des benchmarks

Les benchmarks hors ligne sur les modèles Qwen3 et Gemma4 ont montré que DSpark délivrait des séquences acceptées 26 à 31 % plus longues qu’Eagle3 et 16 à 18 % plus longues que DFlash. Une configuration DSpark à 2 couches a surpassé un DFlash à 5 couches.

En production sur DeepSeek-V4 :

V4-Flash : génération par utilisateur 60 à 85 % plus rapide par rapport à la baseline MTP-1
V4-Pro : 57 à 78 % plus rapide

Les améliorations de débit allaient de 51 à 400 % selon les niveaux de concurrence, selon DeepSeek.

Publication open-source

DeepSeek a publié le rapport technique DSpark aux côtés de la base de code DeepSpec, qui fournit une chaîne d’outils standardisée pour entraîner et évaluer les drafters de décodage spéculatif. Le framework a été testé sur des modèles ouverts, notamment Gemma et Qwen, suggérant une applicabilité au-delà de l’écosystème propre de DeepSeek.

Cette publication marque une étape importante dans l’amélioration de l’efficacité des coûts d’inférence des grands modèles, en particulier pour les environnements de production à forte concurrence où la latence par utilisateur et le débit total sont critiques.

Sources : DeepSeek Releases DSpark (MarkTechPost, 27 juin 2026) ; rapport technique DSpark (DeepSeek) ; DeepSpec GitHub (licence MIT) ; analyse 36Kr (27 juin 2026)

Traduit par Lydie