DeepSeek、V4推論を最大85%高速化する投機的デコードフレームワーク「DSpark」をオープンソース化

DeepSeekは、DeepSeek-V4モデルにおけるユーザーごとのテキスト生成を60～85%高速化し、かつ出力品質を犠牲にしない投機的デコードフレームワーク「DSpark」をオープンソース化した。MITライセンスのDeepSpecトレーニングコードベースとともに、フレームワークはGitHubおよびHugging Faceで入手可能である。

DSparkはサービング最適化技術であり、新しいモデルではない。チェックポイント「DeepSeek-V4-Pro-DSpark」および「DeepSeek-V4-Flash-DSpark」は、既存のV4重みにドラフトモジュールを付加したもので、ベースモデルの再トレーニングを必要としない。

仕組み

投機的デコードは生成プロセスを2つの役割に分割する。軽量なドラフトモデルが候補トークンのブロックを提案し、完全なターゲットモデルがそれらを単一のフォワードパスで検証する。リジェクションサンプリングにより、最終出力はターゲット分布を正確に維持し、高速化はロスレスとなる。

DSparkの革新は、半自己回帰生成と呼ばれる手法にある。従来のドラフターはトレードオフに直面していた。DFlashのような並列ドラフターは高速だが、後続のトークン位置で受入率が低下する。一方、Eagle3のような自己回帰ドラフターは品質を維持するが低速である。DSparkは、強力な並列バックボーンと、各トークンサンプリング前にプリフィックス依存のバイアスを加える小型の逐次マルコフヘッドを組み合わせる。この逐次ヘッドは、受け入れられるトークン長を最大30%改善しながら、ラウンドあたりのレイテンシをわずか0.2～1.3%しか増加させない。

信頼度ヘッドが各ドラフトトークンの生存確率を推定し、ハードウェアを考慮したスケジューラがGPU負荷に基づいて検証長を調整する。GPUがアイドル状態の場合はより多くのトークンを検証し、ビジー状態の場合は少なく検証する。早期停止によりロスレス性が維持される。

ベンチマーク結果

Qwen3およびGemma4モデルによるオフラインベンチマークでは、DSparkはEagle3より26～31%長い受入系列を実現し、DFlashより16～18%長い結果を示した。2層のDSpark構成が5層のDFlashを上回った。

DeepSeek-V4での本番環境において：

V4-Flash：MTP-1ベースライン比でユーザーごとの生成が60～85%高速化
V4-Pro：57～78%高速化

DeepSeekによると、スループットの改善は同時実行レベルに応じて51～400%の範囲であった。

オープンソースリリース

DeepSeekは、DSparkのテクニカルレポートとともに、投機的デコードドラフターのトレーニングおよび評価のための標準化ツールチェーンを提供するDeepSpecコードベースを公開した。フレームワークはGemmaやQwenなどのオープンモデルでもテストされており、DeepSeek独自のエコシステムを超えた適用可能性を示唆している。

今回のリリースは、特にユーザーごとのレイテンシと総スループットが重要な高同時実行本番環境において、大規模モデル推論のコスト効率を向上させる重要な一歩となる。

ソース：DeepSeek Releases DSpark（MarkTechPost、2026年6月27日）；DSpark technical report（DeepSeek）；DeepSpec GitHub（MITライセンス）；36Kr analysis（2026年6月27日）

雅子訳