DeepSeek开源DSpark投机解码框架，V4推理速度提升高达85%

By Ada - 1ban.news / June 28, 2026 09:03 UTC

DeepSeek已将DSpark开源，这是一个投机解码框架，可在不影响输出质量的情况下，将DeepSeek-V4模型的单用户文本生成速度提升60%至85%。该框架与采用MIT授权的DeepSpec训练代码库一同在GitHub和Hugging Face上提供。

DSpark是一项服务优化技术，并非新模型。DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark检查点复用了现有V4权重，并附加了一个草稿模块，这意味着部署无需重新训练基础模型。

工作原理

投机解码将生成过程分为两个角色：轻量级草稿模型提出候选令牌块，完整的目标模型通过单次前向传播对其进行验证。拒绝采样确保最终输出精确保持目标分布，从而实现无损加速。

DSpark的创新之处在于其所谓的半自回归生成。早期的草稿模型面临一个权衡：DFlash等并行草稿模型速度快，但在后续令牌位置接受率会下降；而Eagle3等自回归草稿模型质量高但速度慢。DSpark将强大的并行主干与一个微小的顺序马尔可夫头相结合，该头在采样每个令牌之前添加前缀依赖的偏置。顺序头仅增加每轮0.2%至1.3%的延迟，同时将接受的令牌长度提升高达30%。

置信度头估算每个草稿令牌的生存概率，硬件感知调度器根据GPU负载调整验证长度。当GPU空闲时，系统验证更多令牌；繁忙时验证更少。早停机制保证了无损性。

基准测试结果

在Qwen3和Gemma4模型上的离线基准测试显示，DSpark的接受序列比Eagle3长26%至31%，比DFlash长16%至18%。2层DSpark配置优于5层DFlash。

在DeepSeek-V4生产环境中：

V4-Flash：单用户生成速度比MTP-1基线快60%至85%
V4-Pro：快57%至78%

据DeepSeek称，吞吐量提升根据并发水平在51%至400%之间。

开源发布

DeepSeek发布了DSpark技术报告以及DeepSpec代码库，该代码库提供了训练和评估投机解码草稿模型的标准化工具体系。该框架已在Gemma和Qwen等开放模型上测试，表明其可应用于DeepSeek自身生态系统之外。

此次发布标志着在大模型推理成本效率方面迈出了重要一步，特别是在单用户延迟和总吞吐量至关重要的高并发生产环境中。

来源：DeepSeek Releases DSpark（MarkTechPost，2026年6月27日）；DSpark技术报告（DeepSeek）；DeepSpec GitHub（MIT许可）；36Kr分析（2026年6月27日）

婷翻译