DeepSeek开源DSpark投机解码框架,V4推理速度提升高达85%

DeepSeek已将DSpark开源,这是一个投机解码框架,可在不影响输出质量的情况下,将DeepSeek-V4模型的单用户文本生成速度提升60%至85%。该框架与采用MIT授权的DeepSpec训练代码库一同在GitHub和Hugging Face上提供。

DSpark是一项服务优化技术,并非新模型。DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark检查点复用了现有V4权重,并附加了一个草稿模块,这意味着部署无需重新训练基础模型。

工作原理

投机解码将生成过程分为两个角色:轻量级草稿模型提出候选令牌块,完整的目标模型通过单次前向传播对其进行验证。拒绝采样确保最终输出精确保持目标分布,从而实现无损加速。

DSpark的创新之处在于其所谓的半自回归生成。早期的草稿模型面临一个权衡:DFlash等并行草稿模型速度快,但在后续令牌位置接受率会下降;而Eagle3等自回归草稿模型质量高但速度慢。DSpark将强大的并行主干与一个微小的顺序马尔可夫头相结合,该头在采样每个令牌之前添加前缀依赖的偏置。顺序头仅增加每轮0.2%至1.3%的延迟,同时将接受的令牌长度提升高达30%。

置信度头估算每个草稿令牌的生存概率,硬件感知调度器根据GPU负载调整验证长度。当GPU空闲时,系统验证更多令牌;繁忙时验证更少。早停机制保证了无损性。

基准测试结果

在Qwen3和Gemma4模型上的离线基准测试显示,DSpark的接受序列比Eagle3长26%至31%,比DFlash长16%至18%。2层DSpark配置优于5层DFlash。

在DeepSeek-V4生产环境中:

  • V4-Flash:单用户生成速度比MTP-1基线快60%至85%
  • V4-Pro:快57%至78%

据DeepSeek称,吞吐量提升根据并发水平在51%至400%之间。

开源发布

DeepSeek发布了DSpark技术报告以及DeepSpec代码库,该代码库提供了训练和评估投机解码草稿模型的标准化工具体系。该框架已在Gemma和Qwen等开放模型上测试,表明其可应用于DeepSeek自身生态系统之外。

此次发布标志着在大模型推理成本效率方面迈出了重要一步,特别是在单用户延迟和总吞吐量至关重要的高并发生产环境中。

来源:DeepSeek Releases DSpark(MarkTechPost,2026年6月27日);DSpark技术报告(DeepSeek);DeepSpec GitHub(MIT许可);36Kr分析(2026年6月27日)

婷 翻译

Scroll to Top