本文深度剖析了 ICML 2026 爆火的大模型投机采样框架 DFlash。针对传统投机采样(如EAGLE-3)受限于自回归草稿生成的性能瓶颈,DFlash 独辟溪径地引入轻量级块扩散模型,通过单次前向传播及目标模型特征注入,实现 8-16 个 Token 的高效并行草稿生成。实验表明,DFlash 在 Qwen3-8B 等模型上实现了高达 6.17 倍的无损加速,比 EAGLE-3 快 2.5 倍,且已深度集成至 vLLM、SGLang 及 MLX 等主流生态,为大模型推理加速提供了全新范式。