推理速度狂飙6倍，ICML 2026 爆火的 DFlash 凭什么把传统投机采样按在地上摩擦？

本文深度剖析了 ICML 2026 爆火的大模型投机采样框架 DFlash。针对传统投机采样（如EAGLE-3）受限于自回归草稿生成的性能瓶颈，DFlash 独辟溪径地引入轻量级块扩散模型，通过单次前向传播及目标模型特征注入，实现 8-16 个 Token 的高效并行草稿生成。实验表明，DFlash 在 Qwen3-8B 等模型上实现了高达 6.17 倍的无损加速，比 EAGLE-3 快 2.5 倍，且已深度集成至 vLLM、SGLang 及 MLX 等主流生态，为大模型推理加速提供了全新范式。