推理速度狂飙6倍，ICML 2026 爆火的 DFlash 凭什么把传统投机采样按在地上摩擦？

2026年6月26日 4点热度 0人点赞 0条评论

大家好，我是蓝戒。本篇我们来聊聊：“DFlash大模型无损加速”。

传统投机采样：小弟带路，怎么还是个慢性子？

用过大模型的朋友都知道，LLM生成文本简直就像老太太绣花——一字一字往外蹦。这种“自回归”机制（Autoregressive）是大模型天生的阿喀琉斯之踵：每一个Token的诞生，都要大模型把几百亿参数的脑子全量转一圈，显存带宽直接被榨干，GPU利用率低得让人流泪。

为了解决这个痛点，业界发明了“投机采样”（Speculative Decoding）。简单来说，就是找个“小弟”（轻量级草稿模型）在前面疯狂盲猜，猜出一串Token后，再让“大哥”（目标大模型）并行为其验证。如果小弟猜对了，大哥就一拍大腿全部放行，速度自然就提上来了。

听上去很美对不对？但现实很骨感。目前最顶级的投机采样方案（比如EAGLE-3），它里面的“小弟”依然是用自回归方式一个字一个字去猜的！这意味着什么？小弟自己也是个慢性子，它在前面带路慢吞吞，大哥在后面等得干着急。这种套娃式的自回归，让整体的加速比死死卡在了2到3倍的瓶颈上，再难寸进。

DFlash：不做单选题，我一笔画出整个句子！

既然一个字一个字猜太慢，那能不能直接“画”出一张图那样，直接吐出一整块（Block）Token？

Z Lab 团队（来自UCSD的Jian Chen, Yesheng Liang, Zhijian Liu等学者）在 ICML 2026 上发表的最新重磅成果——DFlash（官方仓库：z-lab/dflash），直接打破了这个僵局。DFlash 的核心思想让人直呼过瘾：既然自回归依赖太重，那我们干脆掀翻桌子，用轻量级块扩散模型（Block Diffusion Model）来当这个带路的小弟！

扩散模型大家熟悉吧？Midjourney和Stable Diffusion生成图片时，都是从一堆噪声开始，一秒钟“刷”地一下直接去噪生成整张图。DFlash 把这个逻辑玩到了文本生成上。它让小弟在单次前向传播中（Single Forward Pass），利用双向注意力机制，直接把后面8到16个Token的空位全部填满！

当别的方案还在像小学生一样“一、二、三、四”数数时，DFlash 已经一巴掌把一整个句子的草稿拍在桌上了。计算成本直接暴跌，效率直接拉满！