告别逐字蹦字！Google 扔下核弹级 DiffusionGemma：像印报纸一样“刷刷”生成文本，本地飙到1100字/秒！

2026年6月14日 141点热度 0人点赞 0条评论

大家好，我是蓝戒。本篇我们来聊聊：“Google发布DiffusionGemma”。

不知道你有没有受够了市面上那些大语言模型（LLM）“挤牙膏”一样的蹦字速度？尤其是把大模型部署在本地电脑时，看着屏幕一字一字地往外吐，急得人直抓狂。哪怕你手里握着大几千甚至上万元的高端显卡，大模型在生成文本时，显卡利用率也低得像是在摸鱼。

就在2026年6月10日，大模型迎来了一次历史性的颠覆！Google DeepMind 团队正式开源发布了一款名为 DiffusionGemma 的实验性大模型。它彻底打破了传统 LLM 的底层逻辑，不再像“打字机”一样一个字一个字地往外抠，而是像“印刷机”一样，啪的一下，直接成块成块地往外刷！在专用 GPU 上，它的文本生成速度直接飙升了 4倍！

别再当打字机了！文本大模型也玩起了“扩散”

要看懂 DiffusionGemma 为什么能这么快，咱们得先聊聊传统大模型为什么慢。

目前市面上的 GPT-4、Gemini、Claude 等，底层全部采用的是自回归（Autoregressive）架构。这就好比一个老学究在敲旧式打字机，写一句话必须先写前一个字，再根据前一个字预测下一个字。在云端服务器上，因为成千上万用户的请求并发处理，显卡的算力能被填满；但如果搬到本地单用户场景，你的高级 GPU 绝大部分时间都在干等——等上一个 Token 预测完，再腾出地方算下一个。这在技术上叫“内存带宽受限”。

而 DiffusionGemma 引入了离散文本扩散（Discrete Text Diffusion）技术。这个概念听起来高大上，其实原理和绘图软件 Stable Diffusion 或 Midjourney 差不多：

传统 LLM：像一个油画师，从左到右，一笔一笔、极度严谨地画完一整幅画。
DiffusionGemma：像一个雕塑家，先一铲子糊上一个由 256 个随机字符组成的“混沌画布（Canvas）”，然后通过多次“去噪（Denoising）”和修改，把错字、乱码不断修正、润色。

简单来说，传统大模型是在“写”字，而 DiffusionGemma 是在“改”稿。它每一次交互都在同时优化 256 个字，直接把显卡的计算潜力彻底榨干，速度自然直接起飞！

惊人的数据：这头“吞吐巨兽”有多恐怖？

Google 官方和 NVIDIA 联合公布的数据，绝对能让所有本地大模型玩家虎躯一震。

DiffusionGemma 基于 Google 最新的 Gemma 4 26B A4B 混合专家（MoE）架构打造。虽然它总共有 252 亿参数，但在推理时仅激活其中的 38 亿参数，这让它具备了极高的硬件亲和力。

在单张显卡上的本地并发推理中，它的速度表现如下：

测试硬件平台	生成速度 (Tokens/Sec)	适用场景
NVIDIA H100 GPU	1,000 +	企业级高吞吐、智能体工作流
NVIDIA RTX 5090 (本地旗舰)	700 +	本地极速交互、实时代码重构
高阶消费级显卡 (量化后)	极速响应 (仅需 18GB VRAM)	极客本地部署、长文本分析

关键知识点：1100+ tokens/s 是个什么概念？这意味着一本万字长文，它可能只需要 10 秒钟就能全盘“复印”出来。这种速度用来做实时 inline 代码补全、长文本 OCR 提取、UI 界面解析、或者需要频繁“回溯修改”的智能体（Agent）工作流，简直是降维打击。

不仅如此，由于它生成时是“全局审视”这 256 个字，它在处理那些严重依赖上下文、需要前后呼应的复杂任务（比如解数独、补全复杂 Markdown 格式、代码重构）时，往往能展现出比传统单向自回归模型更完美的闭合性。

怎么用？DiffusionGemma 实用部署指南

DiffusionGemma 采用了非常宽松的 Apache 2.0 开源协议，意味着开发者、研究人员完全可以免费商用和魔改。由于它采用了颠覆性的去噪采样算法，常规的 temperature、top_p 调节在它身上不再起主要作用，你需要使用支持“扩散模型采样器（Gemma4Renoise）”的推理后端。

目前主流的生态已经光速跟进，你可以通过以下几种主流方式进行实用部署：

1. 极简本地流：使用 Unsloth Studio（适合小白/极客）

著名大模型加速团队 Unsloth 已经在其文档中提供了完美支持，甚至还支持通过 Unsloth 对其进行 2x 速度的微调。

下载并打开 Unsloth Studio（支持 MacOS, Windows, Linux）。
在 Studio Chat 的模型搜索栏中输入 DiffusionGemma。
选择适合你显存的量化版本（建议 4-bit 量化，显存要求仅约 18GB）。
多模态玩法提示：DiffusionGemma 支持文本、图片、视频 interleaved（交错）输入。在写 Prompt 时，务必将图片或视频帧放在文本指令前面（例如：[图片] 帮我分析这张图表中的核心趋势），这样能获得最佳的多模态理解效果。

2. 开发者级高吞吐流：使用 SGLang / vLLM（适合工程部署）

由于 DiffusionGemma 需要动态调整编码器（Causal Attention）与解码器（Bidirectional Attention）的模式，国内顶尖推理框架 SGLang 和主流的 vLLM（需要切换至 dgemma 分支）都已原生支持 Gemma4Renoise 算法。

你只需要一行命令即可通过 SGLang 拉起本地兼容 OpenAI 接口的服务：

Bash

sglang serve \
  --model-path google/diffusiongemma-26B-A4B-it \
  --dllm-algorithm Gemma4Renoise \
  --trust-remote-code \
  --host 0.0.0.0 \
  --port 30000

启动后，直接用标准的 Python openai 库就能进行流式调用。不过要注意，它的 Streaming（流式传输）不是一个字一个字蹦，而是成块（Block-level）吐出，每次吐出完整去噪后的 256 个 Token！