大家好,我是蓝戒。本篇我们来聊聊:“Google发布DiffusionGemma”。
不知道你有没有受够了市面上那些大语言模型(LLM)“挤牙膏”一样的蹦字速度?尤其是把大模型部署在本地电脑时,看着屏幕一字一字地往外吐,急得人直抓狂。哪怕你手里握着大几千甚至上万元的高端显卡,大模型在生成文本时,显卡利用率也低得像是在摸鱼。
就在2026年6月10日,大模型迎来了一次历史性的颠覆!Google DeepMind 团队正式开源发布了一款名为 DiffusionGemma 的实验性大模型。它彻底打破了传统 LLM 的底层逻辑,不再像“打字机”一样一个字一个字地往外抠,而是像“印刷机”一样,啪的一下,直接成块成块地往外刷!在专用 GPU 上,它的文本生成速度直接飙升了 4倍!
别再当打字机了!文本大模型也玩起了“扩散”
要看懂 DiffusionGemma 为什么能这么快,咱们得先聊聊传统大模型为什么慢。
目前市面上的 GPT-4、Gemini、Claude 等,底层全部采用的是自回归(Autoregressive)架构。这就好比一个老学究在敲旧式打字机,写一句话必须先写前一个字,再根据前一个字预测下一个字。在云端服务器上,因为成千上万用户的请求并发处理,显卡的算力能被填满;但如果搬到本地单用户场景,你的高级 GPU 绝大部分时间都在干等——等上一个 Token 预测完,再腾出地方算下一个。这在技术上叫“内存带宽受限”。
而 DiffusionGemma 引入了离散文本扩散(Discrete Text Diffusion)技术。这个概念听起来高大上,其实原理和绘图软件 Stable Diffusion 或 Midjourney 差不多:
- 传统 LLM:像一个油画师,从左到右,一笔一笔、极度严谨地画完一整幅画。
- DiffusionGemma:像一个雕塑家,先一铲子糊上一个由 256 个随机字符组成的“混沌画布(Canvas)”,然后通过多次“去噪(Denoising)”和修改,把错字、乱码不断修正、润色。
简单来说,传统大模型是在“写”字,而 DiffusionGemma 是在“改”稿。它每一次交互都在同时优化 256 个字,直接把显卡的计算潜力彻底榨干,速度自然直接起飞!
惊人的数据:这头“吞吐巨兽”有多恐怖?
Google 官方和 NVIDIA 联合公布的数据,绝对能让所有本地大模型玩家虎躯一震。
DiffusionGemma 基于 Google 最新的 Gemma 4 26B A4B 混合专家(MoE)架构打造。虽然它总共有 252 亿参数,但在推理时仅激活其中的 38 亿参数,这让它具备了极高的硬件亲和力。
在单张显卡上的本地并发推理中,它的速度表现如下:
| 测试硬件平台 | 生成速度 (Tokens/Sec) | 适用场景 |
| NVIDIA H100 GPU | 1,000 + | 企业级高吞吐、智能体工作流 |
| NVIDIA RTX 5090 (本地旗舰) | 700 + | 本地极速交互、实时代码重构 |
| 高阶消费级显卡 (量化后) | 极速响应 (仅需 18GB VRAM) | 极客本地部署、长文本分析 |
关键知识点:1100+ tokens/s 是个什么概念?这意味着一本万字长文,它可能只需要 10 秒钟就能全盘“复印”出来。这种速度用来做实时 inline 代码补全、长文本 OCR 提取、UI 界面解析、或者需要频繁“回溯修改”的智能体(Agent)工作流,简直是降维打击。
不仅如此,由于它生成时是“全局审视”这 256 个字,它在处理那些严重依赖上下文、需要前后呼应的复杂任务(比如解数独、补全复杂 Markdown 格式、代码重构)时,往往能展现出比传统单向自回归模型更完美的闭合性。
怎么用?DiffusionGemma 实用部署指南
DiffusionGemma 采用了非常宽松的 Apache 2.0 开源协议,意味着开发者、研究人员完全可以免费商用和魔改。由于它采用了颠覆性的去噪采样算法,常规的 temperature、top_p 调节在它身上不再起主要作用,你需要使用支持“扩散模型采样器(Gemma4Renoise)”的推理后端。
目前主流的生态已经光速跟进,你可以通过以下几种主流方式进行实用部署:
1. 极简本地流:使用 Unsloth Studio(适合小白/极客)
著名大模型加速团队 Unsloth 已经在其文档中提供了完美支持,甚至还支持通过 Unsloth 对其进行 2x 速度的微调。
- 下载并打开 Unsloth Studio(支持 MacOS, Windows, Linux)。
- 在 Studio Chat 的模型搜索栏中输入
DiffusionGemma。 - 选择适合你显存的量化版本(建议 4-bit 量化,显存要求仅约 18GB)。
- 多模态玩法提示:DiffusionGemma 支持文本、图片、视频 interleaved(交错)输入。在写 Prompt 时,务必将图片或视频帧放在文本指令前面(例如:
[图片] 帮我分析这张图表中的核心趋势),这样能获得最佳的多模态理解效果。
2. 开发者级高吞吐流:使用 SGLang / vLLM(适合工程部署)
由于 DiffusionGemma 需要动态调整编码器(Causal Attention)与解码器(Bidirectional Attention)的模式,国内顶尖推理框架 SGLang 和主流的 vLLM(需要切换至 dgemma 分支)都已原生支持 Gemma4Renoise 算法。
你只需要一行命令即可通过 SGLang 拉起本地兼容 OpenAI 接口的服务:
Bash
sglang serve \
--model-path google/diffusiongemma-26B-A4B-it \
--dllm-algorithm Gemma4Renoise \
--trust-remote-code \
--host 0.0.0.0 \
--port 30000
启动后,直接用标准的 Python openai 库就能进行流式调用。不过要注意,它的 Streaming(流式传输)不是一个字一个字蹦,而是成块(Block-level)吐出,每次吐出完整去噪后的 256 个 Token!
相关资源地址汇总结
为了方便大家第一时间尝鲜这台“印刷机”,以下是整理好的官方及社区核心资源入口:
- 官方开源权重(Hugging Face):google/diffusiongemma-26B-A4B-it:https://huggingface.co/google/diffusiongemma-26B-A4B-it
- NVIDIA 官方免费体验微服务(NVIDIA NIM):build.nvidia.com 试用通道 :https://build.nvidia.com/google/diffusiongemma-26b-a4b-it/modelcard(提供企业级 FP4 格式及 NIM 容器化部署方案)
- Unsloth 官方本地运行与微调指南:Unsloth Models Documentation:https://unsloth.ai/docs/models/diffusiongemma
- Google AI 官方技术文档:Google AI for Developers - DiffusionGemma Overview:https://ai.google.dev/gemma/docs/diffusiongemma
文章评论