Google 联合 NVIDIA 正式开源发布了基于离散文本扩散(Discrete Text Diffusion)技术的实验性大模型 DiffusionGemma(26B参数,3.8B激活)。该模型彻底颠覆了传统 LLM 的逐字自回归生成方式,通过在 256 个 Token 的“画布”上进行并行去噪和迭代润色,将单用户/本地专用 GPU 的文本生成速度提升了高达 4 倍。在 RTX 5090 上可达 700+ tokens/s,H100 上更是超过 1,000 tokens/s。本文深入浅出地解析了其“印刷机”式的…