谷歌 DeepMind 发布 DiffusionGemma 扩散模型文本生成提速 4 倍

6 月 10 日，谷歌 DeepMind 推出实验性开源模型 DiffusionGemma，基于 Gemma 4 26B MoE 架构，采用扩散机制实现文本块并行生成，推理速度较传统自回归模型提升最高 4 倍，特别适合本地 GPU（如 NVIDIA RTX）上的交互式工作流。[[1]](https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/)

这一发布正值开源模型加速本地部署的节点。Gemma 系列此前已转向 Apache 2.0 许可，DiffusionGemma 进一步降低边缘侧延迟门槛，与主流自回归模型形成互补。对比 Anthropic 和 OpenAI 仍以云端旗舰模型为主的路径，谷歌选择在开源生态中探索速度新范式，意在抢占 agentic 应用与本地 AI 的先机。

NVIDIA 已同步优化该模型在 RTX 平台上的运行效率，印证硬件与模型协同正成为开源落地关键。未来 6-12 个月，关键看 DiffusionGemma 是否催生更多并行生成应用场景，以及是否推动其他实验室跟进扩散类架构。若本地性能优势显著，AI 算力需求或进一步向边缘分流。

信源：https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

📤 分享这篇文章

𝕏 X 分享 in LinkedIn

点击”分享微信好友”→ 长按图片发到微信

Leave a Reply Cancel reply