Google开源高速文本扩散大语言模型DiffusionGemma_科技资讯

Google开源高速文本扩散大语言模型DiffusionGemma

创始人

2026-06-12 00:32:55

0次

谷歌今日正式发布DiffusionGemma，这是一款基于文本扩散这一新兴机器学习方法构建的大语言模型。

谷歌表示，该算法生成文本的速度是传统大语言模型的四倍，且内存占用更低。DiffusionGemma出色的内存效率使其能够运行在高端消费级显卡上，而此类显卡通常难以支撑主流大语言模型的运行需求。

DiffusionGemma的文本扩散架构源自AI模型生成图像的方法。图像生成流程从一张含有高斯噪声的模糊图片开始，AI模型逐步去除噪点，分析优化后的图像，再利用分析结果逐批恢复像素，如此循环直至生成可用的完整图像。

当DiffusionGemma接收到提示词时，会先生成一个由随机词语组成的占位响应，随后将部分随机文本替换为真正构成答案的词语。模型审查这些修改后，再继续生成更多词语，反复迭代，直至最终完成对提示词的回应。

传统AI模型通常每次生成一个Token，而DiffusionGemma的文本扩散架构则支持一次并行生成256个Token，这种并行化处理正是其速度远超标准大语言模型的核心原因。

谷歌表示，DiffusionGemma在单张H100服务器级GPU（英伟达于2022年发布）上每秒可生成超过1000个Token；在英伟达桌面级GeForce RTX 5090显卡上，每秒生成速度也超过700个Token。

DiffusionGemma能够在消费级GPU上运行，原因之一在于其采用了混合专家架构。该模型包含260亿个参数，但每次响应提示词时仅激活其中38亿个，从而有效降低内存占用。此外，DiffusionGemma还通过采用名为NVFP4的轻量级数据格式进一步减少内存消耗。

DiffusionGemma基于谷歌今年4月发布的大语言模型Gemma 4 26B A4B构建。为实现文本扩散功能，谷歌替换了原模型的注意力机制——即用于理解提示词的软件模块。原注意力机制通过分析前文来推断每个词的含义，而新注意力模块还会同时审阅给定词语之后的文本内容。

谷歌研究科学家Brendan O'Donoghue与Sebastian Flennerhag在今日发布的博客文章中写道："尽管AI研究社区多年来一直在探索基于扩散的文本生成方法，但将其应用于大型模型始终面临挑战。DiffusionGemma通过改变模型对硬件的利用方式，突破了这一瓶颈。"

DiffusionGemma现已在Hugging Face平台以开源许可协议发布，公众可免费获取使用。

Q&A

Q1：DiffusionGemma是什么模型，有什么特别之处？

A：DiffusionGemma是谷歌发布的一款基于文本扩散架构的大语言模型。与传统大语言模型每次只生成一个Token不同，DiffusionGemma可一次并行生成256个Token，速度是传统模型的四倍。此外，该模型内存占用更低，可在消费级高端显卡上运行，如英伟达GeForce RTX 5090，每秒生成速度超过700个Token。

Q2：DiffusionGemma的文本扩散原理是怎么运作的？

A：DiffusionGemma的工作方式借鉴了AI图像生成的扩散思路。接收到提示词后，模型先生成一组随机词语作为占位内容，然后逐步将随机词替换为有意义的答案词语，每轮都会审查已有内容并补充新词，反复迭代直至生成完整回复。这种方式与传统逐Token生成有本质区别，效率更高。

Q3：DiffusionGemma采用了哪些技术来降低内存占用？

A：DiffusionGemma主要通过两种方式降低内存使用：一是采用混合专家架构，模型虽有260亿个参数，但每次推理仅激活其中38亿个；二是使用轻量级数据格式NVFP4存储信息，进一步减少显存占用，使模型可以在消费级GPU上流畅运行。

上一篇：两分钟辅助!蜀山四川麻亲友房祈福(辅助挂)一直有辅助器(有挂功能)

下一篇：我国自主研制！国际单机功率最大，成功应用

Google开源高速文本扩散大语言模型DiffusionGemma

相关内容

热门资讯