谷歌今日正式发布DiffusionGemma,这是一款基于文本扩散这一新兴机器学习方法构建的大语言模型。
谷歌表示,该算法生成文本的速度是传统大语言模型的四倍,且内存占用更低。DiffusionGemma出色的内存效率使其能够运行在高端消费级显卡上,而此类显卡通常难以支撑主流大语言模型的运行需求。
DiffusionGemma的文本扩散架构源自AI模型生成图像的方法。图像生成流程从一张含有高斯噪声的模糊图片开始,AI模型逐步去除噪点,分析优化后的图像,再利用分析结果逐批恢复像素,如此循环直至生成可用的完整图像。
当DiffusionGemma接收到提示词时,会先生成一个由随机词语组成的占位响应,随后将部分随机文本替换为真正构成答案的词语。模型审查这些修改后,再继续生成更多词语,反复迭代,直至最终完成对提示词的回应。
传统AI模型通常每次生成一个Token,而DiffusionGemma的文本扩散架构则支持一次并行生成256个Token,这种并行化处理正是其速度远超标准大语言模型的核心原因。
谷歌表示,DiffusionGemma在单张H100服务器级GPU(英伟达于2022年发布)上每秒可生成超过1000个Token;在英伟达桌面级GeForce RTX 5090显卡上,每秒生成速度也超过700个Token。
DiffusionGemma能够在消费级GPU上运行,原因之一在于其采用了混合专家架构。该模型包含260亿个参数,但每次响应提示词时仅激活其中38亿个,从而有效降低内存占用。此外,DiffusionGemma还通过采用名为NVFP4的轻量级数据格式进一步减少内存消耗。
DiffusionGemma基于谷歌今年4月发布的大语言模型Gemma 4 26B A4B构建。为实现文本扩散功能,谷歌替换了原模型的注意力机制——即用于理解提示词的软件模块。原注意力机制通过分析前文来推断每个词的含义,而新注意力模块还会同时审阅给定词语之后的文本内容。
谷歌研究科学家Brendan O'Donoghue与Sebastian Flennerhag在今日发布的博客文章中写道:"尽管AI研究社区多年来一直在探索基于扩散的文本生成方法,但将其应用于大型模型始终面临挑战。DiffusionGemma通过改变模型对硬件的利用方式,突破了这一瓶颈。"
DiffusionGemma现已在Hugging Face平台以开源许可协议发布,公众可免费获取使用。
Q&A
Q1:DiffusionGemma是什么模型,有什么特别之处?
A:DiffusionGemma是谷歌发布的一款基于文本扩散架构的大语言模型。与传统大语言模型每次只生成一个Token不同,DiffusionGemma可一次并行生成256个Token,速度是传统模型的四倍。此外,该模型内存占用更低,可在消费级高端显卡上运行,如英伟达GeForce RTX 5090,每秒生成速度超过700个Token。
Q2:DiffusionGemma的文本扩散原理是怎么运作的?
A:DiffusionGemma的工作方式借鉴了AI图像生成的扩散思路。接收到提示词后,模型先生成一组随机词语作为占位内容,然后逐步将随机词替换为有意义的答案词语,每轮都会审查已有内容并补充新词,反复迭代直至生成完整回复。这种方式与传统逐Token生成有本质区别,效率更高。
Q3:DiffusionGemma采用了哪些技术来降低内存占用?
A:DiffusionGemma主要通过两种方式降低内存使用:一是采用混合专家架构,模型虽有260亿个参数,但每次推理仅激活其中38亿个;二是使用轻量级数据格式NVFP4存储信息,进一步减少显存占用,使模型可以在消费级GPU上流畅运行。