Google开源高速文本扩散大语言模型DiffusionGemma
创始人
2026-06-12 00:32:55
0

谷歌今日正式发布DiffusionGemma,这是一款基于文本扩散这一新兴机器学习方法构建的大语言模型。

谷歌表示,该算法生成文本的速度是传统大语言模型的四倍,且内存占用更低。DiffusionGemma出色的内存效率使其能够运行在高端消费级显卡上,而此类显卡通常难以支撑主流大语言模型的运行需求。

DiffusionGemma的文本扩散架构源自AI模型生成图像的方法。图像生成流程从一张含有高斯噪声的模糊图片开始,AI模型逐步去除噪点,分析优化后的图像,再利用分析结果逐批恢复像素,如此循环直至生成可用的完整图像。

当DiffusionGemma接收到提示词时,会先生成一个由随机词语组成的占位响应,随后将部分随机文本替换为真正构成答案的词语。模型审查这些修改后,再继续生成更多词语,反复迭代,直至最终完成对提示词的回应。

传统AI模型通常每次生成一个Token,而DiffusionGemma的文本扩散架构则支持一次并行生成256个Token,这种并行化处理正是其速度远超标准大语言模型的核心原因。

谷歌表示,DiffusionGemma在单张H100服务器级GPU(英伟达于2022年发布)上每秒可生成超过1000个Token;在英伟达桌面级GeForce RTX 5090显卡上,每秒生成速度也超过700个Token。

DiffusionGemma能够在消费级GPU上运行,原因之一在于其采用了混合专家架构。该模型包含260亿个参数,但每次响应提示词时仅激活其中38亿个,从而有效降低内存占用。此外,DiffusionGemma还通过采用名为NVFP4的轻量级数据格式进一步减少内存消耗。

DiffusionGemma基于谷歌今年4月发布的大语言模型Gemma 4 26B A4B构建。为实现文本扩散功能,谷歌替换了原模型的注意力机制——即用于理解提示词的软件模块。原注意力机制通过分析前文来推断每个词的含义,而新注意力模块还会同时审阅给定词语之后的文本内容。

谷歌研究科学家Brendan O'Donoghue与Sebastian Flennerhag在今日发布的博客文章中写道:"尽管AI研究社区多年来一直在探索基于扩散的文本生成方法,但将其应用于大型模型始终面临挑战。DiffusionGemma通过改变模型对硬件的利用方式,突破了这一瓶颈。"

DiffusionGemma现已在Hugging Face平台以开源许可协议发布,公众可免费获取使用。

Q&A

Q1:DiffusionGemma是什么模型,有什么特别之处?

A:DiffusionGemma是谷歌发布的一款基于文本扩散架构的大语言模型。与传统大语言模型每次只生成一个Token不同,DiffusionGemma可一次并行生成256个Token,速度是传统模型的四倍。此外,该模型内存占用更低,可在消费级高端显卡上运行,如英伟达GeForce RTX 5090,每秒生成速度超过700个Token。

Q2:DiffusionGemma的文本扩散原理是怎么运作的?

A:DiffusionGemma的工作方式借鉴了AI图像生成的扩散思路。接收到提示词后,模型先生成一组随机词语作为占位内容,然后逐步将随机词替换为有意义的答案词语,每轮都会审查已有内容并补充新词,反复迭代直至生成完整回复。这种方式与传统逐Token生成有本质区别,效率更高。

Q3:DiffusionGemma采用了哪些技术来降低内存占用?

A:DiffusionGemma主要通过两种方式降低内存使用:一是采用混合专家架构,模型虽有260亿个参数,但每次推理仅激活其中38亿个;二是使用轻量级数据格式NVFP4存储信息,进一步减少显存占用,使模型可以在消费级GPU上流畅运行。

相关内容

热门资讯

原创 如... 在情感的世界里,语言是沟通的桥梁,也是理解的钥匙。当一个女人对你说“随便”,这背后的含义可能远比字面...
科普宣传║0-6 岁儿童如何预... 家有萌娃的家长们,今天咱们一起聊聊0-6岁儿童如何预防龋齿这个话题。 一、什么是儿童龋齿(蛀牙) ...
原创 历... 历史职场:如何应对职场流言? 2026-06-11 辛辛苦苦在外跑业务,却听到公司里有人背后说你坏话...
把脉产业融合 AI浪潮演进脉络... 图为在深圳举办的2026香港交易所未来科技峰会现场。 港交所/供图 证券时报记者 王军 当前,人工...
未来感拉满!实探第十二届上交会... 6月11日,上海艳阳高照,第十二届中国(上海)国际技术进出口交易会(上交会)在上海世博展览馆开幕。 ...
林州重机:A股罕见的“信披惯犯... 在中国A股市场的漫长历史中,总有一些公司能够以“屡教不改”的姿态,不断挑战监管底线和投资者耐心。林州...
王霹雳:纯认知五层之必读-有人... 今天终于把五层理论闭环了,对内对外总算有了个交代。 这个五层认知体系会一直迭代下去,其实有一些隐性的...
当一家140年的巨头,开始打造... 近两年,具身智能和人形机器人无疑是全球科技产业最炙手可热的话题之一。 从大模型公司到自动驾驶企业,从...
上海:中国(上海)国际技术进出... 6月11日,参观者在体验使用一款载人飞行模拟舱进行空战的游戏。 6月11日,第十二届中国(上海)国际...