谷歌Fluid颠覆共识:两大因素被发现,AI文生图领域自回归模型超越扩散模型
创始人
2024-10-23 16:00:59
0

10 月 23 日消息,科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。

目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。

IT之家简要介绍下这两种模型:

扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术,它模拟的是信号从噪声中逐渐恢复的过程。扩散模型通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。比如应用于图像生成领域中的 DDPM(离散扩散概率模型)及其变体就有很高的关注度。

自回归模型 (Autoregressive Models): 自回归模型预测序列中的下一个元素时,依赖于前面的元素。在文本生成领域,像基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)就是典型的自回归模型,它们逐词预测下一个词,从而生成连贯的文本段落。

谷歌 DeepMind 和 MIT 团队通过深入研究,发现了使用连续 tokens(非离散 tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素,显著提高了自回归模型的性能和可扩展性。

团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失,而连续 tokens 可以更精确地图像信息存储,减少信息丢失。这让模型能够更好地重建图像,提高视觉质量。

此外大多数自回归模型以固定顺序生成图像,而 Fluid 采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素,这种方法在理解整体图像结构时表现更为出色。

Fluid 模型结合了连续标记和随机生成顺序后,当其规模扩大到 105 亿参数时,Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

与 Parti 相比,Fluid 显示出显著的改进:拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数,而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。

【来源:IT之家】

相关内容

热门资讯

华纬科技公布“一种异形弹簧包络... 天眼查APP显示,近日,华纬科技股份有限公司申请的“一种异形弹簧包络直径检测方法和工装”专利公布。 ...
卡塔尔首相:卡方将继续调停加沙... △卡塔尔首相兼外交大臣穆罕默德 当地时间9月14日,卡塔尔首相兼外交大臣穆罕默德表示,卡塔尔将继续斡...
女子6次报警仍遭家暴,人身保护... 撰稿/ 李曙明(律师) 编辑 / 马小龙 校对/ 张彦君 ▲家暴受害人谢女士。图/央视新闻视频截图...
要用中国武器打败以色列,中东要... 当地时间2025年9月11日,土耳其方面称,以色列当局曾考虑在土耳其袭击巴勒斯坦抵抗武装哈马斯领导人...
原创 库... 当 iPhone 17 Pro Max 亮相发布会舞台的那一刻,关于“地表最强手机”的讨论就已经拉开...
原创 胜... 充满争议的特朗普关税政策,最近终于迎来了重要转折点,在美国内外的压力下,特朗普的态度终于“软下来”了...
孙颖莎王楚钦,双双夺冠 9月14日,2025年WTT澳门冠军赛展开最后一日争夺。孙颖莎、王楚钦分别获得女单、男单冠军! 孙...
西贝创始人贾国龙道歉:我应对方... 红星资本局9月14日消息,西贝创始人贾国龙在某个行业群内的表态截图流出。 贾国龙表示:“我应对方式有...
全国首个蜀道自然科学展览,带你... 封面新闻记者 刘彦谷 9月9日,全国首个蜀道自然科学展览“剑门蜀道的科技密码”科普展在广元市博物馆开...