李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量
创始人
2026-02-15 06:01:35
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

长期以来,AI生图被一个经典矛盾困扰。

潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。

要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。

但扩散模型生图,顺序真的对吗?

李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序

简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。

Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。

传统方法瓶颈

在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。

传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。

模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。

为了解决这个问题,行业此前大多转向潜空间。

它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。

但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。

于是李飞飞团队思考——

能不能既保留像素级的无损精度,又获得潜空间的结构引导?

先打个草稿

Latent Forcing的答案是——

对扩散轨迹重新排序

怎么做的呢?

在不改变基础Transformer架构的前提下,引入了双时间变量机制。

在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:

  • 潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;

  • 像素填色:在结构确定后,像素部分再跟进进行精细化降噪。

这么一看,潜变量就像是一个临时的草稿本。

生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。

整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。

这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。

在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。

在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。

创下像素空间扩散Transformer新的SOTA。

过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。

Latent Forcing则用数据反驳了这一观点——

在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。

Latent Forcing项目由李飞飞领衔。

第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。

其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外,密歇根大学教授Justin Johnson作为合作作者参与其中。

论文地址:https://arxiv.org/abs/2602.11401

相关内容

热门资讯

世界知识产权组织:全球创新传播... 世界知识产权组织17日发布报告说,新技术正以前所未有的速度跨国传播,创新领导力高度集中于科技发达的国...
除夕夜,一台洗地机凭什么登上春... ►文 观察者网 孙珷 2026年除夕夜,央视春晚舞台。 追觅T60 Ultra洗地机,正式出现在这台...
Nothing Phone(4... IT之家 2 月 17 日消息,Nothing CEO 裴宇(Carl Pei)在 X 平台分享了一...
字跳申请内容生成方法专利,能够... 国家知识产权局信息显示,北京字跳网络技术有限公司申请一项名为“内容生成方法、装置、介质、电子设备及程...
辰泰机械取得对辊机双闸门四杆下... 国家知识产权局信息显示,浙江辰泰机械制造有限公司取得一项名为“一种对辊机双闸门四杆下料结构”的专利,...
Anthropic发布新AI模... 来源:环球市场播报 Anthropic PBC推出一款新的人工智能模型,旨在以日益复杂的方式更好地操...
手机有望实现超长待机!中国团队... 未来智能手机实现超长待机、物联网传感器电池续航数年、可穿戴设备无需频繁充电——这些关于低功耗电子产品...
伊朗宣布大动作,原油快速反弹!... 2月17日,美股盘前,美股三大股指期货全线下跌。 科技股盘前普跌,截至发稿,AMD、美光科技、...
华盛电气取得滑环无线芯轴专利,... 国家知识产权局信息显示,深圳市华盛电气技术有限公司取得一项名为“一种滑环无线芯轴”的专利,授权公告号...
机器人“内卷”给14亿人看 出品|虎嗅科技组 作者|宋思杭 编辑|苗正卿 头图|视觉中国 “AI硬件100”呈现最具成长性的AI...