李飞飞又出手了！开源了1亿张授权图片数据集，重塑视觉生成基准_科技资讯

李飞飞又出手了！开源了1亿张授权图片数据集，重塑视觉生成基准

创始人

2026-05-30 23:18:58

0次

近日，美国斯坦福大学李飞飞、吴佳俊团队发布了一个图片数据集，名字叫做 GPIC，该数据集包含了一亿张照片，总像素接近 28 万亿。每张图片都配有详细的文字描述，有的是一两个关键词，有的是五六句话的长段落。

其最特别的地方在于所有图片都可免费用于商业和研究，无需担心版权问题。他们还提供了一个标准的测试方法，让不同公司的 AI 模型能够在同样的规则下比拼生图能力。

GPIC 解决了 AI 生图领域的两个老大难问题：

其一解决了版权问题，以前大公司训练模型使用的图片很多来路不明以至于惹上官司，而 GPIC 所有图片的许可证都清清楚楚，商用完全没问题；

其二解决了可重复性问题，以前很多数据集给到是图片链接，时间久了链接就会失效，别人没法复现实验结果。GPIC 把图片打包成为固定的 tar 文件然后存在 Hugging Face 上，任何时候下载都是一样的。

这意味着未来无论是手机里的修图软件、游戏里的场景生成器甚至是电影特效工具，都能用上更聪明的 AI 生图模型。训练模型需要大量的图片，以前的做法是从网上到处扒图，然而很多图片都有版权，很多时候不敢随便用。

（来源：https://arxiv.org/abs/2605.30341）

对于使用图片的研究者来说，不同数据集的测试标准不一样，A 模型说自己得分很高，B 模型说自己是第一，根本无法公平比较。

李飞飞等人此次干脆自己从头搭建了一套系统，他们从 Flickr 和 Wikimedia 两个网站收集了超过 1.1 亿张图片，只挑选那些明确允许商用的。收集到的图片还不能直接使用，有的图片分辨率太低模糊不清，有的近乎空白，还有些图片的内容不合适。

为此，他们使用 Qwen3 VL 4B 模型做自动筛选，把质量差和不安全的图片踢出去，大约淘汰了百分之一。剩下的一亿张照片里，还有大量的重复内容。对于一些连拍照片、已被转发传播的照片以及修改版照片，都需要对其进行去重。

（来源：https://arxiv.org/abs/2605.30341）

他们使用一种名为 SSCD 的拷贝检测技术，给每一张图片都生成一个独一无二的特征码，对于那些相似度过高的照片只保留其中一张。经过这套流程之后，最终留下了干净的照片。

图片准备好了，接下来就是配上文字描述。对于同一种图片，可以有多种文字描述的方式。针对同一个画面，李飞飞等人设计了四种描述方式。

首先是标签式，就是为图片设置几个关键词，这种比较适合快速检索。
其次是短描述式，即使用一两句话来概括主要内容，方便大众用户理解。
再次是中描述式，就是用两三句话来交代细节和空间关系。
最后是长描述式，就是使用五到七句话把背景、物体位置和文字信息全部写清楚。

他们累计给一亿张照片设置了描述，短描述和中描述各占 45%，标签占 1%，长描述占 9%。面对这样一个工作量巨大的描述工作，肯定不能使用手工来写。他们使用 Qwen3 VL 4B 模型来批量生成，处理全部图使用了大约 500 张 H100 显卡，跑了一个多月。

（来源：https://arxiv.org/abs/2605.30341）

为了验证 AI 写的描述到底如何，他们随机抽取了 1,520 张图，用人工方式重写一遍描述，随后拿着 AI 版本和人工版本作对比。

对比维度主要有五个，分别是：整体概括准不准、数量数得对不对、空间关系厘没厘清、颜色材质等属性绑定是否正确、图片里的文字识别得准不准。

结果显示 Qwen3 VL 4B 模型在速度和准确率之间取得了最好的平衡，比更大的 Qwen3 VL 30B 模型并没有慢太多，但是质量却非常接近。

为了用好这个数据集，他们设计了一套测试规则，把一亿张图片分成三块，大部分用来训练模型，20 万张用来调试参数，100 万张作为测试基准。训练 AI 生图模型的时候，只能使用那 100 万张测试集里的 5 万条描述去生成图片，接着和 100 万张真实图片做对比，看哪个模型生成得最像。

用来比较的指标叫做 FD DINOv2，它使用 DINOv2 这个视觉模型来提取图片的特征，然后再计算生成图和真实图之间的统计距离。

（来源：https://arxiv.org/abs/2605.30341）

他们还训练了一个参考模型作为基准，使用的是 JiT 架构，这是一种直接在像素空间里做流匹配的模型，参数为 1.1 亿，在 GPIC 训练了一个周期，用了大约 40 个小时，8 张 H100 显卡。最好结果的 FD DINOv2 得分为 76.25，这个分数不算高，不过从论文来看他们并不打算冲高分，只是给后来者立个标杆。相关论文的第一作者是李飞飞团队的博士生 Keshigeyan Chandrasegaran。

对于 AI 生图来说，GPIC 好比为其提供了一本教科书，它不仅免费、开放、标准统一，还附带考试大纲，一定程度上可以为 AI 公司提供一个可以公平比较的标准。

参考资料：

相关论文 https://arxiv.org/abs/2605.30341

https://keshik6.github.io/

排版：胡巍巍

上一篇：伊朗称特朗普推迟袭击表态为心理战，并为他的军事计划争取时间

下一篇：每日科普｜AI一本正经胡说八道，不能只当笑话看

李飞飞又出手了！开源了1亿张授权图片数据集，重塑视觉生成基准

相关内容

热门资讯