李飞飞团队用不到50美元训练出新模型_科技资讯

创始人

2025-02-10 09:21:26

0次

近日，李飞飞及其团队在人工智能领域取得了一项引人注目的成就：他们以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。这一消息迅速在科技界和人工智能领域引起了广泛关注。

一、模型训练背景

李飞飞团队此次的训练成果，不仅在于其低廉的成本，更在于s1模型在数学和编码能力测试中的卓越表现。据悉，该模型的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型相当，这无疑是人工智能领域的一大突破。

二、训练方法与成本

训练方法：
李飞飞团队采用了蒸馏法，通过提炼谷歌推理模型Gemini 2.0 Flash Thinking Experimental的数据集，对Qwen模型进行监督微调。这种方法的核心在于，通过训练模型来学习另一个人工智能模型的答案，从而提取其“推理”能力。
团队还使用了一种称为监督微调（SFT）的方法，使用相对较小的数据集来蒸馏推理模型。在SFT中，人工智能模型会被明确指示在数据集中模仿某些行为。
训练成本：
云计算费用：不到50美元。这一数字令人咋舌，因为通常情况下，训练如此高性能的模型需要耗费巨额的云计算资源。
硬件投入：虽然云计算费用低廉，但硬件投入（如服务器、显卡等）并未计入此成本中。这些硬件已经由云厂商承担，使得团队能够专注于模型的训练和优化。

三、模型表现与对比

在数学和编程能力的评测集上，s1模型的表现与DeepSeek-R1和o1等尖端推理模型比肩。具体来说，s1在竞赛数学问题上的表现甚至高出o1-preview达27%。这一成绩充分证明了s1模型的卓越性能和推理能力。

四、模型基座与数据集

基座模型：s1模型并非从零开始训练，其基座模型为阿里通义千问（Qwen）模型。这一信息由阿里云方面确认，表明s1模型在训练过程中充分利用了现有的先进技术和资源。
数据集：为了训练s1模型，研究团队创建了一个包含1000个精心策划的问题的数据集（s1K）。这些问题涵盖了数学、编程等多个领域，每个问题都附有答案以及谷歌Gemini 2.0 Flash Thinking Experimental给出的每个答案背后的“思考”过程。这一数据集的构建为s1模型的训练提供了坚实的基础。

五、社会影响与意义

李飞飞团队此次的训练成果，不仅降低了人工智能模型的训练成本，还为人工智能领域的创新和发展提供了新的思路和方法。这一成果有望推动人工智能技术在更多领域的应用和普及，为社会的进步和发展做出更大的贡献。

综上所述，李飞飞团队用不到50美元的云计算费用训练出的s1模型，在数学和编码能力测试中表现出色，与尖端推理模型相当。这一成果得益于团队采用的蒸馏法和监督微调方法，以及精心构建的数据集和基座模型。这一突破性的成就将为人工智能领域的创新和发展注入新的活力。