前OpenAI研究员Kevin Lu 长文:别搞RL了,去做产品吧!
创始人
2025-07-11 08:21:48
0

强化学习也将陷入死胡同。

昨天夜里,前OpenAI研究员Kevin Lu 发了一篇长文,直指当下AI研究的核心问题:我们都在错误的方向上努力。

他的观点很是犀利:

真正推动AI大规模进步的不是Transformer,而是互联网。

这话听起来像是在开玩笑。

但Kevin Lu给出了一个让人深思的论证:没有互联网提供的海量数据,就算有了Transformer,我们也造不出GPT-4。

数据才是AI的命脉,这个道理大家都懂,但研究者们却选择性地忽略了它。

Transformer是个分心的玩具

Kevin Lu提到了一个有趣的现象:自从GPT-4发布以来,已经过去了两年多,但我们很难感受到基础模型有什么质的飞跃。

为什么?

因为我们进入了一个新的时代:从计算受限转向了数据受限

在计算受限的时代,更高效的架构确实能带来更好的性能。但现在,所有方法的性能都会趋同,因为瓶颈不在算法,而在数据。

Kevin Lu甚至大胆地说:就算没有Transformer,用CNN或者状态空间模型,我们也能达到GPT-4.5的水平。

但问题是,没有互联网,就算有Transformer,我们也造不出GPT-2。

互联网:AI的培养皿

Kevin Lu把互联网比作AI诞生的「原始汤」(primordial soup),这个比喻很是贴切。

互联网为next-token prediction提供了完美的数据源:

多样性

从小众语言到冷门粉丝文化,只要有人关心,就会在互联网上留下痕迹。这些内容最终都会被永远地刻进AGI的记忆里。

天然技能课程

从小学生的Khan Academy,到大学的MIT开放课程,再到前沿的arXiv论文,互联网自然地形成了一个从易到难的学习阶梯。

用户自发贡献

最关键的是,人们想要使用互联网。这不是研究员人工构建的数据集,而是活生生的人类智慧的记录。

Kevin Lu引用了Alec Radford在2020年的一次演讲:

每次我们构建数据集,就是把世界上其他所有东西的重要性设为0,把数据集里的东西重要性设为1。我们可怜的模型!它们知道得太少,却还有太多东西被我们隐藏了。

强化学习的困境

既然互联网是监督学习的完美搭档,那强化学习的「互联网」在哪里?

Kevin Lu认为这正是问题所在。目前的强化学习要么依赖于:

人类偏好(RLHF)

收集困难,噪声巨大,而且不同人的偏好可能完全相反。

可验证奖励(RLVR)

局限于数学、编程等狭窄领域,很难泛化到其他任务。

而研究者们在做什么?

还在调整Q函数的裁剪方式,研究新的时序高斯探索方法……

这些都不会带来真正的突破。

产品才是出路

Kevin Lu的核心观点是:

要创造强化学习的「互联网」,必须从产品入手。

他列举了几个可能的方向:

机器人技术

但面临奖励标注困难、形态差异、现实差距等挑战。

推荐系统

某种程度上是人类偏好的延伸,但更有针对性。

AI研究

让AI来训练AI,优化基准测试性能。

交易系统

有清晰的指标(赚钱),但你的RL智能体很可能会学会「不玩」。

计算机操作数据

类似Adept尝试的方向,教模型执行计算机操作。

但这些都还不够。Kevin Lu梦想的是一个像互联网一样丰富、多样、有经济价值的RL任务生态系统

这需要的不是RL理论经验,而是产品思维。

研究与产品的协同设计

Kevin Lu特别强调了研究与产品协同设计的重要性。

互联网之所以完美,是因为:

  • 它是去中心化的,任何人都可以贡献知识

  • 它有自然的激励机制(点赞、广告收入)

  • 它是经济可行的,便宜到人人都能用

  • 人们真的想用它

这些特性不是研究员设计出来的,而是产品自然演化的结果。

AGI不应该只是在数学题上表现优秀,而应该真正改变人类的生活。

如果这是我们的目标,那么从一开始就应该考虑AGI的产品形态。

写在最后

Kevin Lu的文章,也让我想到了一个问题:

当所有研究者都在优化算法时,谁来优化数据?

互联网用了20年时间,创造了一个让AI得以诞生的数据海洋。现在,我们需要为强化学习创造同样的东西。

这不是一个技术问题,而是一个生态问题。

如Kevin Lu所说,未来五年或将由一次大规模的强化学习训练决定。

如果我们还在摆弄RL算法的小零件,而不是思考如何创造新的数据源,那我们可能会重蹈2015-2020年RL研究的覆辙——

做了很多研究,但都不重要。

所以,也许是时候从实验室走出来,去真实世界创造些什么了。

毕竟,改变世界的从来不是算法,而是产品。

Kevin Lu 原文👇

唯一重要的技术是互联网

发布于2025年7月

尽管AI的进步常常被归功于里程碑式的论文——比如Transformer[1]RNN[2]扩散模型[3]——但这忽略了人工智能的根本瓶颈:数据。

但拥有好的数据意味着什么?

如果我们真正想要推进AI,与其研究深度学习优化,不如研究互联网。

互联网才是真正解锁AI模型规模化的技术。

Transformer是一种干扰

受到架构创新带来的快速进步的启发(5年内从AlexNet到Transformer),许多研究者寻求更好的架构先验。人们打赌[4]我们是否能设计出比Transformer更好的架构。事实上,自Transformer以来确实开发出了更好的架构——但为什么自GPT-4以来很难"感受到"改进?

转变的范式

计算受限。曾几何时,方法随着计算而扩展,我们看到更高效的方法更好。重要的是尽可能高效地将数据装入模型,这些方法不仅取得了更好的结果,而且似乎随着规模而改进

数据受限。实际上,研究并非无用。社区已经开发出了比Transformer更好的方法——比如SSMs (Albert Gu等,2021)[5]Mamba (Albert Gu等,2023)[6](以及更多)——但我们并不认为它们是免费的胜利:对于给定的训练计算量,我们应该训练一个表现更好的Transformer。

但数据受限的范式是自由的:反正我们所有的方法都会表现相同!所以我们应该选择最适合推理的方法[7],这很可能是某种次二次注意力变体,我们可能会很快看到这些方法重新受到关注(推理时间消耗[8])。

研究者应该做什么?

现在想象一下,我们不"仅仅"关心推理(这是"产品"),而是关心渐近性能("AGI")。

  • 显然,优化架构是错误的。

  • 确定如何裁剪Q函数轨迹绝对是错误的。

  • 手工制作新数据集不具有可扩展性。

  • 你的新时序高斯探索方法可能也不具有可扩展性。

社区的大部分已经达成共识,我们应该研究消费数据的新方法,其中有两个主要范式:(1) next-token预测和 (2) 强化学习。(显然,我们在新范式上没有取得很大进展 :)

所有AI做的就是消费数据

里程碑式的工作提供了消费数据的新途径:

  1. AlexNet (Alex Krizhevsky等,2012)[9]使用next-token预测来消费ImageNet[10]

  2. GPT-2 (Alec Radford等,2019)[11]使用next-token预测来消费互联网的文本

  3. "原生多模态"模型(GPT-4o[12]Gemini 1.5[13])使用next-token预测来消费互联网的图像和音频

  4. ChatGPT[14]使用强化学习来消费聊天设置中的随机人类偏好奖励

  5. Deepseek R1[15]使用强化学习来消费狭窄领域中的确定性可验证奖励

就next-token预测而言,互联网是伟大的解决方案:它为基于序列的方法(next-token预测)提供了丰富的序列相关数据源来学习。

互联网充满了结构化HTML形式的序列,适合next-token预测。根据排序,你可以恢复各种不同的有用能力。

这不仅仅是巧合:这种序列数据对于next-token预测来说是完美的;互联网和next-token预测相辅相成。

行星级数据

Alec Radford在2020年发表了一次有先见之明的演讲[16],谈到尽管当时提出了所有新方法,但与策划更多数据相比,似乎都不重要。特别是,我们不再希望通过更好的方法获得"魔法"泛化(我们的损失函数应该实现解析树),而是一个简单的原则:如果模型没有被告知某事,它当然不知道。

与其通过创建大型监督数据集来手动指定预测什么……

弄清楚如何从"那里"的一切中学习和预测。

你可以认为每次我们构建数据集时,就是将世界上其他所有东西的重要性设置为0,将数据集中所有内容的重要性设置为1。

我们可怜的模型!它们知道得太少,却还有太多东西被隐藏起来。

在GPT-2之后,世界开始注意到[17]OpenAI,时间证明了它的影响。

如果我们有Transformer但没有互联网会怎样?

低数据。显而易见的反事实是,在低数据环境中,Transformer将毫无价值:我们认为它们比卷积或循环网络具有更差的"架构先验"。因此,Transformer应该比它们的卷积对应物表现更差。

书籍。一个不那么极端的情况是,没有互联网,我们可能会在书籍或教科书上进行预训练。在所有人类数据中,通常我们可能认为教科书代表了人类智能的巅峰,其作者经历了巨大的教育并将大量思想倾注到每个词中。本质上,它代表了"高质量数据"应该优于"高数量"数据的观点。

教科书。phi模型("教科书就是你所需要的一切";Suriya Gunasekar等,2023)在这里展示了出色的小模型性能,但仍然需要GPT-4(在互联网上预训练)来执行过滤和生成合成数据。像学者一样,与类似大小的对应物相比,phi模型的世界知识也很差,如SimpleQA (Jason Wei等,2024)[18]所衡量的。

确实phi模型相当不错,但我们还没有看到这些模型能够达到基于互联网的对应物的相同渐近性能,而且显然教科书缺乏大量真实世界和多语言知识(尽管它们在计算受限的环境中看起来非常强大)。

数据分类

我认为这与我们上面对RL数据的早期分类也有有趣的联系。教科书就像可验证的奖励:它们的陈述(几乎)总是正确的。相比之下,书籍——特别是创意写作——可能包含更多关于人类偏好的数据,并为其结果学生模型注入更大的多样性。

就像我们可能不相信o3[19]Sonnet 3.7[20]为我们写作一样,我们可能认为只在高质量数据上训练的模型缺乏某种创造性。直接联系到上面,phi模型并没有真正的产品市场契合度:当你需要知识时,你更喜欢大模型;当你想要一个本地[21]角色扮演写作模型时,人们通常不会转向phi。

互联网之美

实际上,书籍和教科书只是互联网上可用数据的压缩形式,即使有强大的智能在背后执行压缩。再上一层,互联网是我们模型的一个令人难以置信的多样化监督源,也是人类的代表。

来自DataReportal[22]

乍一看,许多研究者可能会觉得奇怪(或分心),为了在研究上取得进展,我们应该转向产品。但实际上我认为这很自然:假设我们关心AGI为人类做一些有益的事情,而不仅仅是在真空中表现智能(如AlphaZero[23]所做的),那么考虑AGI采用的形式因素(产品)是有意义的——我认为研究(预训练)和产品(互联网)之间的协同设计是美丽的。

来自Thinking Machines Lab[24]

去中心化和多样性

互联网是去中心化的,任何人都可以民主地添加知识:没有中央真理来源。互联网中代表着大量丰富的观点、文化模因和低资源语言;如果我们用大型语言模型对它们进行预训练,我们会得到一个理解大量知识的结果智能。

因此,这意味着产品的管理者(即互联网的管理者)在AGI的设计中扮演着重要角色!如果我们削弱了互联网的多样性,我们的模型在RL中使用的熵将显著降低。如果我们消除数据,我们将从AGI的代表中删除整个亚文化。

对齐。有一个超级有趣的结果,为了拥有对齐的模型,你必须在对齐未对齐的数据上进行预训练("当坏数据导致好模型";Kenneth Li等,2025)因为预训练然后学习两者之间的线性可分方向。如果你删除所有未对齐的数据,这会导致模型对什么是未对齐数据以及为什么它是坏的没有强烈的理解(另见Xiangyu Qi等,2024[25]Mohit Raghavendra等,2024[26])。

解毒结果。更高的数字("Toxigen")表示更大的毒性。在10%有毒数据上预训练的模型(10%有毒数据+引导(我们的))比在0%有毒数据上预训练的毒性更小(清洁数据+引导)。

特别是,上面的"有毒"数据来自4chan,一个以不受限制的讨论和有毒内容而闻名的匿名在线论坛。尽管这是一个特定的案例,其中产品和研究之间存在深刻的联系(我们需要不受限制的讨论来拥有对齐的研究模型),但我认为你可以想到更多这样的互联网设计决策影响训练后结果的案例。

对于非对齐示例,请参阅用更好的标题改进图像生成(James Betker等,2023)[27],这是DALL-E 3背后的技术;重新标题以更好地解开"好"和"坏"图像现在几乎用于所有生成模型。这与人类偏好奖励中的赞成/反对有相似之处。

互联网作为技能课程

互联网的另一个重要特性是它包含了各种难度程度的广泛知识:从小学生的教育知识(Khan Academy[28])到大学级课程(MIT OpenCourseWare[29]),再到前沿科学(arXiv[30])。如果你只在前沿科学上训练模型,你可以想象有很多隐含的未写出的知识,模型可能无法仅从阅读论文中学到。

但这是很多工作,对吧?我们开始手动收集像CIFAR[33]这样的数据集,然后ImageNet[34],然后更大的ImageNet……——或者小学数学[35],然后AIME[36],然后FrontierMath[37]……——但是,通过在行星规模上服务整个世界,互联网自然地包含了具有平滑难度课程的任务。

RL中的课程。当我们转向强化学习时,课程扮演着更重要的角色:由于奖励是稀疏的,模型必须理解解决任务一次并获得非零奖励所需的子技能。一旦模型发现了一次非零奖励,它就可以分析什么是成功的,然后尝试再次复制它,RL从稀疏奖励中学习得令人印象深刻。

但没有免费的午餐:模型仍然需要平滑的课程才能学习。预训练更宽容,因为它的目标是密集的;但为了弥补这一点,RL必须使用密集的课程

来自Yunzhi Zhang等,2020[38]。RL智能体首先学习实现靠近迷宫起点的附近目标,然后学习实现更远的目标。

自我对弈(如在AlphaZero[39]AlphaStar[40]中使用的)也创建了一个课程(在国际象棋或星际争霸的狭窄领域)。就像RL智能体或视频游戏玩家想要获胜(因此发现新策略)一样,在线用户想要贡献新想法(有时会收到点赞或广告收入),从而扩展知识前沿并创建自然的学习课程。

苦涩的教训[41]

因此,重要的是要记住人们实际上想要使用互联网,所有这些有用的属性都是与互联网作为产品互动的结果。如果我们必须手动策划数据集,那么策划的内容与人们认为有用的能力之间就存在二分法。研究者不应该选择有用的技能:互联网用户会告诉你。

我认为人们在讨论规模化时经常错过这一点,但互联网是扩展学习和搜索——数据和计算——的简单想法,如果你能找到这些简单的想法并扩展它们,你会得到很好的结果。

AGI是人类的记录

所以我认为除了数学理论之外,还有充分的空间讨论应该如何构建AGI:互联网(以及扩展的AGI)可以从许多角度考虑,从哲学到社会科学。众所周知,LLM会持续它们所训练数据的偏见[43]。如果我们在1900年代的数据上训练模型,我们将拥有1900年代语言结构的快照,可以永远保存。我们可以实时观察人类知识和文化的演变。

在维基百科文章和Github仓库中,我们可以看到人类智能的协作本质。我们可以模拟合作和人类对更完美结果的渴望。在在线论坛中,我们可以看到辩论和多样性,人类贡献新颖的想法(并经常受到某种选择压力来提供一些新思想)。从社交媒体中,AI学习人类认为什么重要到足以与他们的亲人分享。它看到人类的错误,修复它们的过程,以及对真理的不懈追求。

正如Claude所写的,

AI不是从我们最好的一面学习,而是从我们完整的一面学习——包括争论、困惑和集体意义建构的混乱过程。

要点。准确地说,互联网对模型训练非常有用,因为:

  1. 它是多样化的,因此它包含了对模型有用的大量知识。

  2. 它形成了模型学习新技能的自然课程

  3. 人们想要使用它,因此他们不断贡献更多数据(产品市场契合)。

  4. 它是经济的:该技术足够便宜,大量人类可以使用它。

互联网是next-token预测的对偶

强化学习是未来(并且是实现超人智能的"必要条件"),这在某种程度上是显而易见的。但是,如上所述,我们缺乏RL消费的通用数据源。获得高质量的奖励信号是一场深刻的斗争:我们必须要么争夺原始的聊天数据,要么在微薄的可验证任务中寻找。我们看到来自其他人的聊天偏好不一定对应于喜欢的,而在可验证数据上训练的模型不一定在我关心的不可验证任务上变得更好。

互联网是监督next-token预测的完美补充:人们可能会强烈地说,给定互联网作为基础,研究者必须收敛到next-token预测。我们可以将互联网视为导致人工智能出现的**"原始汤"**。

所以我可能会说互联网是next-token预测的对偶

ML术语(研究)

产品术语(对偶)

next-token预测

互联网

序列数据

HTML文件

训练-测试差异

产品市场契合

推理成本

经济可行性

鲁棒表示

冗余(相同信息以多种方式表达)

主动学习

用户参与

多任务学习

行星级多样性

进化适应度

点赞

涌现

病毒式传播

如上所述,尽管我们付出了所有研究努力,我们仍然只有两个主要的学习范式。因此,提出新的"产品"想法可能比新的主要范式更容易。这引出了问题:强化学习的对偶是什么?

用RL优化困惑度

首先,我注意到有一些工作将RL应用于next-token预测目标,使用困惑度[44]作为奖励信号(Yunhao Tang等,2025)[45]。这个方向旨在作为RL的好处和互联网多样性之间的桥梁。

然而,我认为这在某种程度上是误导的,因为RL范式的美妙之处在于它允许我们消费新的数据源(奖励),而不是作为建模旧数据的新目标。例如,GAN(Ian Goodfellow等,2014)[46]曾经是从固定数据中获得更多的花哨(和强大)目标,但最终被扩散[47]超越,然后最终又回到next-token预测。

相反,最令人兴奋的是找到(或创建)新的数据源供RL消费!

强化学习的对偶是什么?

有几种不同的想法,每种都有某种缺点。它们都不是"纯粹"的研究想法,而是涉及围绕RL构建产品。在这里,我推测一下这些可能是什么样子。

回想一下,我们期望的属性是:多样化、自然课程、产品市场契合和经济可行。

传统奖励。

  • 人类偏好(RLHF)。如上所述,这些很难收集,在人与人之间可能有所不同,并且噪声极大。正如YouTube或TikTok所见,这些倾向于优化"参与度"而不是智能;是否可以建立明确的联系,即增加参与度导致增加智能,还有待观察。

    • ……但在接下来的几年里,YouTube肯定会有很多RL(Andrej Karpathy[48])。

  • 可验证奖励(RLVR)。这些仅限于一组狭窄的领域,并且并不总是泛化到这些领域之外;参见o3和Claude Sonnet 3.7。

应用。

  • 机器人技术。许多人梦想在未来十年建立大规模机器人数据收集管道和飞轮,作为将智能带入现实世界的一种方式,它们令人难以置信地激动人心。正如机器人初创公司的高失败率所证明的,这显然具有挑战性。对于RL,除了许多其他原因之外,很难标记奖励,你必须处理不同的机器人形态,存在一些模拟到现实的差距,非平稳环境等。正如我们在自动驾驶汽车中看到的,它们也不一定是经济的。

  • 推荐系统。某种程度上是人类偏好的延伸,但更有针对性一些,我们可以使用RL向用户推荐一些产品,看看他们是否使用或购买它。这在作为一个领域而言会产生一些狭窄的惩罚,或者更一般(例如,"生活建议"),然后面临更嘈杂的奖励。

  • AI研究。我们可以使用RL来执行"AI研究"(AI科学家;Chris Lu等,2024)[49],并训练模型来训练其他模型以最大化基准性能。可以说这不是一个狭窄的领域,但在实践中它是。此外,正如Thinking Machines[50]所写:"最重要的突破往往来自重新思考我们的目标,而不仅仅是优化现有的指标。"

喜欢这个项目:nanoGPT -> 递归自我改进基准。好老的nanoGPT不断给予和惊喜 :)

  • 首先我把它写成一个小仓库来教人们训练GPT的基础知识。

  • 然后它成为我移植到直接C/CUDA的目标和基线……https://t.co/XSJz9mL9HC[51]— Andrej Karpathy (@karpathy) 2025年6月30日[52]

  • 交易。现在我们有一个有趣的指标,它大部分是不可破解的(模型可能学习市场操纵),但你可能会在过程中损失很多钱(你的RL智能体可能会学会不玩)。

  • 计算机操作数据。就RL教模型一个过程而言,我们可以教模型在计算机上执行操作(与机器人技术不太相同),就像Adept[53]试图做的那样。特别是当与人类数据结合时(正如许多交易公司对其员工所拥有的),人们可以使用next-token预测和RL的某种组合来实现这一目标。但同样,这也不那么容易,人们通常不会同意他们的数据被记录(不像互联网,它要求你通过参与来参与内容,大多数人不会同意键盘记录器)。

    • 编码与此相关。对过去测试用例的RL是可验证的,但生成测试用例(以及大规模系统设计、建模技术债务……)不是。

最后的评论:想象我们为了一点而牺牲多样性。你可以在家中为你的产品指标使用RL,无论是视频游戏的RL[54]Claude试图运营自动售货机[55],还是其他一些利润或用户参与的概念。这可能有效的原因有很多——但挑战在于如何将其转换为一个多样化的奖励信号,该信号可以扩展成突破性的范式转变。

无论如何,我认为我们离发现强化学习的正确对偶还很远,在一个像互联网一样优雅和富有成效的系统中。

今天我们的RL智能体被隐藏了什么?

但我希望你能带走这个梦想,有一天我们会弄清楚如何创造这个,这将是一件大事:

强化学习的对偶。

[1]

deep_learning_architecture "Transformer": https://en.wikipedia.org/wiki/Transformer_

[2]

RNN: https://en.wikipedia.org/wiki/Recurrent_neural_network

[3]

扩散模型: https://en.wikipedia.org/wiki/Diffusion_model

[4]

打赌: https://www.isattentionallyouneed.com/

[5]

SSMs (Albert Gu等,2021): https://arxiv.org/abs/2111.00396

[6]

Mamba (Albert Gu等,2023): https://arxiv.org/abs/2312.00752

[7]

[8]

相关内容

热门资讯

“狠人”闫俊杰,闯关IPO 来源:中国企业家杂志 “MiniMax在探索一条之前没有被验证过的路。” 文|《中国企业家》...
欧洲央行管委Panetta:如... 欧洲央行管委Panetta:如果疲软的经济增长给物价带来压力,欧洲央行应该进一步降息。官员们将保持“...
智界直播间卖风云A9L,奇瑞为... 7月8日,奇瑞风云A9L上市发布会以一场闹剧收场。本应聚焦新车的直播,因奇瑞使用华为联合品牌“智界”...
智创未来|我校与网易互娱SON... 7月9日上午,网易互娱音频总监吴盛强一行赴我校调研交流,我校党委副书记、院长陶陌出席座谈会。 陶陌...
金都洁具取得一种增压式水龙头专... 金融界2025年7月11日消息,国家知识产权局信息显示,瑞安市金都洁具有限公司取得一项名为“一种增压...
宠智灵打造宠物智能项圈AI解决... 在智能硬件加速发展的推动下.宠物智能项圈作为连接宠物与数字世界的关键载体正从简单的定位设备演变为集健...
爱奇艺717会员节为何成暑期热... 7月,没有小长假,只有高温和KPI?不存在的!很多精神超前的年轻人,已经开始了“精神过节”!“只要心...
2025阿里云全国总代理助您轻... 本文探讨了“2025阿里云全国总代理助您轻松叠加折扣”政策在企业上云中的重要性。随着公有云市场的竞争...
山东福富申请深度制冷型合成氨工... 金融界2025年7月11日消息,国家知识产权局信息显示,山东福富新材料科技有限公司申请一项名为“一种...
从“盲铺”到“智铺”,,尼尔森... 消费者研究与零售监测公司尼尔森IQ昨天与阿里巴巴集团旗下高德地图的行业智能品牌——高德云图签署产品战...