新智元报道
编辑:桃子
【新智元导读】AI界「双神会」来了!一场NeurIPS 2025炉边谈话,AI教父Hinton和Jeff Dean同台,亲口爆料了AI革命「那些年」,还有更多鲜为人知的轶事。
NeurIPS 2025那场轰动一时的访谈,如今终于放出来了!
AI教父Hinton和DeepMind首席科学家Jeff Dean,两位AI圈关键人物,曾经合作多年的老友聚在一起。
现场,Hinton直接抛出了一个尖锐的问题——
谷歌是否后悔发表Transformer论文?
Jeff Dean给出了干脆的回应,「不后悔!因为它对世界产生了巨大的影响」。
不仅如此,Hinton还公开透露,自己关于Scaling的顿悟,源于Ilya的一场演讲。
在近1小时的对话中,两位大佬回顾了从ML早期突破,到当今塑造该领域的挑战、机遇等等。
他们还分享了,一些非常精彩的轶事——
从卧室运行AlexNet的两块GPU,到谷歌大脑(Google Brain)的早期岁月。
AI教父Scaling顿悟,来自Ilya
对话的开场,先从一个有趣的共同点开始:
两位Geoff和Jeff都对「反向传播」(backpropagation)着迷。
这一概念的论文虽在1986年于Nature正式发表,但其实早在1982年就已提出。
Jeff Dean回忆起自己的本科毕业论文——
1990年,他先修了并行算法课程,仅用一周时间接触神经网络,就被深深吸引。
于是,他向明尼苏达大学Vipin Kumar教授申请做荣誉论文,主题是「用于训练神经网络的并行算法」。
那时,Jeff Dean使用了一台32个处理器的超立方体计算机,原以为算力翻32倍,就能做出惊人的神经网络。
论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1
但现实,给了他一记教训。
在扩展处理器(算力)的同时,没有同步扩大模型规模。
他仅是把10个神经元的层,硬拆到32个处理器上,结果性能惨不忍睹。
Jeff Dean还发明了早期的两个概念:「数据并行」和「模型并行」(当时称之为「模式划分」)。
另一边,Hinton则分享了自己对算力觉醒的「迟到」。他表示,「自己本该在80年代末,就意识到算力的重要」。
当时,有两个世界级团队:一个是伯克利ICSI团队,另一个是剑桥团队。
他们用并行计算,构建出更好的语音声学模型,刷新业界SOTA,超越常规方式训出的神经网络的性能。
但由于模型规模扩大,编程和硬件复杂也会急剧上升,他们没有坚持下去。
直到2014年,听完Ilya Sutskever的报告,Hinton才彻底醒悟——
Scaling至关重要,并且这种趋势会一直持续下去。
AlexNet出世
接下来,对话的焦点转向了2012年AlexNet,那个AI大爆炸的时刻。
AlexNet便是一个8层的神经网络
当时,他申请这一项目的资助续期,却被评审驳回——
这个项目不值得资助,因为它不可能产生任何工业影响。
现场,Hinton笑称,我真想告诉他,这项技术去年贡献了美国股市80%的增长。
但Alex尝试失败,Hinton发现权重衰减参数设错,纠正了这一问题。
当时,Ilya表示,「为什么不直接上ImageNet?这么大数据集肯定可以,我们得在Yann LeCun之前做」。
与此同时,LeCun也一直试图让实验室博士后和学生把卷积神经网络用到ImageNet上,但大家认为还有更重要的事要做。
于是,Ilya负责数据预处理,将图像统一成固定尺寸,结果效果非常出色。
Hinton调侃道,「接下来,我做了我这辈子最成功的一次管理决策」。
只要每周在ImageNet上提升1%的性能,允许Alex拖延写论文综述。
结果,一周一周不断成功迭代。
至于训练硬件,就是众所周知的「两块英伟达GTX 580 GPU」。
当时,Alex在自家的卧室里,用这两块GPU完成了AlexNet的训练。Hinton幽默地表示,「当然,GPU我们买单,电费Alex父母付,纯属为多伦多大学省钱」。
茶水间一次闲聊
催生「谷歌大脑」
差不多同一时间,在谷歌一个全新团队——谷歌大脑(Google Brain)正在酝酿而生。
Jeff Dean回忆,Google Brain雏形源于一次茶水间偶遇的闲聊。
那天,Andrew Ng时任斯坦福教授(每周来谷歌一天),他们恰巧撞见。
Andrew提到,「自己的学生用神经网络,已经做出了不错的成果」。
这句话立即点醒了Jeff Dean,他想到——我们有的是海量CPU,为什么不训练超大神经网络?
于是,他们训练了一个系统,支持模型并行+数据并行,扩展到上千台机器上。
他们没有用卷积,而采用了「局部连接」的方式来做视觉,导致参数达20亿。
为了完成这次训练,他们用了16000个CPU核心。
Jeff表示,「我们已观察到,模型越大,效果越好。只不过,当时还没把它正式总结成Scaling Laws」。
我们甚至有句口头禅,某种意义上也挺像Scaling Laws:更大的模型、更多的数据、更多的算力。
也就是说,在AlexNet出世一年前,Google Brain早已验证了Scaling Laws。
64岁实习生,加入谷歌
2012年夏天,Andrew Ng转向了教育平台Coursera,因为他认为那才是未来。
于是,他便推荐了Hinton接棒。
有趣的是,Hinton本想做访问科学家,但必须满职6个月才可以开薪。
于是,64岁的Hinton,成为了谷歌的「实习生」。而且,还是Jeff Dean的实习生。
加入谷歌之后,Hinton还得和实习生们一起上培训课。
一个大房间里坐满了学生,有来自IIT的,也有来自清华的,总之是一大堆特别聪明的人。
培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场就懵了,什么是LDAP?什么是OTP?
大概过了十分钟,他们决定:其中一个助教专门负责我。
其他学生都在四处张望,看着这个明显什么都不懂、而且年纪是他们三倍的人。说实话,有点尴尬。
更尬的是,午饭时间,Hinton还碰巧遇到了,此前教的一位本科学生。
直到入职的第二天,Jeff Dean和Hinton在Palo Alto越南餐厅初见。
赌场拍卖,谷歌必赢
AlexNet爆火后,多家公司都在争抢Hinton的团队。
但后来,他们发现,如果把自己包装成一家「公司」,其实可以拿到更多的钱。
「所以我们决定:我们要当『收购标的』」。
当时,Hinton成立了DNN Research,举办了一场拍卖会,谷歌、微软、百度等多家公司参与争夺。
有趣的是,地点定在了南太浩湖(South Lake Tahoe)的赌场。
楼下老虎机声音不断,楼上每次加价必须至少加100万。
Hinton透露,「但我其实心里早就决定了:谷歌必须赢」。
最核心的原因,便是那年夏天「实习生」的经历。
所以我们在拍卖快结束的时候,当那两拨人离开、看起来可能会让「不该赢的人」赢的时候,我们就直接把拍卖停了。
Google Brain早期合影
并入谷歌之后,Hinton参与了众多项目,现场他还分享了失败的案例——Capsules(胶囊网络)项目。
他投入「巨大的决心」,在这一项目上执着多年,尽管Jeff和Ilya劝阻,最终一无所获。
此外,Hinton在职期间也为谷歌做了一些有价值的工作,比如「模型蒸馏」(distillation)。
大概在2014年,这篇论文提交到NeurIPS后,却被组委会拒稿。
审稿人完全不理解其想法,如今事实证明,它已成为LLM核心技术之一。
另外,Hinton和Abdelrahman Mohamed做了一个优秀的「语音声学模型」,决定将其推销给黑莓(BlackBerry),也遭对方拒绝——
因为我们有键盘
后来,Navdeep Jaitly在谷歌用GPU证明了其价值,大获成功。
从Transformer到Gemini
若要说Google Brain产出对世界影响最深远的一篇研究,当属Transformer!
Jeff Dean回忆道,Transformer灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。
它使用深层LSTM,在机器翻译上大获成功。但LSTM存在瓶颈,即顺序依赖和状态压缩。
如果你把所有状态都保存下来,然后对它们施加注意力(attention),那可能会是一个更好的方案。
事实上,在谷歌之外,已经有一些关于注意力机制的早期工作了。
注意力机制,早期由Bahdanau等人引入,保留了整个上下文。
后来,这一思想被整合到seq2seq中,最终演变成了Transformer:也就是保存所有状态,然后对其进行注意力计算。
Jeff Dean表示,这被证明非常优雅——
因为可以并行地计算所有状态,而不再受到严格的顺序依赖。
同时,还能回看所有经历过的状态,从而更好地理解你在解码什么;对于编码器模型来说,也意味着可以利用到更丰富的状态信息。
Hinton坦言,Transformer刚出来后,自己没太重视——因为大脑不会存储每一步向量,我更关心生物启发。
但论文一出就展现了,用少10到100倍的算力即可达到同等,甚至更好的效果。
这显然是一件大事。
然而内部视角,Transformer只是众多突破之一,并未被视为「鹤立鸡群」。
他表示,我甚至也不太确定它是不是「更重要」——它确实非常有用。
在ChatGPT之前,谷歌早已有了强大聊天机器人,但从搜索视角看,幻觉和事实性问题让它难以对外发布。
Jeff解释道,「搜索核心是准确」。
直到2023年,ChatGPT出世让谷歌瞬间傻眼。内部拉响了「红色警报」,Jeff 写了一页备忘录:
我们现在有点「自己犯傻」了。
因为我们早就知道,算力规模和训练好模型之间是强相关的:你能用的算力和数据越多,模型就越好。
而且,谷歌内部多个团队Google Brain、DeepMind、谷歌研究员都在这一领域做出了探索性尝试。
但问题是,我们把研究想法和人力切得太碎了,也把算力切得太碎了。
于是,一次内部大重组迅速完成,Google Brain+DeepMind=Google DeepMind。
这直接催生了Gemini:合并团队、共享算力,打造出世界最强的多模态模型。
这时,Hinton打断问道,「谷歌是否后悔发表Transformer论文」?
Jeff坚定有力回答,「不会,因为它对世界产生了很好的影响」。
紧接着主持人又一回击,「从那之后谷歌就没怎么发表论文了?还是说这不是真的」?
Jeff澄清道,「我们仍发表论文,今年NeurIPS就有上百篇」。
对于那些主要在商业上最关键、尤其是面向「最大规模模型」的论文,我们会更谨慎一些。
公开发表是竞争优势,能吸引人才、获得社区反馈。 谷歌全栈护城河,坚不可破
最近几周,谷歌Gemini连发,让世界重新认识到谷歌的强大。尤其是,背后硬件优势——TPU。
Jeff Dean现场强调了硬件-模型「协同设计」(co-design)的优势——
谷歌研究人员与硬件团队紧密合作,提前去布局潜力方向,预测未来2-6年后的趋势。
甚至,他们用强化学习去优化芯片布局布线,并在多带TPU上应用。
这不仅提升了芯片质量,也加速了研发的流程。
下一个20年
在炉边对话压轴部分,主持人问了一个所有人最关心的问题——
AI领域接下来会往哪走?Transformer会被取代吗?20年后,世界会变成什么样?
Jeff Dean最兴奋的方向之一,Scaling注意力机制的触达范围,从百万Token到数万亿。
让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。
他承认,这当然需要硬件的创新,还需更节能、性价比更高的推理芯片。
Jeff Dean还指出,目前模型缺乏「持续学习」,即训练后固定不变。
MoE模型往往是一堆大小都一样的专家:分出去,再合回来,再分出去。这个结构说实话也不算太有意思。
未来,他们还将探索更动态、脑启发的架构。
对于20年后的预测,Hinton总结道——
如果有人真的造出来了,要么我们从此幸福快乐地生活下去,要么我们全部灭亡。
20年后到底会有什么影响,没人说得准,特别是对社会的影响。
很明显,很多工作会消失。但不清楚它会不会创造出足够的新工作来替代。
Jeff Dean则乐观于科学加速,「AI连接不同领域、自动化发现闭环,将让突破更快发生」。
他们两人一直认为,医疗与教育变革最剧烈。
Hinton最后补充道,「大模型压缩巨量知识,发现人类未见的共通性,它们会非常有创造力——抓到希腊文学与量子力学的远距离类比」。
参考资料:
https://www.youtube.com/watch?v=ue9MWfvMylE
秒追ASI