9月26日,英伟达创始人兼CEO黄仁勋戴着显眼的红框眼镜,与Altimeter Capital创始人、双周开源对话栏目BG2主播布拉德·格斯特纳(Brad Gerstner),Altimeter Capital合伙人克拉克·唐(Clark Tang)在英伟达公司展开了深入对话。
全球算力竞赛的终极悬念,被英伟达创始人黄仁勋和OpenAI的一场千亿美元合作计划提前揭晓了。
“星际之门”(Stargate)计划,OpenAI打算投上千亿美元,建十座超级计算中心,而英伟达就是他们的首选合作伙伴。
黄仁勋则认为:“OpenAI很可能成为下一个数万亿美元级别的超大规模公司。”
英伟达直接下场,从芯片、软件、系统到整个AI工厂的层面,帮OpenAI亲手搭建自己的算力基础设施。黄仁勋在访谈中解释了这次合作的背景:“到目前为止,他们一直在外包给微软来构建数据中心。现在他们想自己构建全栈工厂……他们基本上希望与我们建立像马斯克和X(xAI)一样的关系……他们已经发展到足够大的规模,他们认为现在是时候开始建立这些直接关系了。”
英伟达与OpenAI和xAI这种巨头的大规模合作,正式宣告了算力竞争已经进入了一个全新的维度。这不再是实验室里比拼几块芯片的性能,而是一场关乎系统、生态、供应链、资本乃至能源的全面战争。
竞争的逻辑变了:芯片价格不是唯一
过去几十年,计算世界的主角是英特尔和它背后的摩尔定律。大家比的是谁家的CPU能用更先进的工艺,在同样大小的硅片上塞进更多的晶体管。
这是一个“通用计算”的时代,大家默认性能会越来越强,价格会越来越便宜。
现在,竞争的逻辑变了。
物理规律给摩尔定律踩了刹车,全球价值数万亿美元的计算基础设施,正从CPU为核心的通用计算,转向以图形处理器GPU为核心的加速计算和智能计算。黄仁勋对此给出了一个清晰的判断:
“首先,对于建造者来说,我们应该为了机会而建造。我们是建造者。让我给你三个要点来思考……第一点,这是物理定律的角度。这是最重要的一点,通用计算已经结束,未来是加速计算和人工智能计算。因此,思考这个问题的方式是,世界上有多少万亿美元的计算基础设施?那必须进行刷新。”
黄仁勋给未来的算力下了一个定义,他说这东西会像电力和水力一样,成为全球性的基础性设施。
不是性能有多顶尖,而是得足够便宜和普及,便宜到“白菜价”,让每个人都能用得起。
所以,今天全球所有科技巨头,都在干一件事:想尽一切办法,把智能算力的成本打下来。当算力能像电一样,即开即用,价格低廉,一个全新的智能应用时代才会真正到来。
这场竞赛的终点,不是谁的芯片跑分最高,而是谁能把数据中心的总拥有成本(TCO)降到最低。
英伟达的护城河:CUDA生态与系统工程的胜利
谈到降低成本,很多人第一反应就是打价格战,把芯片卖便宜点。
但黄仁勋本人却说:“我们的竞争对手正在构建ASIC。他们实际上可以——他们所有的芯片今天已经更便宜了,但他们完全可以将它们定价为零。我们的目标是,即使他们将它们的价格定为零,你仍然会购买英伟达的系统。”
这话听起来狂妄,却点破了现代AI竞争的本质。AI数据中心是一个极其复杂的系统工程,芯片只是其中的一个零件。真正的壁垒,在于把所有零件完美组合起来并发挥最大效能的系统能力。黄仁勋解释道,即便竞争对手的芯片免费,客户也更愿意选择英伟达,因为机会成本是巨大的:
“你的性能,或者说每瓦的token数比别人的每瓦token数高两倍……那么我的客户就可以从他们的数据中心产生两倍的收入。谁不想要两倍的收入呢?……让我们假设别人的ASIC就是Hopper。Blackwell是它的30倍。所以你不得不在那一吉瓦中放弃30倍的收入。放弃太多了。即使他们免费给你……你的机会成本高得离谱,你总是会选择每瓦性能最佳的方案。”
这就不得不提英伟达花了近二十年熬出来的“核武器”——CUDA生态。
黄仁勋多次提到,CUDA是AI时代的操作系统。它让全世界的开发者不用去啃硬件底层的硬骨头,就能轻松调用GPU强大的并行计算能力。当被问及Transformer架构的快速演进时,他强调:“如果不是因为CUDA易于操作和迭代,他们如何尝试大量实验来决定使用哪个Transformer版本,使用哪种注意力算法?……CUDA帮助你完成所有这些,因为它具有很强的可编程性。”
开发者在CUDA上开发了海量的应用和模型,这些都成了生态的宝贵资产。英伟达跟社区紧密合作,不断迭代软硬件,性能越来越好。用的人多了,CUDA就成了事实上的行业标准。
当一家公司在CUDA上投入了大量的时间和金钱后,想换个平台?对不起,迁移成本高到你无法想象。
这就是“软件定义硬件”的威力。
而且,英伟达的GPU从Hopper架构进化到Blackwell架构,只用了一年时间,推理性能就提升了30倍。这绝不是单靠芯片工艺能实现的奇迹。黄仁勋将此归功于“极端协同设计”(Extreme Co-design):
“从Hopper和Blackwell之间,由于NVLink72,我们在一年内提高了30倍……我们之所以这样做,是因为晶体管并没有真正帮我们太多……我们必须在系统层面分解整个问题,并同时改变每个芯片、所有软件堆栈和所有系统。终极的极端协同设计……我们改变了CPU,彻底革新了CPU,还有GPU、网络芯片、NVLink向上扩展、Spectrum X横向扩展。”
这是系统工程的胜利。英伟达把CPU、GPU、网络芯片、高速互联技术这些零件,通过软件栈完美地协同设计(Co-design),才堆出了如此惊人的巨大性能提升。自建生态,意味着不仅要追求单卡和配套硬件的性能,还要追赶英伟达在整合硬件与软件系统方面的巨大优势和成熟度,真的难如登天。
中国的追赶,割裂的生态
面对英伟达这道又高又厚的墙,“堆卡模式”是非常明智的选择。
台积电创始人张忠谋的观点,也印证了这条路的可行性。他曾建议,不是非不得已,别去碰那些成本高得吓人的3纳米、2纳米工艺。用先进封装技术,把7纳米这种成熟工艺的芯片组合起来用,同样能获得不错的性能。
这对先进制程受限的我们来说,无疑是一条出路。
但是,“堆卡”也只能解决算力问题。长期来看,真正的命门,还是生态。
国内在这条路上,出现了明显的分野。
一边是华为。它在走一条最难的路,试图从底层硬件的昇腾(Ascend)系列芯片,到上层的CANN(Compute Architecture for Neural Networks,异构计算架构)软件栈,打造一套完全对标“GPU+CUDA”的自主生态。这是想在一片盐碱地上,培育出一片自己的“黑土地”啊。
另一边,是阿里、百度等互联网巨头。他们也推出了自己的AI芯片,比如阿里的含光(Hanguang)、百度的昆仑芯(Kunlun)。但他们的软件生态,很大程度上还是运行在CUDA之上,或者说,选择与CUDA兼容。
国产芯片头部厂商,如寒武纪,则在努力构建一套相对自主且功能完整的AI计算平台。它与CUDA生态的关系是“部分兼容、部分替代、部分并行”的。寒武纪在底层核心组件(如编程语言、算子库)上选择了自主研发的道路,这是其构建独立生态的基石。但它在应用层和开发者体验上采取了务实的兼容策略,通过提供迁移工具和适配主流框架,来降低从CUDA生态迁移的难度。
这种分裂的局面,是中国算力产业最核心的困境。
生态这东西,有天然的排他性。一个碎片化的市场,很难诞生出一个能和CUDA这种全球性标准相抗衡的对手。
华为选择的道路,等于以一家之力,对抗一个经营了二十年的全球开发者帝国,难度可想而知。黄仁勋在访谈中也表达了对中国竞争力的敬畏:“别忘了中国拥有世界上最优秀的企业家……他们是世界上最渴望成功的……我们面对的是一个强大的、创新的、渴望成功的、行动迅速的、监管不足的对手。” 他甚至直言,“我听到的一些事情,比如他们永远无法制造人工智能芯片。这听起来简直是疯了……他们落后我们几纳秒。纳秒。”
“几纳秒”吗?这种糖衣炮弹我们听听就行。他也是说给美国监管部门听的,毕竟中国这么巨大的市场,他怎么舍得放弃。
黄仁勋认为,符合美国最佳利益的做法,不是搞“小院高墙”把自己围起来,而是让美国最强大的科技产业去全球竞争,去赢得市场。让全世界都建立在美国的技术之上,才能最大化美国的经济成功和地缘政治影响力。将中国市场拱手让给华为这样的本土企业,是一个巨大的战略错误。这相当于用美国的政策,为自己创造了一个由垄断利润喂养起来的强大竞争对手。
但对于我们来说,在今天这个国际环境下,把国家最核心的算力基础设施,建在竞争对手的“地基”上,风险太大了。一旦哪天风云突变,人家一“断供”,我们所有的投入可能瞬间归零。自建生态是一个“不得不”的选择。
从另一个角度看,华为对英伟达发起的挑战,也客观上为国内其他厂商创造了谈判的筹码。如果没有一个潜在的替代方案,大家可能都只能被动地接受英伟达旧产品的定价和供应。
这场生态之战,赌上的不只是一家公司的未来,更是一个国家在智能时代的科技主权。
算力的终极对决:“比特”与“瓦特”
当技术路线和生态格局逐渐明朗,竞争的焦点就会下沉,沉到更基础、更具物理属性的层面:产能供应链和能源成本。
先说供应链。
这已经不是一个纯粹的技术问题了,它考验的是一个国家的工业体系、资本实力和全球协作能力。
黄仁勋曾向他的对手们发出过一个灵魂拷问:“就算你今天有能力设计出能支持50万张卡的集群,谁会给你500亿美元的采购订单?在一个未经证实的架构上……为什么你要为一个刚刚完成流片的芯片启动价值500亿美元的晶圆生产?”
一笔500亿美元的订单,背后是什么?
是客户对你这家公司长期发展的信任,是对你能够稳定、按时交货的信心,更是对你调动全球最顶级供应链资源能力的认可。黄仁勋解释道:“但对于英伟达来说,我们可以做到这一点,因为我们的架构已经得到了充分的验证。所以,我们客户的规模非常惊人。现在,我们供应链的规模也令人难以置信。”
英伟达能接下这样的单子,因为它背后站着一个由台积电的晶圆代工、SK海力士的高带宽内存(HBM)、先进的CoWoS封装技术以及无数零部件供应商组成的庞大产业联盟。这种长年累月建立起来的信任和合作关系,新玩家短时间内根本无法复制。
这恰恰是中国最大的短板之一。我们的产业链在一些环节上有了突破,但整体的成熟度、稳定性和规模,和世界顶尖水平还有不小的差距。一个各自为战、标准不一的产业格局,很难在成本和效率上,去和一个高度协同的全球化体系正面抗衡。
再说能源。
当技术和产能的差距难以抹平,一个终极的物理约束带来了希望——电。
AI数据中心就是个“电老虎”,一个超大规模数据中心的耗电量,比得上一座中型城市。
这就引出了一个极具前瞻性的观点:如果一个国家,能把电力成本做到“白菜价”,即使芯片及软件生态有不足,它也有可能在总拥有成本的最终决战中,实现弯道超车。
黄仁勋在对话中也反复强调了能源的重要性,甚至将其与收入直接挂钩:“Token生成每几个月就会翻一番。那说明什么?每瓦性能必须保持指数级增长。这就是为什么英伟达在每瓦性能方面全力以赴。而且每瓦特的收入,瓦特基本上就是未来收入的衡量单位。”
英伟达的优势在于,花同样的电,它的系统能算出更多的有效结果(Token),也就能带来更多收入。但如果你的电费只有别人的十分之一,那你就可以用十倍的“廉价电力”,去抵消掉硬件效率上的差距,最终在“单位Token成本”上与对手打平,甚至反超。
这就给中国提供了一个非对称竞争的机会。
我们在光伏、风电等新能源领域,拥有全球最完整的产业链和最大的装机容量。如果能把这些绿色能源的成本降到极低,然后大规模地供给数据中心使用,这将成为中国算力产业独一无二的战略优势。
未来的算力竞争,本质上是一场“比特”与“瓦特”的综合较量。
谁能掌握更廉价的能源,谁就可能在长跑中笑到最后。
这场由一块小小芯片引发的全球竞赛,从硬件性能,打到软件生态,再到工业供应链,最终,将取决于能源结构和人才战略这些最宏大的命题。
前路漫漫,唯有放弃幻想,踏实苦干。
原访谈视频:
https://www.bilibili.com/video/BV1nDnXzQEH6
END