黄仁勋详解英伟达的AI时代新叙事
创始人
2026-03-19 11:28:06
0

来源:中国经营报

中经记者 李玉洋 上海报道

详解3nm制程Vera Rubin AI加速平台、集成Groq LPU推理芯片、推出英伟达版龙虾NemoClaw、进军太空计算服务……北京时间3月17日凌晨两点,英伟达GTC 2026大会如期而至,英伟达创始人兼CEO黄仁勋发表主题演讲,还是干货众多。

《中国经营报》记者注意到,不同于以往两年,今年恰逢CUDA(Compute Unified Device Architecture)推出的 20周年,于是黄仁勋在演讲开头大谈了一番CUDA庞大安装量所引发的飞轮效应,成就了英伟达AI算力的护城河。

观察近两年英伟达GTC大会,行业机构Omdia人工智能首席分析师苏廉节对记者表示:“这两年英伟达做了一件很重要的事情,就是在现有面向底层开发者的CUDA上积极地开发自身开源大模型。”

值得一提的是,在展示重磅产品——Vera Rubin平台的“全家桶”时,黄仁勋还特意提到定位为Rubin GPU“推理协处理器”的Groq 3 LPU(语言处理单元)芯片,其源自英伟达去年12月以200亿美元协议收购Groq公司相关技术授权。且透露,“三星为英伟达生产Groq 3 LPU芯片,并正在加快生产速度”。

黄仁勋在主题演讲中宣布,Vera Rubin平台已全面投产,正式交付要等到2026年下半年,Blackwell与Rubin架构的综合采购订单预计在2027年前达到1万亿美元规模,可谓是语惊四座。他还多次谈到,已经进入AI推理市场的拐点。

摩根士丹利的一份研报称,黄仁勋的演讲超出市场预期,不仅确认了万亿市场规模,更通过Groq LPU与Vera Rubin协同设计,为AI推理建立了“英伟达标准”,预计到2028年全球AI推理市场规模将达6500亿美元,占AI芯片总市场的70%以上。

而瑞银在一份研报中表示,本次大会标志着英伟达从 “GPU 供应商”彻底转型为“全栈AI基础设施提供商”,系统级优化能力将成为未来2—3年的核心竞争壁垒。“本次GTC大会给国内算力和GPU公司的核心启示是,英伟达已将竞争维度从单一芯片提升至全栈系统,国内公司应借鉴打破芯片边界,构建系统级竞争力。”电子创新网创始人张国斌表示。

集成LPU,CPX芯片怎么办

作为英伟达最新的算力核弹,Vera Rubin平台在今年CES(国际消费类电子产品展览会)期间就被黄仁勋隆重介绍过其是由6款芯片协同设计而成,本次新增了LPU,使得该平台集齐新一代的Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9超级网卡、BlueField-4 DPU、Spectrum-6以太网交换机以及新集成的Groq 3 LPU,涵盖计算、网络和存储三大功能。

英伟达对Groq 3的定位是Vera Rubin的推理加速器,而非GPU的替代品。为此,英伟达推出了专用的LPX机架,单机柜容纳256颗Groq 3 LPU;该机架提供128GB的SRAM和40 PB/s的推理加速带宽,设计上紧靠Vera Rubin NVL72机架并排部署,通过定制Spectrum-X互联。

黄仁勋说,英伟达通过Dynamo软件系统,将需要海量计算和显存的“预填充(Pre-fill)”阶段交给Vera Rubin,将对延迟极度敏感的“解码(Decode)”阶段交给Groq。一个为高吞吐量,一个为低延迟,英伟达官方给出的数据显示,每兆瓦功耗的推理吞吐量最高可提升35倍,万亿参数模型的收益机会最高可提升10倍。

根据英伟达GTC2026大会第二天黄仁勋在接受媒体群访时的表述,Groq大约能覆盖25%的工作负载,而Vera Rubin则负责剩余的部分。他进一步解释:“如果你的工作负载主要是高吞吐量,就全部用Vera Rubin;如果涉及大量编码或高价值工程级token生成,我会把Groq加进去,大概占整个数据中心的25%,其余交给Vera Rubin。”

Groq 3 LPU由三星为英伟达代工,将于2026年第三季度正式出货。这一合作标志着三星与英伟达的伙伴关系从存储领域(HBM)正式扩展到晶圆代工领域。

考虑到LPU是去年年底才被英伟达纳入芯片版图,如此快速融入也是有原因的。因为对于现有英伟达客户而言,Groq 3 LPX机架与Rubin平台的结合“无须修改现有的CUDA软件生态系统”。这意味着,企业客户可以在不重写代码的前提下,通过增加LPU机架来提升推理性能。

有分析认为,通过结合Rubin GPU和Groq LPU,英伟达终于进入了从未成为第一的低延迟推理市场,这部分市场被Cerebras、SambaNova等专用推理芯片公司占据。比如,Cerebras的晶圆级引擎同样集成了大量SRAM,为先进模型提供低延迟推理,甚至吸引了OpenAI等大客户。

收购Groq技术并将其整合到Rubin平台,是英伟达对竞争者的直接回应。“其实LPU就是一个英伟达来降低推理成本的方案,现在挑战者来势汹汹,如Cerebras、SambaNova和Tenstorrent。”苏廉节表示,Cerebras最近和OpenAI、AWS都有合作。

有趣的是,英伟达在2025年9月发布的Rubin CPX GPU,是一款专为处理超长上下文(如百万token级别)AI推理任务而设计的专用芯片,采用解耦推理架构,通过搭配大容量GDDR7内存显著优化成本与效率。Groq 3 LPX和Rubin CPX GPU都定位于推理芯片,颇具左右手互搏之感。

根据Tom's Hardware的分析,Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。英伟达超大规模计算副总裁Ian Buck称,公司目前专注于将Groq 3 LPX机架与Rubin集成,因为两者都旨在提供相似的推理性能增强,而LPU不需要每个Rubin CPX模块所需的大量GDDR7内存。

进入CPU直销领域

Vera Rubin平台的另一大亮点,是英伟达首度展现其在中央处理器(CPU)领域的强大野心,推出为智能体AI工作负载量身定制的Vera CPU,这是全球唯一支持LPDDR5的数据中心CPU。

随着智能体AI兴起,CPU的战略价值日益凸显。当AI代理需要执行浏览网页或提取表格信息等任务时,CPU性能直接决定执行效率;在数据挖掘、个性化推荐等需要为GPU提供上下文分析的场景中,CPU同样扮演着不可替代的角色。

英伟达最初于2022年GTC大会上发布了第一代Grace CPU,本届GTC大会正式发布了Vera CPU和Vera CPU机架,黄仁勋透露,这款CPU已经开始单独销售,并有望成为英伟达的一项数十亿美元级业务。

“我们从没想过会单独卖 CPU,但现在我们在大量销售。”黄仁勋坦言。据了解,Vera CPU配合BlueField-4 DPU和CX-9 SuperNIC,能够为智能体系统提供工具使用能力。智能体需要调用工具、访问文件系统、执行代码,这些都需要CPU的参与,而Vera CPU正是为这个需求而生。

这标志着英伟达正式进军CPU直销领域,成为传统数据中心CPU市场的新玩家,并再次和英特尔、AMD等争锋。今年2月,英伟达与Meta达成多年期、跨代际战略合作伙伴关系,Meta将部署全球首个大规模独立Grace CPU集群。

此外,黄仁勋还展示了Rubin平台的高性能版本Rubin Ultra,其采用全新的Kyber机架设计。与Rubin水平插入不同的是,Rubin Ultra采用垂直插入机架,每个Kyber机架能够连接144 个 GPU形成一个NVLink域。据了解,Rubin Ultra 芯片即将流片。

黄仁勋“剧透”的还有下一代计算架构Feynman,它将首次实现铜线与CPO的共同部署。同时,他还发布了Space-1 Vera Rubin模块,标志着英伟达正式推出太空计算服务。

根据英伟达官方新闻稿,Vera Rubin空间模块专为在太空直接运行LLM和高级基础模型的轨道数据中心而设计,它采用紧密集成的CPU-GPU架构和高带宽互连,旨在实时处理来自太空仪器的大量数据流。

黄仁勋说道:“太空计算,这片最后的疆域,已经到来。随着我们部署卫星星座并深入探索太空,智能必须存在于数据产生的任何地方。”

透过英伟达所展示的完整芯片路线图,国内半导体行业研究机构芯谋研究分析师王立夫认为存在这样一个亮点,即硬件分工的故事从适配PD分离(Prefill-Decode Separation)进一步分化成AFD(Attention - FFN Disaggregation)。

据了解,PD分离是大模型推理中的一项关键技术,通过将推理过程划分为Prefill(预填充)和Decode(解码)两个独立阶段,并针对其不同计算特性进行优化,显著提升了推理效率和资源利用率。而AFD则将注意力模块和前馈网络模块部署在不同的设备上,在PD分离的基础上进一步优化资源的利用率和推理服务效率。

“硬件+软件+生态”优势暂时无法撼动

除了硬核算力的升级,黄仁勋的这次主题演讲也涵盖了“AI五层蛋糕理论”除了芯片层之外的层级。

面对火爆的开源项目OpenClaw,黄仁勋盛赞其为“人类历史上最受欢迎的开源项目”,重要性堪比Linux和HTML。它不仅能让AI智能体调用工具、分解任务并自主执行,更标志着软件架构的重塑。

“今天,世界上的每家公司都需要有一个OpenClaw战略,一个智能体系统战略。这是新的计算机。” 黄仁勋强调,传统的SaaS将全面进化为“智能体即服务(GaaS)”,英伟达同步推出与OpenClaw结合的NemoClaw开源项目,定位为“智能体计算机的操作系统”。

为了确保企业级应用的安全可控,英伟达顺势推出了NemoClaw参考架构。该架构在 OpenClaw基础上加入了名为OpenShell的安全组件,提供开放模型和隔离的沙箱,为自主代理增加数据隐私和安全保障。

同时,英伟达还在进一步推进开放模型生态。黄仁勋介绍了英伟达六大系列开源模型的最新进展,包括Nemotron(语言模型)、Cosmos World Foundation Model(世界模型)、Project GR00T(机器人基础模型)、Drive AV Foundation Models(自动驾驶模型)、BioNeMo(数字生物学模型)以及 Earth-2(AI 物理与气候模拟平台),并开放训练数据、训练方法和框架工具,以推动整个AI生态的发展。

在自动驾驶领域,黄仁勋表示“自动驾驶的ChatGPT时刻已经到来”。基于英伟达Drive AV 和相关模型体系,车辆现在已经具备推理能力,可以解释自己的驾驶决策并执行语音指令。在机器人产业方面,英伟达正与ABB、Universal Robots、KUKA等企业合作,将物理 AI 模型与仿真系统结合,用于工业生产线自动化。

黄仁勋还提到,通信基础设施也将成为未来AI系统的一部分,例如T-Mobile的通信塔未来可能演变为“机器人AI基站”,能够实时分析交通和网络情况并动态调整信号。

“英伟达Nemotron大模型不仅是在验证自己的训练和推理优化能力,更和各个行业的合作伙伴合作,我目前知道的有企业服务、网络安全、电信运营商、具身智能、车载等。”苏廉节表示,现在可以看到除了最底层的能源,英伟达几乎覆盖了“AI五层蛋糕理论”上面四层,这四层虽然主要业务还是在卖芯片和计算平台,但参与上层的设计就能让英伟达更加理解最终用户。

瑞信的一份研报认为,本次GTC大会凸显英伟达的“硬件+软件+生态”的全栈协同优势,Vera CPU的独立商业化与OpenClaw的开源策略,分别从硬件垂直整合与软件生态开放两个维度巩固了行业霸权,短期内无竞争对手可撼动。

“英伟达的成功不仅在于技术领先,更在于其系统性思维——将芯片、软件、网络、存储、应用整合为不可分割的AI基础设施。”张国斌表示,国内算力公司需避免“单点突破”思维,转而构建垂直整合、水平开放的生态系统,方能在全球AI算力竞赛中占据一席之地。

(编辑:吴清 审核:李正豪 校对:翟军)

相关内容

热门资讯

小米申请虚拟按键反馈方法专利,... 国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“反馈方法、装置、电子设备、存储介质及程...
小商品出海为何不怕“抄袭”了?... 记者从有关部门了解到,在“世界小商品之都”义乌,今年前两个月,新增自主知识产权海关备案439条,占全...
李彦宏谈DeepSeek:创新... 2月12日消息,在阿联酋迪拜举办的World Governments Summit 2025峰会上,...
亚马逊云科技在新加坡开设亚太地... 2月12日消息,亚马逊云科技在新加坡开设亚太地区总部。新的亚太中心可容纳来自100多个本地和地区团队...
电影《哪吒之魔童闹海》票房破9... 2月12日消息,据灯塔专业版实时数据,截至今日12时35分,影片《哪吒之魔童闹海》票房突破92亿元。
苹果供应商据悉考虑在印尼生产i... 2月12日消息,据报道,知情人士称,苹果供应商考虑在印尼生产iPhone,正采取相关措施。若最终成行...
他们为何点赞中国?在中国发展高... “十五五”开局之年,中国发展高层论坛2026年年会传递出怎样的信号? 多位外国学者和跨国企业高管表示...
合肥:力争新能源汽车产业营收规... 2月12日消息,合肥市在昨日召开的加快发展新质生产力暨重点项目推进会上提出,合肥发展新质生产力,关键...
华顺通阀门取得蝶阀加工夹具专利... 国家知识产权局信息显示,天津市华顺通阀门有限公司取得一项名为“一种蝶阀加工夹具”的专利,授权公告号C...
原创 西... 3月22日消息,3月21日结束的CBA常规赛中,宁波男篮主场以83-95不敌广州。赛后,广州球员李祥...