原创 一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场
创始人
2025-10-14 04:41:42
0

前言

OpenAI 内部快因为 GPU 抢翻天了!

总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。

就在各团队争得不可开交时,微软突然甩出大招,上线了全球首个 4600 多块 GPU 的超算,专门供 OpenAI 使用。

这台 “算力巨兽” 真能解决问题吗?据说以前要数周的训练,现在几天就能完成。

内部抢破头

说实话,OpenAI 里抢 GPU 的场面,比咱们小区大妈抢特价菜还激烈。

Greg 在播客里举过个例子,有回早上刚到公司,研发团队的负责人就堵在办公室门口,手里攥着厚厚一叠项目方案,就为了争取下季度的算力配额;

下午应用产品团队又拿着用户增长数据来找,说要是算力不够,新功能就没法按时上线。

他苦笑说,每个团队的点子都特别好,拒绝哪个都心疼,可 GPU 就那么多,手心手背都是肉,怎么分都难。

为啥大家对 GPU 这么执着?看看数据就知道了。

去年 OpenAI 花的 70 亿算力经费里,50 亿都用在了大模型研发上,这可不是小数目 —— 平均到每天,光研发这块就得花近 1400 万美元在算力上。

而推理计算,也就是咱们平时用 ChatGPT 这类工具时消耗的算力,才花了 20 亿。要知道,训练一个万亿参数的大模型,得处理海量的数据,每一轮迭代都要让 GPU 反复运算,就像工厂批量生产零件一样,少一个机器都得拖慢进度。

之前有内部员工透露,有次为了赶一个模型的训练节点,团队连续一周盯着 GPU 状态,就怕设备出问题耽误事儿。

为了让分配更公平,OpenAI 特意搭了套三层机制。

最顶层是奥特曼和 Fidji Simo 带队的领导班子,他们会根据公司下阶段的重点定方向 —— 比如要是计划加强多模态模型研发,就会给研究团队多拨点算力;要是应用产品要推新功能,也会适当倾斜。

中间层是研究团队内部,首席科学家和各个研究负责人会坐在一起开会,根据项目的紧急程度和重要性,给下面的小团队分资源。

最底层是 Kevin Park 带的小团队,一共就几个人,却管着全公司 GPU 的 “调度权”—— 哪个项目结束了,他们得第一时间把 GPU 收回来;哪个新项目启动,又得赶紧把设备调过去,有时候一天要调整好几次。

即便这样,还是有人会来 “求情”,毕竟算力直接关系到项目能不能推进,谁都不想落后。

OpenAI 的首席产品官 Kevin Weil 就说过,每次新的 GPU 一到货,不用通知,各团队就主动来问,当天就能把设备装起来用,根本留不住。

微软送猛货

就在 OpenAI 为算力愁得睡不着觉的时候,老搭档微软还真就送来 “及时雨” 了。

今年早些时候,微软其实就推出过 GB200 的虚拟机给 OpenAI 用,当时就帮着解决了不少训练难题。

这次纳德拉直接在公开场合官宣,全球第一台专门为 OpenAI 定制的超算正式上线,光里面的 GB300 NVL72 设备就有 4600 多个,而且微软已经计划好了,未来要把这超算的 GPU 数量扩展到 10 万块 —— 这规模,想想都觉得震撼。

英伟达作为芯片领域的巨头,也忍不住夸这台超算,说它简直是 “算力巨兽”。以前 OpenAI 训练一个万亿参数的大模型,得从头到尾跑好几周,中间还得担心算力不够中断;现在有了这台超算,几天时间就能完成训练,效率直接翻了好几倍。

这可不是吹的,咱们来看看这超算的 “硬件配置” 就知道了 —— 它是按机架来设计的,每个机架里都装着 18 个虚拟机,每个虚拟机又搭配了 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU,相当于每个机架都有一整套 “超强计算组合”。

除此之外,每个机架还配了 37TB 的高速内存,咱们平时家用电脑的硬盘一般是 1TB、2TB,37TB 就相当于 30 多块普通硬盘叠起来的容量,数据存在里面,调取速度比普通内存快太多了。

而且微软为了让这超算发挥最大作用,几乎把能优化的地方都优化了。

先说数据传输,机架内部用了 NVLink 和 NVSwitch 技术,每秒能传输 130TB 的数据 —— 打个比方,要是传一部 10GB 的电影,一秒钟能传 13000 多部,根本不会出现数据 “堵车” 的情况。

跨机架传输也不含糊,用的是当今最快的 Quantum-X800 InfiniBand 网络,每块 GPU 的带宽能达到 800Gb/s,就算超算扩展到几万个 GPU,数据在不同机架间传也照样快。

散热也是个大问题,这么多高性能设备堆在一起,发热量肯定不小。

微软专门设计了 “独立散热器单元”,每个设备都有针对性的散热方案,再配合整个数据中心的冷却系统,既能保证设备一直处于稳定的温度,又不会像传统散热那样浪费太多水。

这一点也很重要,毕竟大型数据中心的能耗和水资源消耗一直是个难题,微软这次算是考虑得很周全了。

软件方面更是没落下,微软重新优化了存储、编排和调度的软件栈。

简单说,就是让软件能 “指挥” 硬件高效工作,比如在训练大模型时,软件能合理分配每个 GPU 的任务,不让有的设备闲着,也不让有的设备超负荷;在处理长上下文对话时,软件能快速调用高速内存里的数据,让 AI 的响应速度更快。

有内部测试说,用这台超算跑多模态模型,生成一张复杂的图片或者理解一篇上万字的文档,比以前快了近一半。

结语

OpenAI 内部抢 GPU 的 “痛苦与煎熬”,其实就是当下 AI 行业竞争的一个缩影。

70 亿美元砸在算力上还不够用,4600 多个 GPU 的超算刚上线就计划扩到 10 万块,这些数据都在告诉咱们:算力已经成了 AI 发展的 “硬通货”。

不光是 OpenAI,Meta 的小扎也说要把 “人均算力” 当成核心优势,谷歌在加码 TPU 芯片,亚马逊云服务也在偷偷建自己的 AI 超算,整个行业都在算力上 “内卷”。

微软这次给 OpenAI 送超算,表面上是帮老搭档解燃眉之急,实际上是在 AI 赛道上 “加码下注”—— 谁都知道,能支撑起更强大的大模型,谁就能在未来的 AI 竞争中占得先机。

对咱们普通用户来说,算力提升也不是跟自己没关系,以后用 AI 工具写文章、做设计、处理工作,响应会更快,能做的事儿也会更多。

说到底,这场算力争夺战,早就不是单个公司的事儿了,而是整个科技行业的 “军备竞赛”。

现在 4600+GPU 的超算已经落地,10 万块 GPU 的目标也提上了日程,未来还会有更强大的算力设备出现。谁能在这场竞赛中笑到最后?答案或许就藏在那些不断增加的 GPU 数量和越来越快的训练速度里。

相关内容

热门资讯

首钢股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示首钢股份(000959)新获得一项实用新型专利授权,专利名为“...
旧书新知·书香上海 | 这家复... 正值周末,高三生杨溢一早从松江的家出门,十点半赶到杨浦区的复旦旧书店,脸上是淘书的真挚与兴奋。杨溢习...
维斯塔斯全新主机舱项目在津启动... 天津北方网讯:日前,维斯塔斯风力技术(中国)有限公司在天津经开区举行EnVentus MK1主机舱项...
长川科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示长川科技(300604)新获得一项实用新型专利授权,专利名为“...
青岛“4+4+2”现代海洋产业... 来源:滚动播报 (来源:工人日报) 本报讯(记者张嫱)全球首艘15万吨级智慧渔业大型养殖工船“国信1...
中国联通eSIM手机运营服务商... 中国联通10月13日在其官方公众号表示,近期,中国联通正式获得开展eSIM手机运营服务商用试验的批复...
原创 一... 前言 OpenAI 内部快因为 GPU 抢翻天了! 总裁直言分配起来 “痛苦又煎熬”,过去一年光算...
数字经济如何赋能产业创新 李先军 产业创新是科技创新转变为现实生产力的关键环节,不仅需要融合新技术或跨领域技术,还需要开发新的...
AI赋能政务有新规范:不越界也... 当数据流动成为社会“血液”,人工智能大模型正成为新一轮政务管理改革的“泵机”。 近日,中央网信办、国...
餐桌“顶流”价格“跳水”!怎么... 随着国庆中秋假期结束,海鲜市场价格逐渐回落。在山东青岛,各大海鲜市场货源充足,“平价海鲜”迎来选购热...