7月22日消息,OpenAI 首席执行官山姆·奥尔特曼 (Sam Altman)近日在社交媒体平台“X”上表示,OpenAI 有望在今年年底前“将超过 100 万个 GPU 上线”。这一数数字将达到了埃隆·马斯克 (Elon Musk) 的“xAI”训练Grok 4 所用的20万个Nvidia H100 GPU的五倍。
早在今年 2 月,Altman就承认 OpenAI 不得不放慢 GPT-4.5 的推出速度,因为它们实际上“没有足够的GPU”。此后,Altman 将硬件计算资源扩展作为重中之重,除了寻求与微软、软银等巨头深度合作之外,还寻求与国家级规模的基础设施运营商合作。当 OpenAI 在今年年底达到 100 万个 GPU 的里程碑时,它还将巩固自己作为全球最大的 AI 计算资源拥有者的地位。
值得注意的是,Altman还在“X”上表示,现在他们还想弄清楚如何将这个数字提高100倍。这确实是一个非常疯狂的想法,因为按照目前的市场价格,1亿个GPU的成本将达到约3万亿美元,这不包括其所需要的其他配套基础设施的费用,而且英伟达和其芯片生产伙伴台积电短时间内也不可能生产出这么多的GPU,更不用说这1亿个GPU所需要消耗的巨大能源,目前美国也缺乏强大的能源基础设施。
OpenAI 的德克萨斯州数据中心就是一个例子,该数据中心现在是世界上最大的单一数据中心,其消耗电能约为 300 MW,这足以为一个中型城市供电,而且预计到2026年中期,能耗可能将达到1吉瓦。如此庞大的能源需求,已经引起了德克萨斯州电网运营商的审查。他们警告说,为这种规模的站点稳定电压和频率需要昂贵、快速的基础设施升级,即使是州公用事业公司也难以与之匹配的。无论如何,创新必须占上风,泡沫不应该破裂。
不过,“100倍”可能并不是一个确切的数字上的目标,而是关于达到 AGI(通用人工智能)所需要的算力,这意味着不论是GPU、定制芯片、还是其他新架构的芯片,甚至是目前还没的东西,OpenAI想找出答案。
目前,OpenAI也并不仅仅是采用英伟达的GPU,虽然目前微软的Azure云仍然是其主要的云骨干网,但 OpenAI 已与甲骨文合作建立自己的数据中心,并有传言称正在探索谷歌的 TPU 加速器以使其计算堆栈多样化。
这是一场更大的军备竞赛的一部分,从 Meta 到亚马逊,每个巨头都在构建自研的人工智能芯片,并在高带宽内存(HBM)上下大赌注,以维持这些庞大AI模型的需求。Altman也暗示了 OpenAI 自研AI芯片计划,考虑到该公司对于AI芯片需求的规模不断扩大,这是很有必要的。
Altma的最新评论也同时提醒人们,AI领域竞争有多激烈。一年前,一家拥有 10,000 个 GPU 的公司听起来像是一个重量级竞争者,现在即使是 100 万个GPU,也感觉只是迈向更大目标的又一垫脚石。OpenAI 的基础设施的持续扩张,不仅能够更快的训练,获得更好的模型,并使其模型在云端被更多人使用时能够更流畅的运行,以确保长期优势。
这对于AI模型或AI云服务的竞争者来说,并不是一件好事,因为这将使得他们不得不持续在AI基础设施当中投入巨量的资金,并且短期内恐怕难以收回成本。但是对英伟达等AI硬件厂商来说,这是一个好消息。
编辑:芯智讯-浪客剑
7月22日消息,OpenAI 首席执行官山姆·奥尔特曼 (Sam Altman)近日在社交媒体平台“X”上表示,OpenAI 有望在今年年底前“将超过 100 万个 GPU 上线”。这一数数字将达到了埃隆·马斯克 (Elon Musk) 的“xAI”训练Grok 4 所用的20万个Nvidia H100 GPU的五倍。
早在今年 2 月,Altman就承认 OpenAI 不得不放慢 GPT-4.5 的推出速度,因为它们实际上“没有足够的GPU”。此后,Altman 将硬件计算资源扩展作为重中之重,除了寻求与微软、软银等巨头深度合作之外,还寻求与国家级规模的基础设施运营商合作。当 OpenAI 在今年年底达到 100 万个 GPU 的里程碑时,它还将巩固自己作为全球最大的 AI 计算资源拥有者的地位。
值得注意的是,Altman还在“X”上表示,现在他们还想弄清楚如何将这个数字提高100倍。这确实是一个非常疯狂的想法,因为按照目前的市场价格,1亿个GPU的成本将达到约3万亿美元,这不包括其所需要的其他配套基础设施的费用,而且英伟达和其芯片生产伙伴台积电短时间内也不可能生产出这么多的GPU,更不用说这1亿个GPU所需要消耗的巨大能源,目前美国也缺乏强大的能源基础设施。
OpenAI 的德克萨斯州数据中心就是一个例子,该数据中心现在是世界上最大的单一数据中心,其消耗电能约为 300 MW,这足以为一个中型城市供电,而且预计到2026年中期,能耗可能将达到1吉瓦。如此庞大的能源需求,已经引起了德克萨斯州电网运营商的审查。他们警告说,为这种规模的站点稳定电压和频率需要昂贵、快速的基础设施升级,即使是州公用事业公司也难以与之匹配的。无论如何,创新必须占上风,泡沫不应该破裂。
不过,“100倍”可能并不是一个确切的数字上的目标,而是关于达到 AGI(通用人工智能)所需要的算力,这意味着不论是GPU、定制芯片、还是其他新架构的芯片,甚至是目前还没的东西,OpenAI想找出答案。
目前,OpenAI也并不仅仅是采用英伟达的GPU,虽然目前微软的Azure云仍然是其主要的云骨干网,但 OpenAI 已与甲骨文合作建立自己的数据中心,并有传言称正在探索谷歌的 TPU 加速器以使其计算堆栈多样化。
这是一场更大的军备竞赛的一部分,从 Meta 到亚马逊,每个巨头都在构建自研的人工智能芯片,并在高带宽内存(HBM)上下大赌注,以维持这些庞大AI模型的需求。Altman也暗示了 OpenAI 自研AI芯片计划,考虑到该公司对于AI芯片需求的规模不断扩大,这是很有必要的。
Altma的最新评论也同时提醒人们,AI领域竞争有多激烈。一年前,一家拥有 10,000 个 GPU 的公司听起来像是一个重量级竞争者,现在即使是 100 万个GPU,也感觉只是迈向更大目标的又一垫脚石。OpenAI 的基础设施的持续扩张,不仅能够更快的训练,获得更好的模型,并使其模型在云端被更多人使用时能够更流畅的运行,以确保长期优势。
这对于AI模型或AI云服务的竞争者来说,并不是一件好事,因为这将使得他们不得不持续在AI基础设施当中投入巨量的资金,并且短期内恐怕难以收回成本。但是对英伟达等AI硬件厂商来说,这是一个好消息。
编辑:芯智讯-浪客剑