在人工智能应用大规模建设热潮的新闻头条中,企业数据中心规划策略往往被忽视。McKinsey 2025年报告预测,到2030年,AI所需的IT基础设施支出将达到近7万亿美元,其中数据中心投资3万亿美元,计算和电信硬件投资4万亿美元,这将使全球数据中心容量在2030年前大约翻倍。
大型企业除了AI之外还要执行许多IT功能,而且大多数企业部署AI的方式与Google、Microsoft、Amazon、Meta、Oracle、TikTok、Apple、xAI和OpenAI等超大规模云服务商不同,这直接影响了企业数据中心规划。
企业依靠数据中心支持AI和传统计算
AI只是企业数据中心容量和能力规划的一个组成部分。企业必须在支持传统计算的同时容纳新的AI计划,传统计算支持许多重要的企业功能,包括制造、分销、研发、会计、财务、人力资源和营销。
Uptime Institute的2025年全球数据中心调查显示,93%的受访者对预测未来数据中心容量需求感到担忧。
大型企业的CIO——部分受到"错失恐惧症"(FOMO)的驱动——正在优先考虑AI投资。
Boston Consulting Group的AI雷达2026报告显示,企业计划将2026年的AI投资比去年大约翻倍,其中59%的CIO和CTO确信AI将获得回报。
AI训练与AI推理的区别
企业必须区分AI模型训练和推理,以智能地规划数据中心需求。AI训练优先考虑巨大的电力可用性,而不是可靠性或电信冗余,因为模型在被中断时可以重新启动。
AI训练在托管数千台耗电服务器并且服务器彼此非常接近的大型数据中心中效果最佳,大多数AI训练机柜功耗为80-160千瓦,需要液体冷却。一些大型AI训练园区位于偏远地区,如北达科他州农村地区,那里的电信网络多样性较弱,到用户集群的延迟比弗吉尼亚州北部、达拉斯和芝加哥等成熟数据中心市场更高。
超大规模云服务商建设和租赁AI巨型园区来训练他们的模型,但企业更可能将模型训练外包给专业AI开发商,或者内部以相对适度的规模训练AI模型。
企业采用AI推理
企业部署AI推理应用程序通过增加收入、降低费用和改进内部流程(如客户服务)来创造价值。大规模执行AI推理的企业优先考虑电信低延迟、高可靠性(通常称为"正常运行时间")和数据安全,而不是计算能力。
最佳AI推理处理需要持续、低延迟地访问企业数据,包括客户交易和内部运营输入,以快速生成实时响应,这鼓励推理计算放置在其他企业计算节点附近。一些企业正在瞄准边缘数据中心部署,以最小化AI应用延迟。
AI推理比模型训练需要更少的密集处理器集群,允许在能够冷却每机柜25-70千瓦的中等密度数据中心中执行。因为AI推理使用有价值的企业数据和知识产权,许多大型、注重安全的企业更喜欢内部执行推理计算以降低数据盗窃风险,即使初始AI模型训练是外包的。
混合占用:"部分云化"方法
一个关键的规划任务是评估潜在的数据中心交付路径,许多企业发现混合云模型(云加托管或本地)为他们的其他企业计算加AI需求的组合最大化了灵活性、可靠性和可负担性。
公有云提供快速部署、灵活合同和全球低前期资本支出。Flexera的2025年云状态报告指出,公有云采用继续加速,70%的受访者使用混合云模型。
与此同时,AFCOM的2026年数据中心状态研究指出,67%的调查受访者正在将一些功能从公有云迁回。云超支往往是预算外的,而广为人知的中断事件导致一些企业重新考虑在纯云拓扑中放置关键计算。
使用托管的企业可以在特定物理场所内维护对硬件的控制,相比公有云提供安全、管理、审计和合规优势。托管可以最佳地承载私有云,同时传递大多数本地设施无法获得的建设和运营规模经济。
传统的本地数据中心可以经济地处理可预测的传统工作负载,但大多数无法冷却高密度AI计算集群,而设施升级往往成本高且耗时。根据Cisco的2025年AI就绪指数,只有34%的调查受访者认为他们的IT基础设施对AI项目完全适应和可扩展。
大多数企业现在只部署少量消耗超过35千瓦的机柜,但希望为他们的数据中心做未来准备,以便稍后容纳高密度AI硬件。许多寻求设计灵活性的企业现在选择托管功耗高达35千瓦的风冷机柜的设施。这些设施还提供液体制冷剂管道(用于后门热交换器和液体到芯片),在不中断正在进行的关键任务操作的情况下,将未来机柜密度提升到70-160千瓦。
为AI就绪做规划
企业可以执行特定策略来创建灵活、可靠和可负担的AI就绪数据中心路线图:
组建包括IT、网络、关键设施运营、风险、审计/合规和财务在内的多学科团队,制定数据中心容量和能力计划。
聘请经验丰富的第三方顾问(包括AI集成专家、设计工程师和采购顾问/经纪人)来帮助完善目标、加快进度和降低成本。
识别具有开始和结束日期、责任方和里程碑的特定范围、选择和采购任务,以向高级管理层通报项目进展。
评估当前和计划的软件应用程序,确定哪些尚未"云就绪"以在公有云中高效执行,并检查可能不符合企业要求的公有云审计、合规和认证差距。
考虑预期新公有云和托管园区之间的电信网络可靠性和延迟影响,因为AI推理需要所有企业计算资源之间的持续数据传输。
比较部署IT解决方案的资本支出以及云和托管/本地环境的持续占用和计算成本。
区分"必须具备"——满足关键企业IT目标所必需的数据中心要求——和理想但非必要的功能。
分析当前使用指标和可能的增长趋势,估计在低增长、高增长和最可能基础情况下所需的计算容量数量(跨所有交付路径)。
Q&A
Q1:企业数据中心和超大规模云服务商的AI部署方式有什么不同?
A:大多数企业部署AI的方式与Google、Microsoft、Amazon等超大规模云服务商不同。企业更可能将模型训练外包给专业AI开发商,或者内部以相对适度的规模训练AI模型,而超大规模云服务商会建设和租赁AI巨型园区来训练他们的模型。
Q2:AI训练和AI推理对数据中心的要求有什么区别?
A:AI训练优先考虑巨大的电力可用性,需要80-160千瓦功耗和液体冷却,对可靠性要求相对较低。AI推理则优先考虑低延迟、高可靠性和数据安全,功耗较低为25-70千瓦,可在中等密度数据中心中执行。
Q3:为什么企业选择混合云模型而不是纯公有云?
A:混合云模型为企业的计算和AI需求组合最大化了灵活性、可靠性和可负担性。虽然公有云提供快速部署和灵活合同,但云超支往往是预算外的,而且广为人知的中断事件让企业重新考虑纯云拓扑的可靠性问题。