IT时报记者 郝俊慧
面对越来越“热”的算力芯片,曙光数创正想让它快点“冷”下来。
在刚刚结束的2025中国智算中心全栈技术大会上,曙光数创发布“新服务、新技术、新架构”三大新品,旨在通过一体化、全生命周期的服务新范式,解决当前液冷行业面临的诸多痛点。
“液冷即服务,这个概念在行业里早就有需求了。”曙光数创副总裁兼CTO张鹏在接受《IT时报》记者在内的媒体采访时表示,由于当前液冷解决方案还没有标准,从设计到服务器,各家对液冷数据云架构的理解都不一样,很多液冷数据中心的施工质量也参差不齐,对客户来说,最好的答案是“好服务、好技术、好架构全都要,不要做选择,是一个全生命周期的服务”。
国际数据公司(IDC)今年4月8日公布的《中国半年度液冷服务器市场(2024下半年)跟踪报告》(以下简称:《报告》)显示,2024年中国液冷服务器市场规模达到23.7亿美元,同比增长67.0%。其中,冷板式解决方案市场占有率进一步提高。IDC预计,2024年至2029年,中国液冷服务器市场年复合增长率将达到46.8%,2029年市场规模将达到162亿美元。
液冷产业的爆发离不开上下游协同。从芯片、服务器到液冷系统,各环节需把控安全、推动技术融合,同时亟待建立统一标准。
越来越“烫手”的芯片
在AI大模型高速演进的当下,智算中心已逐步替代传统数据中心成为新型基础设施的核心。然而,算力芯片的功耗与发热量,给数据中心的散热系统带来了前所未有的压力,其功耗增长已呈指数级攀升。
不久前,英伟达CEO黄仁勋透露,其2026年推出的Rubin芯片单颗功耗将高达1.6千瓦,而AMD刚刚发布的Instinct MI355系列芯片功耗也已逼近1.4千瓦。
行业专家预测,未来几年内,单芯片功耗可能突破二千瓦大关。算力密度的爆炸式增长,使传统风冷方案陷入“能耗墙”的死角,液冷因其更高的换热效率成为最现实也是最迫切的选择。
芯片厂商已经先行一步。早在2022年,英伟达就推出过液冷版A100芯片,去年英伟达在其B100、H200芯片上正式从风冷散热升级为液冷散热。今年英伟达发布的新一代Blackwell Ultra和AMD新发布的MI355X,都是液冷散热设计,性能释放也更强。
百度智能云IDC建设运维部副总经理郝玉涛认为,当机柜功率超过40千瓦时,风冷将彻底失去竞争力,液冷凭借其在能效和密度上的优势,将成为数据中心高密散热的主流技术。
高门槛急需标准先行
然而,液冷的应用并非没有门槛。
在展会现场,《IT时报》记者看到,在一块GPU芯片上覆盖着一个装有两根管道的装置,工作人员告诉记者,液冷的原理就是让液体(各家不同)进入装置,将GPU的热量在流动中带走。只是,说起来简单,真正部署一个全生命周期的液冷解决方案,却面临诸多技术门槛。
液冷数据中心在架构和原理上与传统风冷数据中心有本质不同。传统风冷有明确的标准,例如进风温度23℃、回风温度37℃等。而液冷技术却缺乏统一的行业标准,不同设备厂商使用的液冷接口、压力等级、冷媒类型乃至监控协议都各不相同。
这使得客户在设备选择和系统集成时面临困难。液冷服务器种类繁多,各家厂商在关键参数(如温度、温差、压力)以及管路接口和架构设计上标准不一。郝玉涛举例,由于液冷系统的管路接口和架构设计因厂商而异,设备兼容性差。若客户需要跨机房迁移业务,管道接口匹配问题便成为一大痛点。
“风冷方案中,空调吹冷风,服务器吸热风,架构是天然解耦的,标准很容易固定,但液冷不一样,它通过直接接触芯片进行散热,冷却液的质量直接影响芯片的长期稳定性。若冷却液中含有杂质或化学性质不稳定,可能引发电化学腐蚀,甚至损坏芯片。”张鹏介绍,由于冷却液直接进入服务器内部,对液体的纯净度和水质的要求非常严格。如果施工过程中发生二次污染,水质管理不到位,菌落超标,或者运维出现失误,都可能导致芯片损坏或系统宕机等严重后果。
另一个挑战来自系统压力。液冷系统中,冷却液的循环流动需要使用泵产生一定的压力来推动,此外,液体受热膨胀后,也会在封闭的冷却回路中导致系统压力增加,“就跟高压容器一样,一旦出问题,就像炸弹爆炸,后果惊人。”张鹏强调,由于智算服务器价格昂贵,单台八卡基本在百万元以上,任何潜在风险都可能转化为巨大的经济损失,这使得客户在选择液冷方案时更加谨慎。
目前,数据中心液冷技术全产业链条的标准正在制定中。2024年9月19日,在国家工信部、国标委引导下,由中国电子技术标准化研究院作为总归口管理单位,曙光数据基础设施创新技术(北京)股份有限公司(简称“曙光数创”)牵头编制的国家标准《数据中心冷板式液冷系统技术规范》正式启动,引导和规范了冷板式液冷数据中心向高质量、标准化方向发展。
截至目前,曙光数创已经牵头或参与编制了6项国标、2项地标、14项行标和23项团标。
首次推出相变间接液冷方案
曙光数创此次正式发布相变间接液冷数据中心解决方案C7000-F,为智算中心的发展提供新的思路和方向。
记者在展会现场看到了曙光数创第三代极智(冷板式)液冷数据中心整体解决方案的落地版,在一个类似“唱吧KTV”大小的独立玻璃屋内,服务器和整套液冷设备采用一体化架构,集成高效冷板、模块化分布式换热单元、智能压力调控与冷媒循环系统,并基于统一协议接口标准,实现设备层到系统层的端到端联动。
据工作人员介绍,这套设备可为八台服务器同时服务,而且曙光可以为用户提供全局定制服务:从设计规划到设备选配,从生产交付到安装施工,从运行调试到运维保障,从服务器的液冷散热到数据中心系统集成,从全运行工况设备监控到全生命周期管理 的全过程、全方位、全链条服务。
曙光数创正在将液冷从“物理层”的散热工具,上升到“系统级”算力支撑平台。
“计算基于全生命周期的单千瓦冷却成本,在算力时代变得非常重要。”张鹏表示。
“单千瓦冷却成本”是一个衡量数据中心冷却效率的关键概念,指的是每消散一千瓦热量所需的总成本,即TCO(总体拥有成本)除以整个生命周期内消散的总热量(以千瓦为单位),其中TCO主要由两部分构成:初始购买冷却设备(如CPU、冷却单元等)的硬件投入和服务器运行整个生命周期(例如5到10年)内与冷却相关的费用(主要是电费)的运营成本。
曙光数创曾做过测试,当机柜低密度部署时,单机柜三千瓦,风冷性价比最高;中密度部署时,单机柜30千瓦,液冷技术(如冷板冷却)开始变得更具优势;高密度部署时,单机柜300千瓦,只有浸没式相变冷却才能有效应对AI算力所需的高热量。
曙光数创是国内首个推出相变浸没式液冷数据中心的厂商,PUE最低可达1.04,几乎接近于1。而此次,也首次将相变间接液冷技术产品化落地,推出相变间接液冷数据中心整体解决方案C7000-F,将特制的浸没式冷媒用在冷板的循环管道里,当冷媒以液态形式通过管道接触设备后,冷却剂的温度升高,部分液体变成气体(汽化),从管道另一侧转移,进入冷却器后再重新凝结成液体,而这个汽化过程会吸收大量热量,也即所谓的“相变”。
“我们的冷媒可以让系统压力控制在三公斤,这已经和水冷板一样,甚至更低。”张鹏介绍,这种曙光数创自主研发的冷媒,其热物性参数、安全性、环保、毒理都没有任何问题,即便出现泄漏也不会对GPU芯片产生破坏性影响。
“你想,我们的浸没式方案,都是直接将服务器100%完全浸没在这种冷媒中,都不会有问题。”一位现场工作人员介绍。
据了解,与普通冷板解决方案相比,相变间接液冷数据中心整体解决方案可有效降低冷板换热热阻15%,整体温度收益下降5度,但成本涨幅却能控制在5%以内,如果考虑长期运营成本,整体单千瓦冷却成本反而是下降的。