在上周2024 OCP全球高峰会(Global Summit)Nvidia宣布将AI机柜系统GB200 NVL72机柜,以及液冷式运算与交换机匣设计,开源给开源运算项目(Open Compute Project,OCP)。
Nvidia很早就加入开源社交媒体.如Linux基金会、Python软件基金会及PyTorch基金会,也是OCP SAI(Switch Abstraction Interface,SAI)项目创始与治理董事会成员,同时也是SONIC(Software for Open Networking in the Cloud)的第二大贡献者。Nvidia2021年首度开源Triton推论服务器,今年10月Nvidia则分别开源HGX H100基板及ConnectX-7以太网络适配器(NIC)页献给OCP,前者是云计算AI服务器的业界标准,后者则是OCP网络适配器(NIC)3.0的基础设计。通过这次开源,将能让社交媒体开发人员开发以其GB200为基础的OCP服务器及应用。
GB200 NVL72是Nvidia AI整柜服务器系统,支持最多36个Grace CPU和72个Blackwell GPU,每GPU连接速度为1.8TB/s。Nvidia指出,在GB200 NVL72之前,在HGX H200基板上单一NVLink domain最多只能连接8颗GPU,每GPU网速为900GB/s。GB200 NVL72的出现,让兆级参数模型如GPT-MoE-1.8T的训练和推论速度分别大幅提升了4倍和30倍
Nvidia同时开源其设计的1RU小型运算及交换机匣(compute and switch tray),名为DC SCM(Data Center Secure Control Module),尺寸比现有业界标准小10%,还内置新式更小的总线连接器。运算匣部分则提供模块化外壳可适应不同I/O需求。改良的盲接液冷设备及连接器
应对开源计划,Nvidia提供了和电源与液冷设备企业Vertiv共同开发的GB200 NV72参考设计,提供给云计算企业及数据中心开发人员。Nvidia宣称该参考设计能节省最多50%的实例时间,还减少电源模块所占空间,提升冷却效率。为了解决120KW的冷却电耗,这参考设计包含了Nvidia分流阀(manifold fittings)、浮动盲插(floating blind mates)等液冷技术。
除了Vertiv目前已有40多家数据中心基础架构(data center infrastructure,DCI)已提供Blackwell为基础的设计,包括鸿海、台达电、光宝、云达、Schneider Electronic等,而OEM企业如HPE、Dell、美超微及台湾厂商如云达、华硕、技嘉、和硕、英业达、纬颖也都提供了Blackwell-based服务器。
Nvidia通过开源其设计,有助于扩大Blackwell服务器采用客户群,推升芯片销量。不过,媒体报道受产品瑕疵影响,原定本季推出的Blackwell可能要延迟一季才能出货,使供不应求问题雪上加霜。