Nvidia开源Blackwell平台、服务器组件设计给OCP_科技资讯

Nvidia开源Blackwell平台、服务器组件设计给OCP

创始人

2024-10-22 11:40:56

0次

在上周2024 OCP全球高峰会（Global Summit）Nvidia宣布将AI机柜系统GB200 NVL72机柜，以及液冷式运算与交换机匣设计，开源给开源运算项目（Open Compute Project，OCP）。

Nvidia很早就加入开源社交媒体．如Linux基金会、Python软件基金会及PyTorch基金会，也是OCP SAI（Switch Abstraction Interface，SAI）项目创始与治理董事会成员，同时也是SONIC（Software for Open Networking in the Cloud）的第二大贡献者。Nvidia2021年首度开源Triton推论服务器，今年10月Nvidia则分别开源HGX H100基板及ConnectX-7以太网络适配器（NIC）页献给OCP，前者是云计算AI服务器的业界标准，后者则是OCP网络适配器（NIC）3.0的基础设计。通过这次开源，将能让社交媒体开发人员开发以其GB200为基础的OCP服务器及应用。

GB200 NVL72是Nvidia AI整柜服务器系统，支持最多36个Grace CPU和72个Blackwell GPU，每GPU连接速度为1.8TB/s。Nvidia指出，在GB200 NVL72之前，在HGX H200基板上单一NVLink domain最多只能连接8颗GPU，每GPU网速为900GB/s。GB200 NVL72的出现，让兆级参数模型如GPT-MoE-1.8T的训练和推论速度分别大幅提升了4倍和30倍

Nvidia同时开源其设计的1RU小型运算及交换机匣（compute and switch tray），名为DC SCM（Data Center Secure Control Module），尺寸比现有业界标准小10%，还内置新式更小的总线连接器。运算匣部分则提供模块化外壳可适应不同I/O需求。改良的盲接液冷设备及连接器

应对开源计划，Nvidia提供了和电源与液冷设备企业Vertiv共同开发的GB200 NV72参考设计，提供给云计算企业及数据中心开发人员。Nvidia宣称该参考设计能节省最多50%的实例时间，还减少电源模块所占空间，提升冷却效率。为了解决120KW的冷却电耗，这参考设计包含了Nvidia分流阀（manifold fittings）、浮动盲插（floating blind mates）等液冷技术。

除了Vertiv目前已有40多家数据中心基础架构（data center infrastructure，DCI）已提供Blackwell为基础的设计，包括鸿海、台达电、光宝、云达、Schneider Electronic等，而OEM企业如HPE、Dell、美超微及台湾厂商如云达、华硕、技嘉、和硕、英业达、纬颖也都提供了Blackwell-based服务器。

Nvidia通过开源其设计，有助于扩大Blackwell服务器采用客户群，推升芯片销量。不过，媒体报道受产品瑕疵影响，原定本季推出的Blackwell可能要延迟一季才能出货，使供不应求问题雪上加霜。

上一篇：“零碳科技总部大楼”，顺利开工！

下一篇：vivo X200系列登场：性能与摄影双突破，年度旗舰机皇等你来

Nvidia开源Blackwell平台、服务器组件设计给OCP

相关内容

热门资讯