今天分享的是:百万卡算力之路:多DC分布式训练和DCI需求增长
报告共计:11页
《百万卡算力之路:多DC分布式训练和DCI需求增长》由国联证券发布,探讨了AI大模型训练中多DC分布式训练的发展趋势以及对DCI(数据中心互联)的需求增长,主要内容如下:
- 多DC分布式训练趋势
- 海外巨头布局:Meta、Google已开展多DC分布式训练,如Google的Gemini 1 Ultra。谷歌在俄亥俄州和爱荷华州/内布拉斯加州有主要数据中心区域,OpenAI和微软计划更大规模的分布式训练。
- 网络挑战:AI训练进入十万卡时代,跨DC协同训练面临挑战。AI训练对网络丢包敏感,大象流会使传统负载分担方法失效,万卡集群中流量瞬时并发量大。目前十公里跨机楼并行训练算效损失可控,未来百公里、千公里级跨地域并行训练需控制损失,涉及多种技术和长距离超宽DCI网络建设。
- DCI互联方案及市场
- 互联方案:更大带宽可通过高阶调制或DWDM实现。400G ZR相干光学技术有望取代传统WDM系统,更简洁,采用相干光模块。不同DCI场景选择不同产品,园区内部优先选择光缆+LR光模块,跨园区选择DWDM+ZR光模块。
- 市场空间:根据预测,2024 - 2028年,400G LR、400G ZR等多种光模块出货量和市场规模将增长,400G ZR产品价值量也将增长。
-
以下为报告节选内容