原创 中国电信刘昊:算网协同,开放光网络助力智算中心高质量发展
创始人
2024-05-25 03:41:23
0

C114讯 5月23日消息(水易)今日,CIOE中国光博会与C114通信网联合举办“2024中国光通信高质量发展论坛”第四场研讨会——“AI时代:数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家,深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

中国电信研究院高级工程师刘昊表示,AI大模型的出现,驱动新型算力基础设施建设不断发展,传统数据中心加速向智算中心转型,对网络的规模、时延、带宽和可靠性等方面提出新的发展需求与挑战。

数据显示,截至2023年底,我国智能算力规模突破230EFLOPS,全面超过通用算力,并且差距逐渐拉开。中国电信积极响应国家政策,在全国范围内部署智算中心集群,推动智算中心高质量发展。

智算中心内部光互连

中国电信集团科技委主任韦乐平曾表示,以ChatGPT为代表的AI大模型近中期主要影响DCN网络。DCN顾名思义就是数据中心内部网络,智算中心内部网络也包括其中,AI大模型训练需要DCN具备大规模、高带宽、低时延、零丢包等能力。

刘昊介绍,AI大模型训练参数已达到千亿-万亿的级别,需要千/万卡GPU集群来满足计算任务,大规模组网成为刚需。同时,GPU网卡之间需要传输大量参数、梯度信息,高带宽传输能力不可或缺。对于实时性要求高的应用,难以预测的动态时延会对网络性能造成严重影响,需重点关注时延和抖动指标。更为重要的是,千分之一的丢包率,将导致AI算力下降50%。因此需要构建无损数据中心网络。

目前智算中心大规模组网主要有IB和RoCE两种方案。对于IB组网,英伟达能够提供从GPU到服务器到交换机的全家桶式一体化解决方案,但成本高。RoCE基于以太网RDMA技术,目前已发展到第二代,可以复用现有的以太网设备,成本低,备受青睐。

对于智算中心网络的高带宽需求,直接反映在光模块的应用上。随着交换芯片容量来到51.2T,800G光模块开始崭露头角。面对光模块大规模部署应用,成本和功耗问题日益显著,打造绿色、低碳的智算中心势在必行。

为了改善千卡/万卡集群算力消耗的功耗和时延,LPO/LRO新型光模块备受关注。刘昊介绍,目前产业正加快标准化进程,今年3月,12家单位成立LPO-MSA联盟,旨在定义LPO系列标准,不过能否实现规模化应用有待时间检验。

想要进一步降低设备的处理和转发时延,基于SDN的光路交换技术(OCS)来到聚光灯下,为智算提供一种新型组网方案。目前谷歌和英伟达都有相应方案,器件方面Lumentum、光迅都称有相应产品。不过,是否能充分发挥其自身优势取决于应用方式,控制器需要升级以满足无损应用。

智算中心之间光互连

AI大模型的持续火热,对算力的需求持续攀升,超大规模智算中心资源日渐稀缺,跨区域算力协同成为算力资源的重要补充。

刘昊介绍,以中国电信为例,目前已经在全国范围内部署众多智算中心,同时大量中小型智算中心算力不足,考虑到合理利用,通过对跨区域中小型智算中心进行组网,实现远距离算力协同调度。

对于智算中心拉远需求,WDM/OTN是不二之选,其大带宽、低时延、强保护等特性,能够为智算提供稳定的传输管道。刘昊表示,不同于在同一智算中心执行训练任务,智算中心拉远面临一系列挑战,包括传输时延对模型训练的效率影响,远距离通信如何做到无损传输,传输设备引入的建设成本,不同类型设备之间能否解耦。

在刘昊看来,拉远场景下开放的智算光网络系统有助于提高模型训练效率,短期方案是信息实时共享,这需要制定协议,如传输侧感知无损业务类型、带宽、VLAN等,IP侧感知时延、带宽等;终极目标是控制器管理所有设备,需要跨专业协同,难度大。整体来看,DCI场景下跨域设备管控方案建议标准先行。

据了解,在开放解耦的道路上,中国电信具备一定的经验积累。中国电信的DCI-BOX盒式波分设备经过两期发展迭代,具备城域内组网能力,支持10G-100G业务接入能力,单波200G/400G,具备光层组网能力,可覆盖满足大带宽数据中心互联、城域波分组网场景。

对于DCI-BOX能否继续在智算场景发挥价值?刘昊认为,盒式波分设备支持城域组网,具备向800G演进的水平,其开放解耦的特征能够支撑智算拉远场景应用。

刘昊介绍,近期中国电信北京公司在现网完成城域三节点无损智算网络部署,采用800G组网方案,分布式训练性能达到集中式单智算中心训练性能的90%以上,证实了分布式无损智算网技术方向的可行性。后续,中国电信将在此基础上进一步验证更高速率组网方案,以及尝试采用空芯光纤降低传输时延,验证其对运算效率提升的影响。

相关内容

热门资讯

6G来了,你的手机卡准备好了吗... 你有没有想过,你现在用的手机卡,5年后还能用吗? 2025年,全球多个国家已经开始了6G的商用测试...
SpaceX的上市愿景,系于星... 来源:环球市场播报 马斯克想要将人类送上火星,并推动SpaceX完成史上规模最大的首次公开募股,而这...
【工业强县 企业巡礼】浙南智造... 工业强县·企业巡礼 浙南智造:数智破局 抢占精密制造新赛道 乘势而上 智改增效 笃行实干 工业强县·...
苹果音乐怎么在安卓播?几款靠谱... M4A 作为苹果生态中广泛使用的音频格式,以其优秀的音质和压缩率备受青睐。然而,当我们将这些音乐文件...
商业航天板块今日回调,卫星ET... 截至收盘,中证卫星产业指数下跌3.2%,国证通用航空产业指数下跌1.4%。同花顺iFinD数据显示,...
激流:中国科技投资的势能与锚点... 8月,中国科技产业投资大会要来了。 进入2026年,中国科技投资的市场体感正在发生变化。 资金活跃度...
原创 刚... 刚传喜讯转头就被封杀,宇树科技这48小时的剧情,比好莱坞剧本还跌宕。一边是黄仁勋亲自在台上给H2 P...
科大讯飞刘庆峰:AI竞争是持久... 封面新闻记者 欧阳宏宇 底座模型怎么看?行业机遇怎么抓?如何用AI提升组织竞争力? “如果只是做一个...
儿童手表应该做减法了 文|老鱼儿 编辑|杨旭然 2026年行将过半。对于中国的儿童手表厂商来说,一个重要的日期也日益临近:...
原创 假... 雷达财经出品 文|周慧 编|孟帅 假烟风波的余温尚未散去,“便利店之王”美宜佳又因过期食品“翻车”。...