腾讯发布星脉网络2.0 让AI大模型训练效率提升20%
创始人
2024-07-01 17:00:30
0

7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。

AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。

使用该网络,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来需要花50天训练的模型,只需要花40天。

为何可以提升效率?腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯核心技术。

硬件方面,腾讯星脉网络是业界首个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。

值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内首款为AI训练设计的网卡,网卡采用最新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa,并搭载了腾讯独有的主动拥塞控制算法。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。

运营系统2.0新增腾讯独家技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。

据介绍,目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

文/北京青年报记者 温婧

编辑/田野

相关内容

热门资讯

国家铁路局组织开展今冬明春安全... 12月10日消息,据“国家铁路局”微信公众号消息,国家铁路局组织铁路行业开展今冬明春安全生产和自然灾...
中央宣传部原副部长张建春严重违... 12月10日消息,中央宣传部原副部长张建春被开除党籍和公职;其涉嫌犯罪问题被移送检察机关依法审查起诉...
港股收评:恒指跌0.5%,内房... 12月10日消息,港股两大指数高开后持续走低,截至收盘,恒生指数跌0.5%;恒生科技指数跌1.39%...
透视辅助!哈糖大菠萝挂法,we... wepoker好友房开挂是一款专注玩家量身打造的游戏记牌类型软件,在wepoker好友房开挂这款游戏...
必看透视"wpk插件... wepoker怎么提高运气是一款专注玩家量身打造的游戏记牌类型软件,在wepoker怎么提高运气这款...
透视智能ai“购买的wpk辅助... 透视智能ai“购买的wpk辅助在哪里下载”开挂(透视)辅助脚本(AI教程有挂辅助);无需打开直接搜索...
细节开挂"wepok... 大家好,今天小编来为大家解答wpk辅助最怕三个东西这个问题咨询软件客服可以免费测试直接加微信(136...
透视辅助!wpk私人局辅助是真... 透视辅助!wpk私人局辅助是真的吗,菠萝德普辅助器免费版在哪里,推荐开挂辅助工具(透视有挂解惑)您好...
透视总结“wpk真的有透视嘛”... 开挂教程视频分享装挂详细步骤在当今的网络游戏中,作为一种经典的娱乐方式,吸引了无数玩家的参与。尤其是...
科技透视"wepok... 科技透视"wepoker线上大神"云扑克有透视吗(透视)开挂辅助工具(有挂方法);无需打开直接搜索加...