百度智能云宣布将点亮昆仑芯三代三万卡集群
创始人
2025-02-05 22:41:08
0

据介绍,万卡集群的建成不仅为百度带来了算力支持,还推动了模型降本的趋势。

在过去一年中,整个行业都在努力降低大模型的使用成本,而算力紧张是导致成本居高不下的重要因素之一。百度称,通过自研芯片和大规模集群的建设,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。

从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。

此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。

随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。

过去,多芯混训和激增的故障率等难题,成为万卡集群部署过程中的巨大挑战。而24年9月升级的百度百舸AI异构计算平台4.0(简称“百舸平台”),在万卡集群的建设中发挥了至关重要的作用。

首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;

完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。

百舸4.0构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域通信。在通信效率上,百舸通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞,并通过10ms级别超高精度网络监控,保障了网络的稳定性。

在多芯混训方面,百舸展现了强大的资源整合能力。它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,百舸可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。

此外,在集群稳定性方面,百舸提供了全面的故障诊断手段,能快速自动侦测到导致训练任务异常的节点故障。百度自研的BCCL(百度集合通信库)能够快速定位故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级,提高了集群的可靠性和可用性。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。

相关内容

热门资讯

原创 2... 2025年养老金的调整通知,为何迟迟不公布呢?因为时间已经来到了6月下旬,其实这个时间段在过去的历史...
点赞!山西首个工业领域AI大模... 近日,从省网信办获悉,山西数据流量谷入驻企业 ——凹凸时空智能科技有限公司自研的 “超脑工业垂类大模...
权威快报|59万千米外!天问二... 7月1日,国家航天局发布行星探测工程天问二号探测器在轨获取的地月影像图。目前,天问二号探测器已在轨运...
什么鬼?一个日本人要在美国,造... 图片 | 来自网络 原创整理 | TOP创新区研究院,FTA Group 转载引用请注明出处。内容仅...
钢亿源取得三节旗杆螺旋拼装接头... 金融界2025年7月1日消息,国家知识产权局信息显示,佛山市钢亿源金属有限公司取得一项名为“三节旗杆...
现在,我终于知道这个PV为何让... 果然,击败米哈游的永远是未来的米哈游。 前几天《崩坏:星穹铁道》(简称《星铁》)的千星纪游PV发布后...
武科大师生团队破解输氢管道“氢... 近日从武汉科技大学获悉,该校材料学部师生团队研发“夹杂物功能化设计与精准构筑关键技术”,成功攻克输氢...
广州海珠 为何能新潮澎湃? 海珠正用行动为广州城市精神注入新的内涵。 梁志远 摄 今年3月,广东实施“百万英才汇南粤”行动计划...
分布式机器学习的五大流行框架 使用这些框架可以优化内存和计算资源,扩展你的机器学习工作流程,加快流程速度并降低总体成本。 分布式...
双座歼20模型亮相中国航展 11月10日消息,第十五届中国航展即将开幕。在航空工业展馆,一架双座歼-20的1比5模型出现在展台上...