文/微众银行基础科技产品部 杨俊杰 臧杰东 南斗玄 崔嘉伟
随着AI应用的深入,模型参数规模指数级增长,传统算力网络在带宽、时延和扩展性上的瓶颈日益凸显。为了进一步提升网络带宽容量和传输效率,有效缩短模型训练周期,更好地服务业务发展,微众银行面向金融行业的AI智算场景,基于自主可控交换芯片、开源操作系统,推出了金融行业首款自研交换机,并构建了软硬件全栈自主可控的AI智算网络解决方案。
目前,这款交换机已在微众银行生产运营环境正式投入使用,最高可满足单端口400G GPU/NPU算力卡的组网需求,建网成本较过往节省约70%,为微众银行迈向AI原生奠定重要基础。DeepSeek开源模型发布后,微众银行亦基于已建成的高性能AI智算网络解决方案,快速实现DeepSeek-R1-671B满血版推理模型的本地化部署。
1. AI分布式训练常遇“拦路虎”
在大规模训练中,多节点分布式训练技术是主流方案,且跨节点通信多采用成本效益高并易于扩展的无损以太网。
在以太网中,大规模部署高性能计算网络通常采用多级CLOS的架构来实现无阻塞的网络,其中网络中的交换机之间,通过等价多路径ECMP(Equal-Cost Multi-Path)实现流量的负载均衡。在网络流量为众多小流时,ECMP流量负载分担成效显著,但在高性能计算网络中,ECMP往往因流量的低熵特性而影响哈希处理效果,容易因多股大流挤压在同一条链路上而造成拥塞,无法满足金融业对高带宽、低时延、零丢包的严苛要求。因此,在基于以太网开展大规模AI分布式训练时,往往因多链路流量负载分担不均,而横生网络拥塞“拦路虎”。
2. 易被外部商用方案处处“卡脖子”
在数字化转型趋势和地缘政治叠加影响下,金融机构普遍存在核心技术自主可控并兼顾开放性特色的需求,希望能够兼容不同品牌和技术路线的软硬件,以增强供应链管理的安全与弹性。
就AI智算场景而言,硬件上采用适配金融业务的自主可控CPU、交换芯片,可削减复杂供应链的潜在隐患,为金融服务的稳定与安全提供保障;软件上采纳开源技术,根据业务特性定制化开发网络操作系统、高性能网络智能管控平台,金融机构能够训练出更加贴合业务需求的大模型。同时,随着业务模型的不断演进,自研软件在敏捷迭代方面优势显著,进而使得金融机构在优化服务流程、提高应对市场变化灵活性等方面更具竞争力。
然而,目前无论是硬件还是软件,在迭代优化上,更多的还是依赖外部商用单点优化解决方案,不仅成本高昂,还只能“头痛医头脚痛医脚”,处处被“卡脖子”。
面对种种挑战,微众银行另辟蹊径,深度拆解自身业务发展需求,面向AI智算场景打造高性能AI智算网络解决方案。方案从硬件层的交换机到软件层的网络操作系统,再到秒级监控的智能管控,实现AI智算场景下的全栈自主可控,既保障金融供应链安全,又实现软硬件解耦与灵活组合配置,解决方案架构见图所示。
图 微众银行AI智算网络解决方案架构
1. 自研交换机
硬件方面,微众银行在金融行业开创性地使用12.8T交换芯片、信创CPU打造了型号为“WB3000”的专属交换机。该交换机基于单芯片与单协议栈架构,采用标准1U数据中心盒式设计,具备32个400G端口的接入能力,能够满足100G、200G及400G等多种型号GPU及NPU算力卡在无损以太网环境下的组网需求;支持数据中心各种标准路由协议;支持RDMA无损以太网的PFC、ECN等关键特性,并针对NCCL、HCCL等国内外主流厂商的集合通信库完成了测试与适配工作。
微众银行自研交换机
这一成果为微众银行自身面向AI智算场景的训练、推理提供了强有力的技术保障,在企业金融风控大模型的应用中,实测训练时长大幅缩短。DeepSeek开源模型发布后,该交换机迅速支撑微众银行完成DeepSeek-R1-671B满血版推理模型的本地化部署,不仅保证了模型的高效可用性,更确保了金融数据的安全性和合规性,为模型在实际业务中的稳定运行奠定了坚实基础。同时,对行业而言,该交换机也为同业在AI算力卡的选型方面拓展了更多可能性,有助于推动金融行业在AI算力网络建设领域的进一步发展与优化。
2. 自研网络操作系统
软件方面,微众银行基于开源SONiC(Software for Open Networking in The Cloud,即“云中开放网络软件”)深度自研,打造金融行业高性能、高可靠、智能化的网络操作系统。
针对大模型分布式训练时的流量模型,微众银行结合信创交换芯片SAI接口提供的确定性Hash能力,在网络操作系统层面,创新开发了适应不同组网架构、可自定义的链路级负载分担组件Link-SLB,解决大规模部署无损以太网时因ECMP不均引起Hash冲突而导致的网络拥塞难题,并适配了各算力卡机间的跨集群组网。
该组件的关键特性:一是确定性Hash能力,通过流量Hash路径的预配置,低熵大流量能够按规划进行无冲突地转发,对比传统五元组Hash方式,实测集合通信算法带宽可提升近40%。二是差异化分层策略,针对CLOS架构的Spine/Leaf层级,差异化配置负载分担策略。三是毫秒级容灾切换,链路故障的场景下,毫秒级响应并将流量切换到预配置的备用链路上,快速恢复传统五元组Hash的能力,能有效缩小故障影响范围和时长,保障训练任务持续稳定运行。
受益于开源,反哺回馈社区。在研发网络操作系统的过程中,积极将成果开源回馈SONiC社区,贡献了自主研发的ARP保活特性代码,助力改进SONiC系统处理部分网络协议的方式,提高了整个系统的运行效率。微众银行也因此成为全球首家上榜SONiC社区贡献组织名单(Contributing Organizations List)的金融机构。
3. 自研智能网络管控系统
日常AI训练过程中,如何快人一步发现网络拥塞并妥当处理更为重要。为此,微众银行自研针对高性能无损以太网的智能网络管控系统,为AI智算网络提供智能化调度的“全知视角”。
一是拥塞秒级感知,针对AI训练场景下网络拥塞调度的场景,智能网络管控系统的控制器通过采用Telemetry秒级采集方式,提供了颗粒度更小、敏感度更高的数值监控(如接口流量、PFC计数等),并且联动自研告警判定组件,实现设备性能指标、拥塞指标的快速感知与精准定位。二是最优路径调度,基于网络实时拓扑自动计算并调度至最优新路径,且同步对新路径进行容量评估,避免产生新拥塞。三是持续可视监控,拥塞调度全程数据可视,包括采集指标、交换机内部转发时延、IFA链路转发时延、sFlow流量分析、运营视图等,训练任务结束后,控制器对完成的调度策略自动回收,避免旧调度干扰新任务。
十年风华,微众银行作为中国首家数字银行,始终坚持通过自主可控的科技创新,稳步推动金融服务迈向新的高度。面对人工智能技术蓬勃发展的历史性机遇,微众银行在AI智算场景下走出了一条软硬件全栈自主可控的道路,不仅为金融业AI算力网络建设提供了可复制经验,也是推动信创技术生态发展的有力支持。
未来,微众银行将持续深耕AI智算场景,基于自主可控25.6T和51.2T交换芯片,持续迭代更高性能的交换机及网络操作系统,以应对更大规模、更高带宽的AI智算网络需求。同时,微众银行也将进一步总结提炼在智能网络管控方面的经验,计划未来形成标准化公共组件向全球开源共享,为金融领域网络智慧运营和高性能网络运营提供思路启发,协力探讨更数智化的未来。
(此文刊发于《金融电子化》2025年4月上半月刊)
上一篇:为何瘦子也有脂肪肝?
下一篇:无机房电梯门机系统类型介绍