专题｜微众银行构建全栈自主的AI智算网络

创始人

2025-06-30 11:21:28

0次

文/微众银行基础科技产品部杨俊杰臧杰东南斗玄崔嘉伟

随着AI应用的深入，模型参数规模指数级增长，传统算力网络在带宽、时延和扩展性上的瓶颈日益凸显。为了进一步提升网络带宽容量和传输效率，有效缩短模型训练周期，更好地服务业务发展，微众银行面向金融行业的AI智算场景，基于自主可控交换芯片、开源操作系统，推出了金融行业首款自研交换机，并构建了软硬件全栈自主可控的AI智算网络解决方案。

目前，这款交换机已在微众银行生产运营环境正式投入使用，最高可满足单端口400G GPU/NPU算力卡的组网需求，建网成本较过往节省约70%，为微众银行迈向AI原生奠定重要基础。DeepSeek开源模型发布后，微众银行亦基于已建成的高性能AI智算网络解决方案，快速实现DeepSeek-R1-671B满血版推理模型的本地化部署。

挑战

1. AI分布式训练常遇“拦路虎”

在大规模训练中，多节点分布式训练技术是主流方案，且跨节点通信多采用成本效益高并易于扩展的无损以太网。

在以太网中，大规模部署高性能计算网络通常采用多级CLOS的架构来实现无阻塞的网络，其中网络中的交换机之间，通过等价多路径ECMP（Equal-Cost Multi-Path）实现流量的负载均衡。在网络流量为众多小流时，ECMP流量负载分担成效显著，但在高性能计算网络中，ECMP往往因流量的低熵特性而影响哈希处理效果，容易因多股大流挤压在同一条链路上而造成拥塞，无法满足金融业对高带宽、低时延、零丢包的严苛要求。因此，在基于以太网开展大规模AI分布式训练时，往往因多链路流量负载分担不均，而横生网络拥塞“拦路虎”。

2. 易被外部商用方案处处“卡脖子”

在数字化转型趋势和地缘政治叠加影响下，金融机构普遍存在核心技术自主可控并兼顾开放性特色的需求，希望能够兼容不同品牌和技术路线的软硬件，以增强供应链管理的安全与弹性。

就AI智算场景而言，硬件上采用适配金融业务的自主可控CPU、交换芯片，可削减复杂供应链的潜在隐患，为金融服务的稳定与安全提供保障；软件上采纳开源技术，根据业务特性定制化开发网络操作系统、高性能网络智能管控平台，金融机构能够训练出更加贴合业务需求的大模型。同时，随着业务模型的不断演进，自研软件在敏捷迭代方面优势显著，进而使得金融机构在优化服务流程、提高应对市场变化灵活性等方面更具竞争力。

然而，目前无论是硬件还是软件，在迭代优化上，更多的还是依赖外部商用单点优化解决方案，不仅成本高昂，还只能“头痛医头脚痛医脚”，处处被“卡脖子”。

破题

面对种种挑战，微众银行另辟蹊径，深度拆解自身业务发展需求，面向AI智算场景打造高性能AI智算网络解决方案。方案从硬件层的交换机到软件层的网络操作系统，再到秒级监控的智能管控，实现AI智算场景下的全栈自主可控，既保障金融供应链安全，又实现软硬件解耦与灵活组合配置，解决方案架构见图所示。

图微众银行AI智算网络解决方案架构

1. 自研交换机

硬件方面，微众银行在金融行业开创性地使用12.8T交换芯片、信创CPU打造了型号为“WB3000”的专属交换机。该交换机基于单芯片与单协议栈架构，采用标准1U数据中心盒式设计，具备32个400G端口的接入能力，能够满足100G、200G及400G等多种型号GPU及NPU算力卡在无损以太网环境下的组网需求；支持数据中心各种标准路由协议；支持RDMA无损以太网的PFC、ECN等关键特性，并针对NCCL、HCCL等国内外主流厂商的集合通信库完成了测试与适配工作。

微众银行自研交换机

这一成果为微众银行自身面向AI智算场景的训练、推理提供了强有力的技术保障，在企业金融风控大模型的应用中，实测训练时长大幅缩短。DeepSeek开源模型发布后，该交换机迅速支撑微众银行完成DeepSeek-R1-671B满血版推理模型的本地化部署，不仅保证了模型的高效可用性，更确保了金融数据的安全性和合规性，为模型在实际业务中的稳定运行奠定了坚实基础。同时，对行业而言，该交换机也为同业在AI算力卡的选型方面拓展了更多可能性，有助于推动金融行业在AI算力网络建设领域的进一步发展与优化。

2. 自研网络操作系统

软件方面，微众银行基于开源SONiC（Software for Open Networking in The Cloud，即“云中开放网络软件”）深度自研，打造金融行业高性能、高可靠、智能化的网络操作系统。

针对大模型分布式训练时的流量模型，微众银行结合信创交换芯片SAI接口提供的确定性Hash能力，在网络操作系统层面，创新开发了适应不同组网架构、可自定义的链路级负载分担组件Link-SLB，解决大规模部署无损以太网时因ECMP不均引起Hash冲突而导致的网络拥塞难题，并适配了各算力卡机间的跨集群组网。

该组件的关键特性：一是确定性Hash能力，通过流量Hash路径的预配置，低熵大流量能够按规划进行无冲突地转发，对比传统五元组Hash方式，实测集合通信算法带宽可提升近40%。二是差异化分层策略，针对CLOS架构的Spine/Leaf层级，差异化配置负载分担策略。三是毫秒级容灾切换，链路故障的场景下，毫秒级响应并将流量切换到预配置的备用链路上，快速恢复传统五元组Hash的能力，能有效缩小故障影响范围和时长，保障训练任务持续稳定运行。

受益于开源，反哺回馈社区。在研发网络操作系统的过程中，积极将成果开源回馈SONiC社区，贡献了自主研发的ARP保活特性代码，助力改进SONiC系统处理部分网络协议的方式，提高了整个系统的运行效率。微众银行也因此成为全球首家上榜SONiC社区贡献组织名单（Contributing Organizations List）的金融机构。

3. 自研智能网络管控系统

日常AI训练过程中，如何快人一步发现网络拥塞并妥当处理更为重要。为此，微众银行自研针对高性能无损以太网的智能网络管控系统，为AI智算网络提供智能化调度的“全知视角”。

一是拥塞秒级感知，针对AI训练场景下网络拥塞调度的场景，智能网络管控系统的控制器通过采用Telemetry秒级采集方式，提供了颗粒度更小、敏感度更高的数值监控（如接口流量、PFC计数等），并且联动自研告警判定组件，实现设备性能指标、拥塞指标的快速感知与精准定位。二是最优路径调度，基于网络实时拓扑自动计算并调度至最优新路径，且同步对新路径进行容量评估，避免产生新拥塞。三是持续可视监控，拥塞调度全程数据可视，包括采集指标、交换机内部转发时延、IFA链路转发时延、sFlow流量分析、运营视图等，训练任务结束后，控制器对完成的调度策略自动回收，避免旧调度干扰新任务。

展望

十年风华，微众银行作为中国首家数字银行，始终坚持通过自主可控的科技创新，稳步推动金融服务迈向新的高度。面对人工智能技术蓬勃发展的历史性机遇，微众银行在AI智算场景下走出了一条软硬件全栈自主可控的道路，不仅为金融业AI算力网络建设提供了可复制经验，也是推动信创技术生态发展的有力支持。

未来，微众银行将持续深耕AI智算场景，基于自主可控25.6T和51.2T交换芯片，持续迭代更高性能的交换机及网络操作系统，以应对更大规模、更高带宽的AI智算网络需求。同时，微众银行也将进一步总结提炼在智能网络管控方面的经验，计划未来形成标准化公共组件向全球开源共享，为金融领域网络智慧运营和高性能网络运营提供思路启发，协力探讨更数智化的未来。

（此文刊发于《金融电子化》2025年4月上半月刊）

上一篇：为何瘦子也有脂肪肝？

下一篇：无机房电梯门机系统类型介绍

专题｜微众银行构建全栈自主的AI智算网络

挑战

破题

展望

相关内容

热门资讯