专题|微众银行构建全栈自主的AI智算网络
创始人
2025-06-30 11:21:28
0

文/微众银行基础科技产品部 杨俊杰 臧杰东 南斗玄 崔嘉伟

随着AI应用的深入,模型参数规模指数级增长,传统算力网络在带宽、时延和扩展性上的瓶颈日益凸显。为了进一步提升网络带宽容量和传输效率,有效缩短模型训练周期,更好地服务业务发展,微众银行面向金融行业的AI智算场景,基于自主可控交换芯片、开源操作系统,推出了金融行业首款自研交换机,并构建了软硬件全栈自主可控的AI智算网络解决方案。

目前,这款交换机已在微众银行生产运营环境正式投入使用,最高可满足单端口400G GPU/NPU算力卡的组网需求,建网成本较过往节省约70%,为微众银行迈向AI原生奠定重要基础。DeepSeek开源模型发布后,微众银行亦基于已建成的高性能AI智算网络解决方案,快速实现DeepSeek-R1-671B满血版推理模型的本地化部署。

挑战

1. AI分布式训练常遇“拦路虎”

在大规模训练中,多节点分布式训练技术是主流方案,且跨节点通信多采用成本效益高并易于扩展的无损以太网。

在以太网中,大规模部署高性能计算网络通常采用多级CLOS的架构来实现无阻塞的网络,其中网络中的交换机之间,通过等价多路径ECMP(Equal-Cost Multi-Path)实现流量的负载均衡。在网络流量为众多小流时,ECMP流量负载分担成效显著,但在高性能计算网络中,ECMP往往因流量的低熵特性而影响哈希处理效果,容易因多股大流挤压在同一条链路上而造成拥塞,无法满足金融业对高带宽、低时延、零丢包的严苛要求。因此,在基于以太网开展大规模AI分布式训练时,往往因多链路流量负载分担不均,而横生网络拥塞“拦路虎”。

2. 易被外部商用方案处处“卡脖子”

在数字化转型趋势和地缘政治叠加影响下,金融机构普遍存在核心技术自主可控并兼顾开放性特色的需求,希望能够兼容不同品牌和技术路线的软硬件,以增强供应链管理的安全与弹性。

就AI智算场景而言,硬件上采用适配金融业务的自主可控CPU、交换芯片,可削减复杂供应链的潜在隐患,为金融服务的稳定与安全提供保障;软件上采纳开源技术,根据业务特性定制化开发网络操作系统、高性能网络智能管控平台,金融机构能够训练出更加贴合业务需求的大模型。同时,随着业务模型的不断演进,自研软件在敏捷迭代方面优势显著,进而使得金融机构在优化服务流程、提高应对市场变化灵活性等方面更具竞争力。

然而,目前无论是硬件还是软件,在迭代优化上,更多的还是依赖外部商用单点优化解决方案,不仅成本高昂,还只能“头痛医头脚痛医脚”,处处被“卡脖子”。

破题

面对种种挑战,微众银行另辟蹊径,深度拆解自身业务发展需求,面向AI智算场景打造高性能AI智算网络解决方案。方案从硬件层的交换机到软件层的网络操作系统,再到秒级监控的智能管控,实现AI智算场景下的全栈自主可控,既保障金融供应链安全,又实现软硬件解耦与灵活组合配置,解决方案架构见图所示。

图 微众银行AI智算网络解决方案架构

1. 自研交换机

硬件方面,微众银行在金融行业开创性地使用12.8T交换芯片、信创CPU打造了型号为“WB3000”的专属交换机。该交换机基于单芯片与单协议栈架构,采用标准1U数据中心盒式设计,具备32个400G端口的接入能力,能够满足100G、200G及400G等多种型号GPU及NPU算力卡在无损以太网环境下的组网需求;支持数据中心各种标准路由协议;支持RDMA无损以太网的PFC、ECN等关键特性,并针对NCCL、HCCL等国内外主流厂商的集合通信库完成了测试与适配工作。

微众银行自研交换机

这一成果为微众银行自身面向AI智算场景的训练、推理提供了强有力的技术保障,在企业金融风控大模型的应用中,实测训练时长大幅缩短。DeepSeek开源模型发布后,该交换机迅速支撑微众银行完成DeepSeek-R1-671B满血版推理模型的本地化部署,不仅保证了模型的高效可用性,更确保了金融数据的安全性和合规性,为模型在实际业务中的稳定运行奠定了坚实基础。同时,对行业而言,该交换机也为同业在AI算力卡的选型方面拓展了更多可能性,有助于推动金融行业在AI算力网络建设领域的进一步发展与优化。

2. 自研网络操作系统

软件方面,微众银行基于开源SONiC(Software for Open Networking in The Cloud,即“云中开放网络软件”)深度自研,打造金融行业高性能、高可靠、智能化的网络操作系统。

针对大模型分布式训练时的流量模型,微众银行结合信创交换芯片SAI接口提供的确定性Hash能力,在网络操作系统层面,创新开发了适应不同组网架构、可自定义的链路级负载分担组件Link-SLB,解决大规模部署无损以太网时因ECMP不均引起Hash冲突而导致的网络拥塞难题,并适配了各算力卡机间的跨集群组网。

该组件的关键特性:一是确定性Hash能力,通过流量Hash路径的预配置,低熵大流量能够按规划进行无冲突地转发,对比传统五元组Hash方式,实测集合通信算法带宽可提升近40%。二是差异化分层策略,针对CLOS架构的Spine/Leaf层级,差异化配置负载分担策略。三是毫秒级容灾切换,链路故障的场景下,毫秒级响应并将流量切换到预配置的备用链路上,快速恢复传统五元组Hash的能力,能有效缩小故障影响范围和时长,保障训练任务持续稳定运行。

受益于开源,反哺回馈社区。在研发网络操作系统的过程中,积极将成果开源回馈SONiC社区,贡献了自主研发的ARP保活特性代码,助力改进SONiC系统处理部分网络协议的方式,提高了整个系统的运行效率。微众银行也因此成为全球首家上榜SONiC社区贡献组织名单(Contributing Organizations List)的金融机构。

3. 自研智能网络管控系统

日常AI训练过程中,如何快人一步发现网络拥塞并妥当处理更为重要。为此,微众银行自研针对高性能无损以太网的智能网络管控系统,为AI智算网络提供智能化调度的“全知视角”。

一是拥塞秒级感知,针对AI训练场景下网络拥塞调度的场景,智能网络管控系统的控制器通过采用Telemetry秒级采集方式,提供了颗粒度更小、敏感度更高的数值监控(如接口流量、PFC计数等),并且联动自研告警判定组件,实现设备性能指标、拥塞指标的快速感知与精准定位。二是最优路径调度,基于网络实时拓扑自动计算并调度至最优新路径,且同步对新路径进行容量评估,避免产生新拥塞。三是持续可视监控,拥塞调度全程数据可视,包括采集指标、交换机内部转发时延、IFA链路转发时延、sFlow流量分析、运营视图等,训练任务结束后,控制器对完成的调度策略自动回收,避免旧调度干扰新任务。

展望

十年风华,微众银行作为中国首家数字银行,始终坚持通过自主可控的科技创新,稳步推动金融服务迈向新的高度。面对人工智能技术蓬勃发展的历史性机遇,微众银行在AI智算场景下走出了一条软硬件全栈自主可控的道路,不仅为金融业AI算力网络建设提供了可复制经验,也是推动信创技术生态发展的有力支持。

未来,微众银行将持续深耕AI智算场景,基于自主可控25.6T和51.2T交换芯片,持续迭代更高性能的交换机及网络操作系统,以应对更大规模、更高带宽的AI智算网络需求。同时,微众银行也将进一步总结提炼在智能网络管控方面的经验,计划未来形成标准化公共组件向全球开源共享,为金融领域网络智慧运营和高性能网络运营提供思路启发,协力探讨更数智化的未来。

(此文刊发于《金融电子化》2025年4月上半月刊)

相关内容

热门资讯

小米汽车服务包2.0为何买不了... 6月30日消息,针对用户“买不了刚发布的新版小米汽车无忧服务包”疑问,小米汽车回应称,小米汽车无忧服...
我国工业互联网实现41个工业大... 信息互联,是供应链“提质升级”的关键引擎。目前,我国已建成全球技术领先、规模最大的信息通信网络,工业...
天津市精准医疗学会成立 央广网天津6月30日消息(记者褚夫晴)近日,天津市精准医疗学会正式成立,这是天津市首个精准医疗专业学...
智算云建设再提速,九章云极Da... 近日,由中国科学院《互联网周刊》、eNet研究院、德本咨询联合主办的2025(第七届)创新发展论坛成...
侯明昊仅仅客串三分钟,热度竟超... 娱乐天天聊 导读:在竞争激烈的影视市场中,一部新剧的成功往往需要多方面因素的协同作用。正在热播的《淮...
【七一特别策划】让党旗在互联网... 编者按: 在数字浪潮奔涌向前的时代,互联网企业已成为推动经济社会发展的重要力量,党建工作更是企业行稳...
苹果CarPlay Ultra... 2025年WWDC开发者大会上,苹果高调发布了CarPlay Ultra车载系统,宣称这一能够整合数...
马克・古尔曼:苹果可穿戴设备业... 6月30号消息,彭博社记者马克 ・古尔曼(Mark Gurman)表示苹果的可穿戴设备业务营收开始下...
杭企携AI智慧楼宇项目赴邕,考... 本文由中国国际新闻社记者郁仲报道。 近日,杭州星启灵境科技公司创始人林川一行赴南宁五象新区考察,南宁...
动态|蓝光真的真的到头了吗 2025年对于蓝光技术而言无疑是关键的一年,多项行业动态似乎预示着这一曾经辉煌的物理存储格式迈向尾声...