新智元报道
编辑:犀牛 定慧
【新智元导读】DeepSeek最新论文深入剖析了V3/R1的开发历程,揭示了硬件与大语言模型架构协同设计的核心奥秘。论文展示了如何突破内存、计算和通信瓶颈,实现低成本、高效率的大规模AI训练与推理。不仅总结了实践经验,还为未来AI硬件与模型协同设计提出了建议。
刚刚,DeepSeek再爆新论文!
论文并没有重复DeepSeek-V3的详细架构和算法细节。相反,它从硬件架构和模型设计双重视角出发,探讨两者如何相互配合,以实现低成本的大规模训练和推理。
具体来说,论文聚焦以下内容:
硬件驱动的模型设计:分析硬件特性(如FP8低精度计算和纵向/横向扩展网络属性)如何影响DeepSeek-V3的架构选择。
硬件与模型的相互依赖:研究硬件能力如何推动模型创新,以及LLMs不断增长的需求如何驱动下一代硬件的发展。
未来硬件发展方向:从DeepSeek-V3中提炼出实用见解,指导未来硬件与模型架构的协同设计,为可扩展、成本效益高的AI系统铺平道路。
论文地址:https://www.arxiv.org/pdf/2505.09343
近年来,随着大语言模型(LLMs)的快速发展,暴露了当前许多硬件方面的挑战,包括内存容量、计算效率和互联带宽的瓶颈。
DeepSeek-V3使用2048个NVIDIA H800 GPU进行训练,展示了硬件与模型协同设计可以有效应对这些挑战,实现大规模的高效训练和推理。
文章深入分析了DeepSeek-V3/R1模型架构及其AI基础设施,介绍了其中的关键创新,例如:
多头潜注意力机制(MLA),提升内存效率;
混合专家(MoE)架构,优化计算与通信的平衡;
FP8混合精度训练,充分发挥硬件性能;
多平面网络拓扑,减少集群级网络开销。
基于DeepSeek-V3开发中遇到的硬件瓶颈,研究团队与学术界和工业界的同行展开了更广泛的讨论,这些方向包括精确的低精度计算单元、纵向扩展与横向扩展的融合,以及低延迟通信网络/架构的创新。
这些交流表明,硬件与模型的协同设计在应对AI工作负载不断增长的需求中至关重要。
DeepSeek特别证明了有效的软硬件协同设计可以使大模型的高效训练成为可能,为小团队创造了公平的竞争环境。
DeepSeek模型的设计原则
DeepSeek-V3的开发体现了硬件导向的LLM设计理念,每项设计决策都紧密结合硬件限制,以优化性能和成本效率。
如图1所示,DeepSeek-V3采用了在DeepSeek-V2中验证有效的DeepSeek-MoE(混合专家架构)和多头潜在注意力(MLA)架构。
DeepSeek-MoE充分发挥了MoE架构的潜力,而MLA则通过压缩键值(KV)缓存大幅降低了内存占用。
此外,DeepSeek-V3引入了FP8混合精度训练,显著降低计算成本,使大规模训练更具实用性,同时不影响模型质量。
为了提升推理速度,DeepSeek-V3集成了基于多标记预测模块的推测解码技术,大幅提高了生成速度。
在模型架构之外,团队还通过部署双层多平面Fat-Tree网络替换传统的三层Fat-Tree拓扑,探索了成本效益高的人工智能基础设施,降低了集群网络成本。
这些创新旨在解决扩展LLM的三大核心挑战:内存效率、成本效益和推理速度。
FP8混合精度训练
GPTQ、AWQ之类的量化技术已经广泛用于将模型的位宽降低到8位、4位甚至更低,大幅减少内存需求。
不过,这些技术主要用在推理阶段来省内存,而不是训练阶段。
NVIDIA的Transformer Engine早就支持FP8混合精度训练,但在DeepSeek-V3之前,还没有开源的大型模型在训练中用上FP8。
研究团队通过基础设施和算法团队的深度合作,经过大量实验和创新,开发了一个适用于MoE模型的FP8训练框架。
图1展示了训练流程中用到FP8精度的前向和反向计算部分。
采用细粒度量化策略:激活以1 × 128的tile为单位进行量化,模型权重以128 × 128的block为单位进行量化。
虽然FP8在加速训练方面潜力巨大,但硬件上还有几个问题需要解决,才能充分发挥它的能力:
FP8累积精度问题:在NVIDIA Hopper GPU的Tensor Core中,FP8的累积精度受限,影响了训练大模型的稳定性。具体来说,32个尾数相乘后,会根据最大指数右移对齐,Tensor Core只保留最高的13位小数进行加法,超出范围的位直接截断。
精细量化挑战:tile-wise和block-wise 量化方式在Tensor Core到CUDA Core传输部分结果时,会带来较大的反量化开销。这导致频繁的数据移动,降低计算效率,也让硬件利用更复杂。
为了解决现有硬件的局限性,研究团队对未来的设计提出以下建议:
提高累积精度:硬件应该将累积寄存器的精度提升到合适的值(比如FP32),或者支持可配置的累积精度。这样可以根据不同模型在训练和推理中的需求,灵活平衡性能和精度。
原生支持精细量化:硬件应直接支持精细量化,让Tensor Core能接收缩放因子并实现分组缩放的矩阵乘法。这样,部分和的累积及反量化可以在Tensor Core内部直接完成,直到输出最终结果,避免频繁数据移动,降低反量化开销。NVIDIA Blackwell支持的微缩放数据格式就是一个很好的工业实践,展现了原生量化的实际好处。
LogFMT:通信压缩
在当前的DeepSeek-V3架构中,研究团队采用了低精度压缩技术来优化网络通信。
在专家并行(EP)过程中,他们使用精细的FP8量化来分发token,相比BF16格式,通信数据量减少了50%,显著缩短了通信时间。
不过,由于精度要求,合并阶段目前仍使用较高精度的BF16格式。团队正在积极测试FP8、定制精度格式(比如E5M6)以及FP8和BF16的混合方案,以进一步减少通信量。
除了传统的浮点数格式,他们还尝试了一种全新的数据类型,称为对数浮点格式(LogFMT-nBit),其中n表示位数,最高位为符号位S。
通过将激活值从线性空间映射到对数空间,激活值的分布更加均匀。
由于GPU的对数/指数运算带宽不足,且编码/解码过程对寄存器的压力较大,如果将编码/解码与全对全通信融合,额外开销可能高达 50%~100%。因此,尽管实验验证了该格式的有效性,团队最终未采用它。
为FP8或定制精度格式提供原生的压缩/解压缩单元支持,是未来硬件的一个可行方向。这能有效降低带宽需求,优化通信流程。减少的通信开销在带宽密集型任务(如MoE训练)中尤其有益。
硬件的互联驱动设计
DeepSeek-V3采用了NVIDIA H800 GPU SXM架构,该架构基于英伟达的Hopper架构。
但为了监管的要求,在FP64计算性能和NVLink带宽方面有所缩减(从900GB/s降至400GB/s)。
为弥补节点内带宽的不足,每个节点配备了八个400G InfiniBand (IB) CX7网络接口卡,以增强跨节点(scale-out)通信能力。
针对这些硬件限制,DeepSeek-V3模型在设计上做了多项协同优化。
硬件相互感知的并行策略
训练阶段避免张量并行(Tensor Parallelism,TP),因为在受限的NVLink带宽下TP效率低下;推理阶段可选择性地使用TP以降低延迟。
增强的流水并行(Enhanced Pipeline Parallelism,PP):采用DualPipe管线并行,将注意力和MoE的计算与通信重叠,减少流水线气泡并平衡显存使用,提升总体吞吐 。
加速专家并行(Expert Parallelism,EP):利用节点上8个400Gbps IB NIC实现高速全互联通信(>40GB/s),并开源了DeepEP实现,以高效支持MoE训练。
这些策略充分考虑硬件瓶颈,有效提升了训练效率。
节点限制路由(Node-Limited Routing)
由于H800平台内外网带宽约为4:1(NVLink≈160GB/s vs. 单个400Gbps IB≈40GB/s),DeepSeek-V3在模型设计中加入了「节点受限」路由策略 。
H800架构中,节点内(NVLink)和节点间(IB)的带宽差异约为4:1。
NVLink实际可达到约160GB/s的带宽,而每个400Gbps IB NIC的有效带宽约为40GB/s。
为了平衡并充分利用较高的节点内带宽,DeepSeek-V3在TopK专家选择策略上进行了硬件协同设计。
具体而言,DeepSeek-V3引入了节点限制路由 (Node-Limited Routing)策略。
例如,在8个节点(共64个GPU)和256个路由专家(每个GPU 4个专家)的配置下,每个Token被路由到一个共享专家和8个路由专家。
如果这8个目标专家分布在所有8个节点上,通过IB的通信时间将是8t(t为通过IB发送一个Token的时间)。
通过利用更高的NVLink带宽,路由到同一节点的Token可以通过IB发送一次,然后在节点内通过NVLink转发给其他GPU,从而实现IB流量的去重。
当一个Token的目标专家分布在M个节点时,去重后的IB通信成本降至Mt (M<8) 。
DeepSeek-V3将256个路由专家分为8组,每组32个专家,并将每组部署在单个节点上。
在此基础上,通过算法确保每个Token最多路由到4个节点,从而减轻IB通信瓶颈,提高训练过程中的有效通信带宽。
纵向扩展与横向扩展的融合
研究团队在硬件设计的基础上,在编程框架层面也提出了一些建议:
统一网络适配器:设计连接到统一纵向和横向扩展网络的NIC或I/O Die,并支持基本交换功能,如将数据包从横向扩展网络转发到纵向扩展网络内的特定GPU。
专用通信协处理器:引入专用协处理器或可编程组件(如I/O die)处理网络流量,从GPU SM卸载数据包处理,并包含硬件加速的内存复制功能。
灵活的转发、广播和归约机制:硬件应支持跨纵向和横向扩展网络的灵活转发、广播操作(用于EP分发)和归约操作(用于EP合并),以提高有效带宽并降低网络特定操作的计算复杂度。
硬件同步原语(Hardware Synchronization Primitives):提供细粒度的硬件同步指令,以在硬件层面处理内存一致性问题或乱序数据包到达,消除基于软件的同步机制(如RDMA完成事件)引入的额外延迟和编程复杂性。
未来的硬件设计将能够显著提升大规模分布式AI系统的效率。
大规模网络驱动设计
DeepSeek-V3构建了一个多平面Fat-Tree (Multi-Plane Fat-Tree, MPFT)拓扑来支撑大规模训练。
如图3所示,每个节点有8块GPU和8个IB NIC,每对GPU–NIC连接到一个独立的网络平面。
节点间交换机选用64端口400G IB交换机,该拓扑理论上支持多达16,384块GPU(共2048节点)。
在MPFT架构下,假设理想情况下每个NIC具有多个物理端口分别连向各平面,并在逻辑层面做链路捆绑,则一个队列对可以跨平面并行发送/接收数据包,这要求网卡本身必须原生支持乱序放置(out-of-order placement)功能。
成本与拓扑对比,从成本角度看,MPFT的两层拓扑支持超过1万节点,网络成本显著低于三层Fat-Tree。
表3给出了各拓扑的成本对比:两层FT和多平面FT成本约为4.39$/端点,略低于 Slim Fly (4.4$/端点),远低于三层FT (7.5k$/端点) 及 Dragonfly (5.8k$/端点) 。
也就是说,MPFT在成本效率上与三层FT、Slim Fly和Dragonfly相比具有明显优势。
此外,多平面设计天然实现流量隔离:各平面独立运行,一个平面拥塞或故障不会影响其他平面。
为了验证多平面网络设计的有效性,DeepSeek在集群上进行了真实环境下的实验,通过修改集群的网络拓扑,对比了多平面两层Fat-Tree(MPFT)与单平面多轨Fat-Tree(MRFT)的性能表现。
全互联通信与EP场景下,如图5所示,多平面网络的全互联通信性能与单平面多轨网络非常接近。
这种性能上的一致性主要得益于NCCL的PXN机制,该机制在多轨拓扑中通过NVLink优化了流量转发,而多平面拓扑同样能够受益于这一机制。
如图6所示,在16张GPU上进行的全互联通信测试中,MPFT 与 MRFT 的延迟差异几乎可以忽略。
为了进一步评估MPFT在实际训练中的全互联通信表现,对训练中常见的EP通信模式进行了测试。
如图7所示,在多平面网络中,每张GPU的通信带宽都超过了40GB/s,表现出稳定且高效的性能,能够满足训练过程的带宽需求。
DeepSeek-V3模型的训练吞吐量
研究还对比了在MPFT与MRFT网络中训练DeepSeek-V3模型的各项训练指标,结果列于表4。
MFU(Model Flops Utilization)是以BF16峰值性能为基础计算的,其中Causal MFU只计算注意力矩阵下三角部分的计算量,而Non-Causal MFU则包括整个注意力矩阵的计算量。
1F、1B 和 1W分别表示前向计算时间、输入反向传播时间和权重反向传播时间。
架构优势:MPFT实际上是多路径Fat-Tree (Multi-Rail Fat-Tree,MRFT) 的特殊子集,兼容NVIDIA/NCCL对多路径网络的优化技术 。
通信效率与吞吐:得益于多平面并行,实际训练过程中MPFT能充分利用每个GPU上40GB/s以上的吞吐能力 。
在同样配置下,两种拓扑的tokens/day、模型浮点利用率(MFU)等基本一致。
这表明MPFT在通信效率上与传统MRFT持平,同时具备扩展性优势。
研究团队还把 InfiniBand(IB)和RoCE摆上同一条跑道做对比,结果显示——在延迟上,IB一路领跑,是分布式训练、推理等对时延极其敏感的任务的首选网络方案。
但是IB价格高昂:IB设备动辄贵上一大截,想在超大规模集群里普及成本很高。
端口数受限:主流IB交换机只有64个端口,而常见RoCE交换机可做到128个端口,规模一上去,IB很快就碰到扩展天花板。
RoCE性价比高但「短板」明显——怎么办?团推提出了如下思路:
针对时延仍偏高,专用低延迟RoCE交换机:借鉴HPE Slingshot等方案,砍掉传统以太网里用不到的功能,专为RDMA加速。Broadcom已放出 AIFH 机制 和下一代低延迟交换机的消息。
针对ECMP路由拥塞,自适应路由(AR):动态把流量撒到多条路径;相比静态路由表更灵活,能显著减轻NCCL all‑to‑all 等场景里的链路挤压。
RoCE借助专用交换机、智能路由和更细粒度的拥塞控制,正努力追平IB的时延优势;而IBGDA则进一步把通信链路打磨到极致。
对未来硬件架构设计的讨论与展望
研究团队总结了DeepSeek-V3的经验教训,提出以下未来硬件发展的方向:
1. 系统鲁棒性挑战
大规模训练系统面临多种可靠性风险。首先,高性能互连(如 IB、NVLink)易出现暂时性中断,在全互连密集通信时可能导致训练失败 。
其次,节点或GPU宕机、ECC内存纠错失败等单点故障会毁掉长时间运行的任务,且系统规模越大,故障概率越高。
最后,静默数据损坏(Silent Data Corruption)如多位翻转或计算错误难以被ECC检测,却会悄然影响模型质量。
2. CPU与GPU通信瓶颈
现代AI系统中,CPU不可或缺,但当前CPU–GPU互连成为性能瓶颈。
PCIe接口的带宽在大规模模型参数更新、梯度传输或KV缓存同步时极易饱和。
为此,未来系统应采用直接的CPU–GPU互连(如NVLink或Infinity Fabric),将CPU和GPU置于同一「scale-up」域内,消除PCIe瓶颈 。
3. 智能互联网络发展方向
为了满足AI工作负载对低延迟和高带宽的需求,未来互连网络需要更智能化。针对智能互联网络论文提出了若干关键技术:
Co-Packaged Optics(共封装光学)通过将硅光子集成到交换机或NIC中,可在保证能效的同时大幅提升带宽,可扩展性更好。
无损网络(Lossless Network)则要求在不丢包的前提下进行拥塞控制;虽然传统基于信用的流控(CBFC)机制可实现无损传输,但容易产生头阻塞,因此亟需端到端拥塞控制算法来优化注入速率,避免病态拥塞。
自适应路由技术也是必需的,如分组喷洒(packet spraying)或基于实时网络状况的路径选择,可动态平衡负载,缓解热点和瓶颈问题。
4. 基于内存语义的通信与顺序控制问题
采用加载/存储(load/store)语义的节点间通信具有效率高且易编程的优势,但现有方案受限于内存访问顺序问题。为保障数据一致性,发送方需显式插入内存屏障(fence)以确保数据写入和标志位更新的严格顺序,这导致额外的往返延迟(RTT)与吞吐量降低。同类乱序问题也见于消息语义的RDMA操作中。
建议在硬件层内建顺序保证机制,尤其是提出一种“区域获取/释放”(RAR)机制,通过硬件维护的位图跟踪区域状态,避免发送方显式使用内存屏障。RAR适用于内存语义和消息语义RDMA,可大幅提高性能与实用性。
5. 网络内计算与压缩优化
专家并行(EP)的dispatch与combine阶段分别类似于网络多播与小规模规约,为网络内优化提供空间。
dispatch阶段:建议在硬件实现自动的数据包复制与多目标转发,以降低通信开销。
combine阶段:尽管网络内规约存在不均衡负载挑战,但仍有优化潜力。
低精度压缩(LogFMT):若原生集成至网络硬件,能进一步提高通信效率,减少带宽占用并提升整体系统吞吐量。
6. 内存带宽瓶颈与创新方案
模型规模指数增长导致内存带宽成为性能瓶颈,特别是对Transformer类架构而言。研究团队提出两种应对方案:
堆叠式DRAM加速器:通过3D堆叠技术大幅提升内存带宽并降低访问延迟,特别适合内存吞吐密集型的MoE推理任务。
芯片级系统集成(SoW):通过晶圆级集成技术实现更大面积的计算密度和内存整合,进一步提升系统整体性能。
DeepSeek-V3展示了软硬件协同设计在提升大规模人工智能系统的可扩展性、效率和稳健性方面的巨大潜力。
通过解决当前硬件架构的局限性,并提出切实可行的建议,研究团队为下一代面向AI优化的硬件指明了发展方向。
随着AI任务在复杂度和规模上的持续增长,这些创新将对推动智能系统的未来发展至关重要。
参考资料:
https://www.arxiv.org/abs/2505.09343