第12问:什么是卡间互联?
在大模型训练中,海量参数需拆分至多块加速卡(如GPU、NPU等)协同计算,频繁的梯度同步与数据交换对通信效率提出极高要求。若依赖传统PCIe总线并经CPU/内存中转,受限于带宽与时延,扩展效率将大幅下降,甚至“加卡不增效”,难以发挥集群算力。
卡间互联技术(如HCC等)正是为了解决这问题,构建绕过CPU与主存的专用高速直连通路,使加速卡间可实现低时延、高带宽的直接通信,如同将多卡融合为一块“逻辑上的超大卡”。这不仅极大提升了模型与数据并行效率,更让多卡协同更紧密,显著提高算力利用率,缩短训练时间,降低单次训练成本,助力实现集群效能。
第13问:什么是机间互联?
大模型训练的参数量往往很大,需将几十至上千台服务器组成集群协同工作。此时,不仅卡间需通信,机间也要频繁同步数据。若仅依赖传统通用以太网,带宽有限、时延偏高且易拥塞,会导致集群规模扩大但效率提升有限,训练耗时长且资源利用率低。“机间互联”正是为解决此问题,通过在服务器间部署专用高速网络协议(如InfiniBand、RoCE),构建覆盖集群的“互联高速公路”。此类网络通常支持RDMA(远程直接内存访问)技术,大幅减少CPU开销,让一台机器的加速卡能高效访问另一台的数据。基于此,多台服务器通信更高效稳定,逻辑上更像一台“超大规模计算机”,从而支撑超大模型的高效分布式训练与推理。