文 |无言
2025年11月的SC25超级计算大会上,英伟达和博通算是玩了把大的。
前者宣布Lambda、CoreWeave还有德克萨斯高级计算中心,都要用上它家的Quantum-XPhotonicsCPO交换机,后者直接亮出基于Tomahawk5和6的CPO产品。
这俩巨头扎堆发力,足以说明CPO这技术,已经从以前的“没人敢碰”变成了AI圈的“香饽饽”。
CPO为啥成了AI的救命稻草
AI现在真是算力越堆越狠,GPU集群规模动不动就上万个。
本来想靠传统光模块撑场面,但现实狠狠打了脸。
传统光模块得插在交换机上,再连光纤,看似常规操作,架不住数量实在吓人。
一个12.8万个GPU的集群,以前要近50万个光模块,光这些模块的能耗就够数据中心喝一壶的。
更头疼的是传输距离和速度的矛盾。
AI网络需要的端口速度越来越快,英伟达都规划到1.6Tbps了,但传统铜缆在这种速度下,也就传一两米。
这意味着要连成千上万个GPU,就得铺海量线缆,还得配昂贵的重定时器。
如此看来,传统方案根本扛不住AI的算力需求。
CPO的思路就很直接,把光组件和交换机芯片封装在一起,光纤直接连交换机前面板。
这波操作相当于让光模块和芯片“零距离协作”,省去了中间的连接损耗。
12.8万个GPU的集群用了CPO,光模块数量能降到12.8万个,能耗还能大幅下降。
英伟达说能效提升不少,博通也有类似数据,这些实打实的好处,AI厂商自然没法拒绝。
曾经的坑是怎么填上的
CPO不是新东西,早几年就有厂商试过水,但一直没普及。
核心问题就一个,稳定度太差。
传统光模块坏了,顶多一个端口没用,CPO要是里面的光子芯片出问题,可能好几十个端口一起瘫痪。
这换谁都不敢冒这险,毕竟AI训练中途断了,损失可不是一星半点。
厂商们也没闲着,慢慢找到了解决办法。
现在主流的CPO都把激光器做成可插拔的,这部分是易损件,单独拿出来方便更换,就算坏了也能及时补救。
英伟达的CPO交换机还加了全液冷设计,解决了共封装带来的散热问题。
这些小改动,算是把CPO最致命的短板补上了。实践是检验真理的唯一标准。
Meta去年就部署了博通的CPO交换机,跑了100万小时都没出现链路抖动。
要知道链路抖动可是网络稳定的大敌,AI训练最怕这个。
英伟达也说自家CPO平台的弹性提升不少,AI训练能连续跑更久。
这些实测数据一出来,以前质疑CPO稳定度的声音,自然就小了很多。
未来不止交换机这么简单
现在CPO的应用还集中在交换机上,但苗头已经很明显,未来要往更多设备延伸。
博通在2024年就展示了6.4Tbps的光学引擎,目标是直接集成到加速器里。
SC25大会上,AyarLabs和Lightmatter也亮出了新东西,一个搞了能提供超高带宽的参考设计,一个开发了硅光子中介层。
这意味着什么?以后GPU、XPU这些加速器,可能直接自带CPO功能,不用再通过交换机转接。
如此一来,AI集群的传输效率还能再上一个台阶,能耗也能进一步降低。
毫无疑问,CPO正在从网络层向计算层渗透,慢慢改变整个AI硬件的连接方式。
IDC预测2025到2026年是CPO试点的关键期,2026年可能迎来爆发。
现在英伟达、博通已经抢先布局,其他厂商也在跟进。
很显然,CPO不是一时的过渡技术,而是AI时代光通信的必然选择。AI的算力需求还在暴涨,对网络的要求只会越来越高。
CPO凭借着低能耗、高带宽、高稳定度的优势,成功解决了AI网络的核心痛点。
从被质疑到成为刚需,CPO的逆袭之路,其实就是AI技术不断突破瓶颈的缩影。
未来随着技术不断成熟,CPO可能会完全替代传统光模块,让AI数据中心真正迈入全光时代。这波技术革新,才刚刚开始。