近日,市属国企深智城集团旗下深圳市智城算网科技有限公司联合多家高校及研究机构,成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。
据公开资料检索,这是业界首个由第三方机构基于国产算力集群完成的工程实践,标志着国产AI基础设施从推理部署迈向全参数后训练新阶段。
▲优化建模SFT数据飞轮流程
万亿级参数大模型是人工智能领域的主流前沿模型,在逻辑推理、数理计算、代码编写、长文本理解等方面表现突出。这类模型的全参数训练,对硬件算力、集群稳定性、算法适配优化均有严苛要求。
长期以来,全球范围内万亿级参数大模型训练多采用海外高端算力产品,国内国产算力此前主要用于模型推理、小幅微调,难以完成全参数深度训练,这也是行业发展中普遍面临的技术难题。
万亿级参数的AI大模型训练难在哪?
如果把训练一个万亿级参数的AI大模型比作解一道超级复杂的数学题,那么每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错,更不能有人掉队。
这次训练的DeepSeek-V4-Pro采用的是混合专家模型(MoE)架构,可以把它想象成一个庞大的“专家团”:平时回答问题只激活少数几位专家,看似高效,但后训练时,“专家们”之间的沟通量却是普通模型的几十倍。再加上动态切换的注意力机制,这对芯片算力的调度和显存资源的管理提出了极其苛刻的要求。
简单来说,以前的国产算力更多是让大模型“能用”(即推理部署),就像给模型修了一条单行道,输入一个问题,输出一个答案。而这次的“全参数后训练”,则是要让模型学会自我反思和调整,相当于在单行道的基础上,又增加了复杂的立交桥和多条反馈回路,计算量和通信量瞬间翻了好几倍。
面对如此极限的挑战,深智城算力平台进行了系统性攻坚。通过前置预警与精细化运维,构建了强大的断点续训机制,确保1500多步训练连续稳定无中断;深度调优网络架构与通信,取得30%+MFU的突破;完成超100个大模型相关基础算子的开发与验证,充分激活国产芯片的硬件加速潜能。同时创新供电架构与能效管理,实现高算效、低能耗,并建立全流程问题定位能力,覆盖平台、数据、训练支撑各环节。
本次探索是国产算力适配超大参数大模型过程中的一次重要进展,有助于提升国内AI产业链自主化水平,降低行业应用成本,为人工智能技术落地应用提供更多支撑。
此次全参数后训练的顺利落地
集中体现了深智城集团在国产算力领域的
技术积淀与工程能力
下一步
深智城集团将持续深化国产算力集群的
研发与运营能力
夯实国产AI基础设施底座
为深圳打造人工智能先锋城市贡献力量
深圳市国资委开展国有企业资产盘活专题培训
“科普+探秘+实操”三维研学
深业集团打造都市自然教育新样板
万车级“海上巨无霸”,首航小漠港区→
内容来源:深智城集团、深圳发布
深圳国资整理发布
如有侵权,请联系删除
如需转载,请注明以上内容