深圳国产芯片新进展!深智城集团支撑万亿级国产AI大模型训练取得重要突破!
创始人
2026-06-13 02:35:46
0

近日,市属国企深智城集团旗下深圳市智城算网科技有限公司联合多家高校及研究机构,成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练

据公开资料检索,这是业界首个由第三方机构基于国产算力集群完成的工程实践,标志着国产AI基础设施从推理部署迈向全参数后训练新阶段。

优化建模SFT数据飞轮流程

万亿级参数大模型是人工智能领域的主流前沿模型,在逻辑推理、数理计算、代码编写、长文本理解等方面表现突出。这类模型的全参数训练,对硬件算力、集群稳定性、算法适配优化均有严苛要求。

长期以来,全球范围内万亿级参数大模型训练多采用海外高端算力产品,国内国产算力此前主要用于模型推理、小幅微调,难以完成全参数深度训练,这也是行业发展中普遍面临的技术难题。

万亿级参数的AI大模型训练难在哪?

如果把训练一个万亿级参数的AI大模型比作解一道超级复杂的数学题,那么每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错,更不能有人掉队。

这次训练的DeepSeek-V4-Pro采用的是混合专家模型(MoE)架构,可以把它想象成一个庞大的“专家团”:平时回答问题只激活少数几位专家,看似高效,但后训练时,“专家们”之间的沟通量却是普通模型的几十倍。再加上动态切换的注意力机制,这对芯片算力的调度和显存资源的管理提出了极其苛刻的要求。

简单来说,以前的国产算力更多是让大模型“能用”(即推理部署),就像给模型修了一条单行道,输入一个问题,输出一个答案。而这次的“全参数后训练”,则是要让模型学会自我反思和调整,相当于在单行道的基础上,又增加了复杂的立交桥和多条反馈回路,计算量和通信量瞬间翻了好几倍。

面对如此极限的挑战,深智城算力平台进行了系统性攻坚。通过前置预警与精细化运维,构建了强大的断点续训机制,确保1500多步训练连续稳定无中断;深度调优网络架构与通信,取得30%+MFU的突破完成超100个大模型相关基础算子的开发与验证,充分激活国产芯片的硬件加速潜能。同时创新供电架构与能效管理,实现高算效、低能耗,并建立全流程问题定位能力,覆盖平台、数据、训练支撑各环节。

本次探索是国产算力适配超大参数大模型过程中的一次重要进展,有助于提升国内AI产业链自主化水平,降低行业应用成本,为人工智能技术落地应用提供更多支撑。

此次全参数后训练的顺利落地

集中体现了深智城集团在国产算力领域的

技术积淀与工程能力

下一步

深智城集团将持续深化国产算力集群的

研发与运营能力

夯实国产AI基础设施底座

为深圳打造人工智能先锋城市贡献力量

深圳市国资委开展国有企业资产盘活专题培训

“科普+探秘+实操”三维研学

深业集团打造都市自然教育新样板

万车级“海上巨无霸”,首航小漠港区→

内容来源:深智城集团、深圳发布

深圳国资整理发布

如有侵权,请联系删除

如需转载,请注明以上内容

相关内容

热门资讯

张小龙10年前就预判了Agen... 文 | 罗超频道 这几天关于微信AI的传言和讨论越来越多,给人一种呼之欲出的感觉,也让自媒体圈迎来...
顶流企业扎堆落地!无锡在具身智... 6月11日,2026长三角机器人及自动化展览会暨无锡具身智能机器人产业链伙伴大会正式启幕。这场由中国...
深圳国产芯片新进展!深智城集团... 近日,市属国企深智城集团旗下深圳市智城算网科技有限公司联合多家高校及研究机构,成功完成1.6万亿参数...
大众点评宣布加大真实内容生态投... 当前,随着AI创作工具进一步普及,AI生成内容泛滥,各类种草帖越来越精美,但也越来越雷同。特别是在吃...
兆易创新推出光模块专用MCU新... IT之家 6 月 12 日消息,兆易创新 (GigaDevice) 本月 10 日宣布推出 GD32...
原创 杨... 《神雕侠侣》中,那主角杨过堪称是万人迷一般的存在,只要是与他接触过的女子,都不免会被他迷得晕头转向,...
济南九宸赋买了会保值吗?克而瑞... 九宸赋售楼处官方咨询电话:0531-85999999,由开发商统一认证,案场销售团队直接接听,可咨询...
气温和体感温度为何不同?气象因... 今天来说说气温。相比降水,气温与我们的关系似乎更为密切。因为降水不会天天出现在你的生活中,缺席个把月...
厦门如何抢跑AI影视赛道? 近日,厦门影视产业的数智化布局落子频频。先是由厦门软投与厦门大学电影学院共建的“未来视听·人工智能实...
安克创新CEO阳萌预言“充电宝... 每经记者:陈鹏丽 每经编辑:杜宇 “充电宝这个品类,不但一定不会变成千亿元级品类产品,它大概率过几年...