原创英伟达周末双炸！CUDA二十年最大更新，顺手屠榜AGI比赛_科技资讯

原创英伟达周末双炸！CUDA二十年最大更新，顺手屠榜AGI比赛

创始人

2025-12-13 08:41:17

0次

文 | 钱钱

编辑 | 阿景

最近科技圈发生了两个大消息，英伟达刚在AGI竞赛拿了冠军，转头就甩出CUDA20年来最大更新。

这俩事放一块，不少人说这是要重新定义AI和GPU的游戏规则了。

今天咱就掰开揉碎了聊聊，这两个突破到底有多狠。

4B小模型逆袭夺冠，AGI竞赛玩出了新花样

这次AGI竞赛叫KaggleARCPrize2025，比的是AI的通用推理能力。

简单说就是给机器出"智商题"，看它能不能像人一样举一反三。

结果英伟达用个40亿参数的小模型，把那些上万亿参数的巨无霸甩在了身后。

之前大家都觉得模型越大越厉害，这次英伟达算是打了个反常识的胜仗。

他们选的Qwen3小模型，好处是跑得贼快，调试起来也方便。

不像大模型，改个参数得等半天才出结果，效率差太远了。

选对了模型，数据这块英伟达也玩出了新招。

他们搞了个"四步走"战略，硬生生造了320万条合成数据。

这些数据不是随便凑数的，全是针对竞赛里推理题的"定制练习册"。

竞赛里那些图形推理题，被小模型一个个"啃"下来，靠的就是这些数据练出来的"解题思路"。

光有数据还不够，推理策略才是关键。

英伟达用了个叫"测试时训练"的法子，模型拿到题先不急着答，而是当场"临时抱佛脚"学一会儿。

再配合深度优先搜索，批量生成好几种解题路径，哪个对就用哪个。

这操作有点像考试时先排除错误答案，正确率自然上去了。

有意思的是，他们还让模型练"看图写代码"。

题目给个图形规律，模型先把规律转成代码，再运行代码验证结果。

这种把抽象问题变成具体代码的思路，可能就是小模型能赢大模型的核心秘诀。

CUDA20年磨一剑，Tile编程让GPU开发门槛降了半截

CUDA这东西，在GPU圈算是"老炮儿"了，20年里从SIMT编程摸到Tile编程，每代更新都让开发者又爱又恨。

爱的是性能越来越强，恨的是学起来头秃。

这次CUDA13.1更新，总算给开发者松了口气。

最让人惊喜的是Tile编程模型。

之前写GPU代码，程序员得盯着线程怎么跑、内存怎么分，稍微不注意就卡壳。

现在倒好，直接按数据块来写代码，编译器自动帮你优化线程和内存。

打个比方，以前开车得自己挂挡踩油门，现在直接自动驾驶，你只管告诉它去哪儿。

资源管理这块也有新花样。

英伟达搞了个"GreenContext"轻量级机制，GPU资源能像切蛋糕一样分成小块，每个程序拿自己那块就行。

这招解决了以前多个程序抢资源的麻烦，尤其是服务器上跑一堆任务的时候，效率能提不少。

多进程服务（MPS）的更新也挺实在。

新加的内存局部性优化分区，能让数据存得离计算单元更近，读取速度自然快。

还有个splitAPI，开发者想给哪个程序多分点资源，直接调接口就行，不用再改底层配置。

这种把权力交给开发者的设计，比以前"一刀切"强多了。

数学库优化更是"硬菜"。

GroupedGEMMAPI能让矩阵运算快不少，稀疏矩阵乘法也有改进。

最关键的是支持FP4、FP8这些低精度计算，AI模型跑起来又快又省内存。

搞AI训练的同学怕是最有体会，以前跑个大模型得等半天，现在可能一杯咖啡的功夫就出结果。

英伟达这两大突破，看着是技术升级，其实藏着更深的战略。

AGI竞赛用小模型打赢，等于告诉行业，别死磕参数规模，数据质量和工程化方法更重要。

CUDA降低开发门槛，是想让更多人用GPU，毕竟开发者越多，生态越稳，这才是长久之计。

现在AI圈和GPU圈都在盯着英伟达下一步动作。

小模型+合成数据的路子会不会成主流？CUDA的Tile编程能不能让更多开发者入局？这些问题的答案，可能就藏在英伟达接下来的动作里。

不管怎么说，这波操作已经让不少公司开始重新盘算自己的技术路线了。

上一篇：英伟达自拆护城河？CUDA迎20年来最大更新！

下一篇：多家车企被精准“围猎” 如何斩断网络黑嘴背后利益链

原创英伟达周末双炸！CUDA二十年最大更新，顺手屠榜AGI比赛

相关内容

热门资讯

原创 英伟达周末双炸！CUDA二十年最大更新，顺手屠榜AGI比赛

相关内容

热门资讯

原创英伟达周末双炸！CUDA二十年最大更新，顺手屠榜AGI比赛