文 | 钱钱
编辑 | 阿景
最近科技圈发生了两个大消息,英伟达刚在AGI竞赛拿了冠军,转头就甩出CUDA20年来最大更新。
这俩事放一块,不少人说这是要重新定义AI和GPU的游戏规则了。
今天咱就掰开揉碎了聊聊,这两个突破到底有多狠。
4B小模型逆袭夺冠,AGI竞赛玩出了新花样
这次AGI竞赛叫KaggleARCPrize2025,比的是AI的通用推理能力。
简单说就是给机器出"智商题",看它能不能像人一样举一反三。
结果英伟达用个40亿参数的小模型,把那些上万亿参数的巨无霸甩在了身后。
之前大家都觉得模型越大越厉害,这次英伟达算是打了个反常识的胜仗。
他们选的Qwen3小模型,好处是跑得贼快,调试起来也方便。
不像大模型,改个参数得等半天才出结果,效率差太远了。
选对了模型,数据这块英伟达也玩出了新招。
他们搞了个"四步走"战略,硬生生造了320万条合成数据。
这些数据不是随便凑数的,全是针对竞赛里推理题的"定制练习册"。
竞赛里那些图形推理题,被小模型一个个"啃"下来,靠的就是这些数据练出来的"解题思路"。
光有数据还不够,推理策略才是关键。
英伟达用了个叫"测试时训练"的法子,模型拿到题先不急着答,而是当场"临时抱佛脚"学一会儿。
再配合深度优先搜索,批量生成好几种解题路径,哪个对就用哪个。
这操作有点像考试时先排除错误答案,正确率自然上去了。
有意思的是,他们还让模型练"看图写代码"。
题目给个图形规律,模型先把规律转成代码,再运行代码验证结果。
这种把抽象问题变成具体代码的思路,可能就是小模型能赢大模型的核心秘诀。
CUDA20年磨一剑,Tile编程让GPU开发门槛降了半截
CUDA这东西,在GPU圈算是"老炮儿"了,20年里从SIMT编程摸到Tile编程,每代更新都让开发者又爱又恨。
爱的是性能越来越强,恨的是学起来头秃。
这次CUDA13.1更新,总算给开发者松了口气。
最让人惊喜的是Tile编程模型。
之前写GPU代码,程序员得盯着线程怎么跑、内存怎么分,稍微不注意就卡壳。
现在倒好,直接按数据块来写代码,编译器自动帮你优化线程和内存。
打个比方,以前开车得自己挂挡踩油门,现在直接自动驾驶,你只管告诉它去哪儿。
资源管理这块也有新花样。
英伟达搞了个"GreenContext"轻量级机制,GPU资源能像切蛋糕一样分成小块,每个程序拿自己那块就行。
这招解决了以前多个程序抢资源的麻烦,尤其是服务器上跑一堆任务的时候,效率能提不少。
多进程服务(MPS)的更新也挺实在。
新加的内存局部性优化分区,能让数据存得离计算单元更近,读取速度自然快。
还有个splitAPI,开发者想给哪个程序多分点资源,直接调接口就行,不用再改底层配置。
这种把权力交给开发者的设计,比以前"一刀切"强多了。
数学库优化更是"硬菜"。
GroupedGEMMAPI能让矩阵运算快不少,稀疏矩阵乘法也有改进。
最关键的是支持FP4、FP8这些低精度计算,AI模型跑起来又快又省内存。
搞AI训练的同学怕是最有体会,以前跑个大模型得等半天,现在可能一杯咖啡的功夫就出结果。
英伟达这两大突破,看着是技术升级,其实藏着更深的战略。
AGI竞赛用小模型打赢,等于告诉行业,别死磕参数规模,数据质量和工程化方法更重要。
CUDA降低开发门槛,是想让更多人用GPU,毕竟开发者越多,生态越稳,这才是长久之计。
现在AI圈和GPU圈都在盯着英伟达下一步动作。
小模型+合成数据的路子会不会成主流?CUDA的Tile编程能不能让更多开发者入局?这些问题的答案,可能就藏在英伟达接下来的动作里。
不管怎么说,这波操作已经让不少公司开始重新盘算自己的技术路线了。