出品|搜狐科技
作者|郑松毅
DeepSeek“开源周”第一弹——FlashMLA,开发者的第一波福音,来了!
在上周,国产AI“黑马”DeepSeek官宣,本周将是“开源周(OpenSourceWeek)”,并将连续开源5个软件库,让大家期待值拉满。
在线网友激动表示,“终于有机会看看DeepSeek保留的‘秘籍’了。”
北京时间2月24日,DeepSeek在Github平台放出的第一份“代码礼”就不简单——针对Hopper GPU优化的高效MLA解码内核“FlashMLA”。
插个小知识,Hopper指的就是英伟达的GPU架构,例如H100和更早的H800。
虽然H800的计算能力几乎才是H100的一半,但在美国管制下,H800已经是国内像DeepSeek等玩家能用到的,还不错的训练卡资源。
很多人不是好奇DeepSeek是怎样让训练任务在资源有限的卡上跑得很快的吗?这下有得参考了。
根据DeepSeek官方介绍,在FlashMLA加持下,在H800上可以实现每秒处理3000GB数据,每秒执行580万亿次浮点运算。
没错,FlashMLA就像是个“训练加速器”,通过优化MLA解码和分页KV缓存,提高大语言模型的推理效率。
其实MLA(多头潜在注意力机制)的用法之前DeepSeek在刚爆火时就介绍过,这种机制最擅长处理长序列语言信息。
好比你在和大模型对话时,表达了非常多复杂信息,在FlashMLA作用下,能够让对话更快得到回复,而且很流畅。让大模型在处理语言任务时变得更聪明、更高效。
至于FlashMLA的工作原理,这里有一个形象的比喻,例如要找个礼盒包装一份礼物,传统训练方式是不管礼物有多大,都是用固定大小的盒子装,浪费空间,效率又低。而FlashMLA显然更智能,能根据礼物的大小调整包装盒的尺寸,做到物尽其用,高效又省钱。
马斯克的“地表最强”模型Grok 3是这样评价FlashMLA的,“其在资源受限场景下达到3000GB的带宽和580 TFLOPS算力的表现,得益于对Hopper架构的深度适配,包括使用BF16精度、分块调度机制及优化的内存访问模式。这些特性让DeepSeek模型在AI推理任务中效率显著提升。”
“对于大语言来说,处理长序列信息一直是效率瓶颈。FlashMLA减少了无效计算和内存浪费,相比传统方法有明显优势。”
FlashMLA方法开源后,有人说其灵感是来源于斯坦福大学研究者之前就提出的“FlashAttention 2&3”项目。
但就Grok 3看来,这并不是一次简单的“复刻”,而是在原有研究基础上针对MLA机制进行了定制优化。例如通过低秩压缩减少KV缓存开销,同时保持性能。用“站在巨人肩膀上创新”来形容更为合适。
搜狐科技注意到,在DeepSeek本次开源的代码中,仍显示是基于英伟达“CUDA 12.6”框架进行开发,回答了之前针对“DeepSeek是否真正绕开了英伟达CUDA”的疑问。
但值得关注的是,即使还没绕开英伟达架构,但在老卡资源上怎么跑出更高效率,显然是很多人关心的问题。
截止发稿,“FlashMLA”开源代码在Github平台几小时内已收获近6千星标,可见社区对其的高关注。
此前在与美国杜克大学教授陈怡然、上海人工智能实验室大数据研究中心执行主任何聪辉等业内人士的对话中,曾多次听到一个对DeepSeek相似的评价——“这才是真正的Open。”
在本周后四天的发布中,DeepSeek是否会放出更大的“惊喜”,令人期待。
就在1小时前,DeepSeek还更新了一个名为“出色的DeepSeek融合(Awesome DeepSeek Integrations)”文档,更新了最近新接入DeepSeek API的玩家信息。
其中包括AI对话类应用DeepChat、Chatbox、ChatGPT-Next-Web等,AI智能体框架“smolagents”、“YoMo”等,还有编程、视频等各类应用程序的接入。粗略统计,接入玩家数量已过百余家。
文档最后,DeepSeek也“高调”了一番,如今该接入统计文档在Github获取星标数量已超2万,足足演绎了一番“当年无人问津,现在门庭若市”的景象。