新架构Mamba-2正式发布!!真实版“man, what can i say”!!
创始人
2025-01-07 15:06:07
0

Mamba 面世以来,社区反应热烈,获得了广泛关注。

遗憾的是,Mamba 的论文竟然被 ICLR 拒稿,这让许多研究者颇感意外。

仅仅六个月之后,原作者团队带来更加改进和强大的 Mamba 2 正式发布啦!!

Mamba-2,其状态空间扩大了8倍,训练速度提升了50%!

——Transformer的新挑战者,最新架构Mamba刚刚推出了其第二代版本!

论文地址: Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

GitHub 地址: https://github.com/state-spaces/mamba

更令人惊讶的是,团队的研究发现Transformer和状态空间模型(SSM)实际上是亲近关系。

这两大主流的序列建模架构,终于在此实现了统一。

OpenAI发布GPT-4o一夜创历史,超越所有AIicon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

手把手升级ChatGPT-4o Turbo详细步骤教程icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

01 状态空间模型SSM

没错,这篇论文揭示了一个重大的发现:Transformer中的注意力机制与状态空间模型(SSM)之间存在着非常紧密的数学联系。

团队通过提出一个名为结构化状态空间二元性(Structured State Space Duality, SSD)的理论框架,将这两大模型家族统一了起来。

值得一提的是,Mamba一代论文在年初被ICLR拒稿,曾引发学术界广泛热议,许多学者因此纷纷表态。

此次推出的二代论文在理论和实验上都有了更丰富的内容,并成功入选ICML 2024。

论文的作者依然是Albert Gu和Tri Dao两位。

他们透露,论文题目中的“Transformers are SSMs”是向四年前那篇经典的线性注意力论文“Transformers are RNNs”致敬。

Transformer的核心组件是注意力机制,而SSM模型的核心则是一个线性时变系统。

乍看之下,两者似乎毫无关联,但论文指出:它们都可以表示成可半分离矩阵(Semiseparable Matrices)的变换。

让我们先从SSM的角度来看。

SSM本身定义了一个线性映射,恰好可对应于一个半可分离矩阵。

半可分离矩阵具有特殊的低秩结构,而这种结构恰好与SSM模型中的状态变量相对应。

因此,矩阵乘法就相当于SSM的线性时变系统。带选择性的SSM实际上是一种广义线性注意力机制。

从注意力的角度来看,又会有什么发现呢?

团队试图通过更抽象的方式来描述注意力机制的本质,毕竟“Softmax自注意力”只是其中的一种形式。

更一般地说,任何带有掩码的注意力机制,都可以表示为4个张量的缩并(Contraction)。

其中,QKV分别对应注意力中的query、key、value,L则对应掩码矩阵。 借助这一联系,团队在线性注意力的基础上提出了结构化掩码注意力(Structured Masked Attention,SMA)。

当注意力的掩码矩阵是半可分离的,就与SSM等价

基于这一发现,作者进一步推导出了两种等价的计算形式,这就是论文核心思想——“状态空间二元性”(Structured State Space Duality,SSD)的由来。

02 状态空间二元性SSD

基于SSD思想的全新算法,Mamba-2 支持更大的状态维度,从16扩展到了256,从而能学习到更强的表示能力。

新方法采用了基于块分解的矩阵乘法,利用了GPU的存储层次结构,从而提升了训练速度。

在架构设计上,Mamba-2简化了块的设计,同时汲取了注意力机制的启发,做出了一些改动。

借鉴多头注意力机制,创建了多输入SSM。

通过与注意力机制之间的联系,SSD能够轻松将Transformer架构多年来积累的优化方法引入SSM。

例如,引入张量并行和序列并行,以扩展到更大的模型和更长的序列。

同时,还可以引入可变序列长度,以实现更快的微调和推理。

Mamba-2的SSD层比Mamba-1中的关联扫描快了很多,这使团队能够增加状态维度并提高模型质量。

在实验中,Mamba-2在3B参数规模上训练了300B tokens,超越了相同规模的Mamba-1和Transformer。

尤其在需要更大状态容量的任务上,如硬关联召回任务(MQAR),Mamba-2相较于Mamba-1有了显著的改进。

03 小结

man, what can i say!

推荐阅读:

如何免费使用GPT-4o?如何升级GPT4.0 Turbo?(内附详细步骤教程)


最新版手把手升级GPT-4o、GPT-4 Turbo详细步骤教程!! 【2024年6月】
 

相关内容

热门资讯

更值得关注的是!奇迹山西辅助器... 更值得关注的是!奇迹山西辅助器(辅助)一直确实有辅助挂(有挂详情)1、下载好奇迹山西辅助器透视辅助下...
总结辅助挂!潮友会鱼虾蟹看穿神... 总结辅助挂!潮友会鱼虾蟹看穿神器(辅助)总是真的是有辅助器(有挂辅助)1、这是跨平台的潮友会鱼虾蟹看...
据了解!填大坑游戏辅助器(辅助... 据了解!填大坑游戏辅助器(辅助)总是是有辅助脚本(有挂攻略)1、金币登录送、破产送、升级送、活动送。...
现有说明如下!海贝之城有辅助吗... 现有说明如下!海贝之城有辅助吗(辅助)原来是有辅助器(有挂解惑)1、进入游戏-大厅左侧-新手福利-激...
这一问题亟待解决!传送屋辅助(... 这一问题亟待解决!传送屋辅助(辅助)一贯是有辅助插件(有挂教程)1、实时传送屋辅助透视辅助更新:用户...
最终!阿拉斗牌辅助(辅助)竟然... 最终!阿拉斗牌辅助(辅助)竟然是真的有辅助app(真的有挂)1、阿拉斗牌辅助有没有辅助教程、阿拉斗牌...
据权威媒体报道!皮皮辅助器(辅... 据权威媒体报道!皮皮辅助器(辅助)真是是有辅助app(真实有挂)1、完成皮皮辅助器有辅助插件,帮助玩...
近日!圣盛荆州晃晃辅助工具(辅... 近日!圣盛荆州晃晃辅助工具(辅助)竟然真的是有辅助攻略(确实有挂)1、操作简单,无需圣盛荆州晃晃辅助...
日前!德友汇辅助器(辅助)切实... 日前!德友汇辅助器(辅助)切实真的有辅助攻略(有挂细节)1、玩家可以在德友汇辅助器透视最简单三个步骤...
黑科技攻略!四川熊猫辅助(辅助... 黑科技攻略!四川熊猫辅助(辅助)一贯是真的有辅助挂(有挂细节)1、用户打开应用后不用登录就可以直接使...