MiniMax M2.7:第一个参与训练自己的模型,救活了我的龙虾
创始人
2026-03-21 14:05:57
0

MiniMax 发布了 M2.7,这是他们第一个深度参与迭代自身的模型。

这句话读起来像是科幻小说的开场白,但 M2.7 真的在自己的训练过程中跑了 100 多轮自主优化循环,最终在内部评测集上把效果提升了 30%。

而更让我在意的是,它的价格只有 Opus 4.6 的二十分之一。

因为,我那只因欠费而「饿死」了两天的龙虾🦞,靠它又活过来了。

MiniMax M2.7 官方发布自我进化

先说说 M2.7 最核心的技术亮点:模型参与自己的训练。

传统的模型训练流程,是人类收集数据、设计实验、跑训练、看结果、调参数,一轮一轮地迭代。M2.7 的做法不太一样,MiniMax 让模型自己来承担其中 30% 到 50% 的工作。

M2.7 能够自行构建复杂的 Agent Harness,基于 Agent Teams、复杂 Skills、Tool Search 等能力,完成高度复杂的生产力任务。

这些事情过去可能需要来自不同团队的多位同事协作完成,而现在,研究员只在关键决策和讨论时介入就行了。

M2* 模型自我迭代系统架构

更值得关注的是,MiniMax 让 M2.7 去优化一个内部软件工程开发脚手架的表现。M2.7 全程自主运行,执行「分析失败轨迹 → 规划改动 → 修改代码 → 运行评测 → 对比结果 → 决定保留或回退」的迭代循环超过 100 轮

这 100 轮下来,M2.7 自己发现了一些有效的优化策略:系统性搜索最优采样参数、为模型设计更具体的工作流指引、在 Agent Loop 中添加循环检测。

最终效果提升了 30%。

X 上的 Chubby 写了这么一段:

说实话,这相当令人着迷。MiniMax M2.7 参与了自己的开发。他们让模型跑了 100 多轮自主循环,分析失败轨迹、修改脚手架代码、运行评测、决定保留还是回退。结果:30% 的性能提升。

Chubby 推文截图

Arena.ai 也第一时间把 M2.7 加入了 Text 和 Code Arena,准备在数学、编程、创意写作、专业知识等多个维度上与其他模型正面 PK。

Arena.ai 上线 M2.7跑分数据

然后,来看几个硬数据。

M2.7 Benchmark 对比

在编程能力上,M2.7 的 SWE-Pro 得分是 56.22%,追平了 GPT-5.3-Codex,距离 Opus 4.6 的 57.3% 只差一个百分点。在 Multi-SWE Bench(多语言代码修复)上,M2.7 直接拿下了全球第一,超过了所有 Claude 和 GPT 模型。

VIBE-Pro 上 55.6%,几乎和 Opus 4.6 持平。这个测试衡量的是端到端的完整项目交付能力,也就是说无论是 Web、Android、iOS 还是仿真类需求,M2.7 应该都能接得住。

在 Agent 能力上,Kilo AI 的独立测试给出的结论是:M2.7 在 PinchBench 上得到 86.2%,50 个模型中排名第 5,仅落后 Opus 4.6 不到 1.2 个百分点。而且 M2.7 还独特解决了其他竞品模型都无法完成的任务。

Kilo AI 博客:

M2.7 是需要深度上下文收集的任务的理想选择,因为它会在写代码之前大量阅读周边文件、分析依赖关系、追踪调用链。

不过也有代价:M2.7 每次测试平均消耗约 280 万输入 token,是所有测试模型中最高的。它读得多,所以想得也全。

Artificial Analysis 的独立评估也值得一看。他们的 Intelligence Index 覆盖了 GDPval-AA、Terminal-Bench Hard、SciCode 等 10 项测试,M2.7 拿到了 50 分,比一个月前的 M2.5 提升了 8 分,在 138 个同类模型中排名前列。

而在性价比象限图中,M2.7 稳稳落在了左上角的「最具吸引力」区域,智能水平接近 GLM-5,但运行评测的成本只要 , 是 ( 547)的三分之一。

Artificial Analysis 智能指数与性价比

在 GDPval-AA(Agent 真实工作任务)上,M2.7 的 Elo 达到 1495,超过了 GPT-5.3 Codex(1462),和 GPT-5.2 并列。这个测试衡量的是做 PPT、写分析报告、处理文档这些真实办公任务的能力。

GDPval-AA 排行榜龙虾断粮了

好了,说完技术参数,来讲讲我自己的实测体验。

我在服务器上部署了 OpenClaw🦞,之前用的是 GLM 的 API。结果……前两天突然发现龙虾不说话了。

打开 Telegram 一看,满屏都是报错:

LLMerror1113: 余额不足或无可用资源包,请充值。

OpenClaw 余额不足报错截图

每 10 分钟报一次错,持续了超过 48 小时,累计报错 294 次。龙虾已经进入了「饥饿状态」,在那疯狂索要虾粮。

一听要钱,我自然也是,假装没空,已读不回

换粮续命

那……正好 MiniMax M2.7 发布了,索性试试用它来给龙虾换个「粮仓」。

在 Claude Code 中配置 MiniMax 的方法其实挺简单。编辑 ~/.claude/settings.json,在 providers中添加 MiniMax 的配置:

{"providers":{"minimax":{"baseUrl":"https://api.minimaxi.com/v1","apiKey":"sk-api--你的MiniMax密钥"}}}

然后把 model 设为 MiniMax-M2.7就行了。也可以直接在环境变量里设:

exportANTHROPIC_BASE_URL= https: //api.minimaxi.com/v1exportANTHROPIC_API_KEY=sk-api--你的密钥

配置好之后,我告诉 Claude Code:「SSH 到 claw 机器,检查 OpenClaw 服务的 LLM 配置,把 API Key 换成 MiniMax 的,然后重启服务。」

于是,它通过 SSH 连到服务器,查看了 /root/.openclaw/openclaw.json配置文件,发现当前用的是 open.bigmodel.cn的接口和 glm-4.7模型,余额已经为零。然后它修改了配置中的 baseUrl和 API Key,把模型切换到了 MiniMax-M2.7,执行了 openclaw restart

然后,我这断气了的小虾,满血复活了。

第一时间在 Telegram 上发来了消息,确认自己「已恢复在线」。

费用复盘

龙虾活了之后,我顺手让配置了 M2.7 的 Claude Code 帮我做了一下费用复盘。它 SSH 上去翻了日志,统计了报错频率和历史消耗,然后给我画了张图:

龙虾断粮数据统计

从它的分析来看,龙虾正常运行期间日均消耗约 100-150 元,偶尔飙到 200 以上(肉真的疼)。

主要开销来自两个方面:

一是定时任务(cron job)每 30 分钟触发一次心跳,每次都会消耗一定的 token。二是用户交互时的多轮对话,特别是复杂任务会消耗大量上下文窗口。

9 天跑下来花了一千多,如果换成 Opus 级别的模型,费用至少要翻 20 倍。

而 MiniMax M2.7 的定价是 输 入 , 1.20/1M 输出 token,大约是 Opus 的二十分之一。

对于 OpenClaw 这种需要 24 小时在线的 Agent 服务来说,这个价格差异,还是非常关键的(有钱的除外)。

最后,M2.7 还贴心地给了我几条省 token 的建议:

  • 调低心跳频率,从 30 分钟改到 1 小时甚至 2 小时

  • 开启 context pruning 和 compaction,减少无效上下文

  • 使用 cache retention 策略,避免重复加载相同的 skills 定义

  • 复杂任务拆分成子任务,让 subagent 处理,减少主 agent 的上下文膨胀

前端小试

除了龙虾的实战,我还让 M2.7 自己让自己做了个简单的前端测试,于是它便给自己安排了一个任务:一句话生成一个粒子动画页面,要有渐变背景和鼠标交互效果。

代码一把过,且完整可运行。120 个粒子在渐变星空中漂浮,相邻粒子之间自动连线形成星座般的网络,鼠标靠近时粒子会被推开,远离时又被拉回。

M2.7 生成的粒子动画效果

一共约 250 行代码,粒子类、连接逻辑、动画循环、事件监听,该有的都有。此次任务共消耗了 2093 个 output token(其中 519 个是 reasoning token),换算下来不到 0.003 美元。

说实话,这类前端任务 Opus 4.6 和 GPT-5.4 都能做,但 M2.7 的生成质量和成本比值,也算是物超所值了。

角色扮演

M2.7 还有个容易被忽略的亮点:角色扮演能力。

MiniMax 在官方公告中提到,M2.7 全面强化了角色扮演能力,覆盖闲聊陪伴、互动小说、沉浸游戏、多角色群聊等场景,原生支持中英日韩等十种语言。

OpenRoom 互动娱乐场景

官方表示,早期测试者反馈 M2.7 在情感智能和角色一致性方面有了明显提升。这条推文获得了超过 15 万次浏览。

当然也要提一句,M2.7 的输出速度偏慢了些,Artificial Analysis 测试显示 49.6 tokens/秒,同类中位数是 103 tokens/秒。另外在 Agent 综合能力上,MM-ClawBench 得分 62.7%,距离 Opus 4.6 和 GPT-5.4 的 73-75%……还有一段路要走。

不过对于这个价位的模型来说,就不要啥自行车了。

龙虾的好伙伴

其实 MiniMax 自己也很清楚 M2.7 最适合什么场景。官方在 X 上的原话是:

MiniMax-M2.7,性价比最高的编程模型,尤其适合你使用那些 token 消耗大户的 Agent 时🦞

那个龙虾 emoji 可不是随便放的。

对于 OpenClaw 这种需要 24 小时在线、不停跑 cron、随时响应用户的 Agent 服务来说,token 消耗是最大的成本项。AllClaw 社区的早期用户反馈,用 M2.7 替换之后每周能省下数小时的开发和办公工作流时间。

而 M2.7 在 Vercel、Ollama、OpenRouter、Kilo 等主流平台上已经全面上线,甚至在 ZO 平台上作为默认模型免费提供。

往远了看

M2.7 最让我关注的,其实不只是跑分或者价格。

而是那个「模型参与自己训练」的范式。

MiniMax 在官方文章中写道,他们团队最高产的成员,就是模型本身。研究员引导方向,模型负责构建。他们让 M2 系列模型以解决方案架构师的身份,仅用 1 人 4 天、零人工编码,自主搭建了包含 CI、测试、代码审查的开发 Agent 系统。

人类把控方向,模型负责构建,用 AI 打造下一代 AI。

这个循环一旦跑通,模型的迭代速度就不再受限于人类工程师的数量了。毕竟 M2.5 到 M2.7 只隔了一个月,而从 M2.7 开始,这个间隔……可能会越来越短。

NYU Shanghai 的研究团队把 M2.7 称为「第一个帮助训练自己的 AI 模型」。

Aaryan Kakad 在 X 上写了一篇详细的 thread,他的观察是:

大多数模型发布都是关于能力升级。M2.7 不同之处在于,它是 MiniMax 第一个让模型有意义地参与自身开发过程的模型。

而 MiniMax 自己对未来的判断是:AI 的自我进化会逐步向完全自动化过渡,包括完全自主地协调数据构建、模型训练、推理架构、评测。

而 M2.7,只是 MiniMax 在这条路上的,第一步。

相关内容

热门资讯

光线传媒盘中触及20CM涨停 2月12日消息,光线传媒盘中触及20CM涨停,成交额超36亿元。消息面上,《哪吒2》进入全球影史票房...
机器人概念股反复活跃,冀凯股份... 2月12日消息,机器人概念股反复活跃,冀凯股份16天13板,巨轮智能、恒锋工具、精锻科技、拓斯达、科...
Klook客路旅行获1亿美元融... 2月12日消息,旅游服务平台Klook客路旅行宣布获Vitruvian Partners领投的1亿美...
中芯国际赵海军:汽车产品将在未... 2月12日消息,中芯国际联席CEO赵海军表示,该公司计划与终端整机厂合作,将未来汽车类产品销售额占比...
继谷歌之后,苹果在地图APP中... 2月12日消息,苹果公司当地时间11日发布针对美国用户的更新,将其地图应用程序中的“墨西哥湾”更名为...
原创 A... 在A股市场摸爬滚打多年,我见过太多散户满怀希望进场,最后带着失望离开。很多人把亏损归结为运气不好、主...
俄罗斯发射“进步MS-33”货... IT之家 3 月 22 日消息,据央视新闻报道,莫斯科时间 3 月 22 日 15 时(北京时间 3...
星际荣耀:双曲线三号可重复使用... 3 月 22 日消息,星际荣耀宣布,近日,公司自主研发的 SQX-3(双曲线三号)可重复使用运载火箭...