MiniMax 发布了 M2.7,这是他们第一个深度参与迭代自身的模型。
这句话读起来像是科幻小说的开场白,但 M2.7 真的在自己的训练过程中跑了 100 多轮自主优化循环,最终在内部评测集上把效果提升了 30%。
而更让我在意的是,它的价格只有 Opus 4.6 的二十分之一。
因为,我那只因欠费而「饿死」了两天的龙虾🦞,靠它又活过来了。
MiniMax M2.7 官方发布自我进化
先说说 M2.7 最核心的技术亮点:模型参与自己的训练。
传统的模型训练流程,是人类收集数据、设计实验、跑训练、看结果、调参数,一轮一轮地迭代。M2.7 的做法不太一样,MiniMax 让模型自己来承担其中 30% 到 50% 的工作。
M2.7 能够自行构建复杂的 Agent Harness,基于 Agent Teams、复杂 Skills、Tool Search 等能力,完成高度复杂的生产力任务。
这些事情过去可能需要来自不同团队的多位同事协作完成,而现在,研究员只在关键决策和讨论时介入就行了。
M2* 模型自我迭代系统架构
更值得关注的是,MiniMax 让 M2.7 去优化一个内部软件工程开发脚手架的表现。M2.7 全程自主运行,执行「分析失败轨迹 → 规划改动 → 修改代码 → 运行评测 → 对比结果 → 决定保留或回退」的迭代循环超过 100 轮。
这 100 轮下来,M2.7 自己发现了一些有效的优化策略:系统性搜索最优采样参数、为模型设计更具体的工作流指引、在 Agent Loop 中添加循环检测。
最终效果提升了 30%。
X 上的 Chubby 写了这么一段:
说实话,这相当令人着迷。MiniMax M2.7 参与了自己的开发。他们让模型跑了 100 多轮自主循环,分析失败轨迹、修改脚手架代码、运行评测、决定保留还是回退。结果:30% 的性能提升。
Chubby 推文截图
Arena.ai 也第一时间把 M2.7 加入了 Text 和 Code Arena,准备在数学、编程、创意写作、专业知识等多个维度上与其他模型正面 PK。
Arena.ai 上线 M2.7跑分数据
然后,来看几个硬数据。
M2.7 Benchmark 对比
在编程能力上,M2.7 的 SWE-Pro 得分是 56.22%,追平了 GPT-5.3-Codex,距离 Opus 4.6 的 57.3% 只差一个百分点。在 Multi-SWE Bench(多语言代码修复)上,M2.7 直接拿下了全球第一,超过了所有 Claude 和 GPT 模型。
VIBE-Pro 上 55.6%,几乎和 Opus 4.6 持平。这个测试衡量的是端到端的完整项目交付能力,也就是说无论是 Web、Android、iOS 还是仿真类需求,M2.7 应该都能接得住。
在 Agent 能力上,Kilo AI 的独立测试给出的结论是:M2.7 在 PinchBench 上得到 86.2%,50 个模型中排名第 5,仅落后 Opus 4.6 不到 1.2 个百分点。而且 M2.7 还独特解决了其他竞品模型都无法完成的任务。
Kilo AI 博客:
M2.7 是需要深度上下文收集的任务的理想选择,因为它会在写代码之前大量阅读周边文件、分析依赖关系、追踪调用链。
不过也有代价:M2.7 每次测试平均消耗约 280 万输入 token,是所有测试模型中最高的。它读得多,所以想得也全。
Artificial Analysis 的独立评估也值得一看。他们的 Intelligence Index 覆盖了 GDPval-AA、Terminal-Bench Hard、SciCode 等 10 项测试,M2.7 拿到了 50 分,比一个月前的 M2.5 提升了 8 分,在 138 个同类模型中排名前列。
而在性价比象限图中,M2.7 稳稳落在了左上角的「最具吸引力」区域,智能水平接近 GLM-5,但运行评测的成本只要 , 是 ( 547)的三分之一。
Artificial Analysis 智能指数与性价比
在 GDPval-AA(Agent 真实工作任务)上,M2.7 的 Elo 达到 1495,超过了 GPT-5.3 Codex(1462),和 GPT-5.2 并列。这个测试衡量的是做 PPT、写分析报告、处理文档这些真实办公任务的能力。
GDPval-AA 排行榜龙虾断粮了
好了,说完技术参数,来讲讲我自己的实测体验。
我在服务器上部署了 OpenClaw🦞,之前用的是 GLM 的 API。结果……前两天突然发现龙虾不说话了。
打开 Telegram 一看,满屏都是报错:
OpenClaw 余额不足报错截图
每 10 分钟报一次错,持续了超过 48 小时,累计报错 294 次。龙虾已经进入了「饥饿状态」,在那疯狂索要虾粮。
一听要钱,我自然也是,假装没空,已读不回
换粮续命
那……正好 MiniMax M2.7 发布了,索性试试用它来给龙虾换个「粮仓」。
在 Claude Code 中配置 MiniMax 的方法其实挺简单。编辑 ~/.claude/settings.json,在 providers中添加 MiniMax 的配置:
然后把 model 设为 MiniMax-M2.7就行了。也可以直接在环境变量里设:
配置好之后,我告诉 Claude Code:「SSH 到 claw 机器,检查 OpenClaw 服务的 LLM 配置,把 API Key 换成 MiniMax 的,然后重启服务。」
于是,它通过 SSH 连到服务器,查看了 /root/.openclaw/openclaw.json配置文件,发现当前用的是 open.bigmodel.cn的接口和 glm-4.7模型,余额已经为零。然后它修改了配置中的 baseUrl和 API Key,把模型切换到了 MiniMax-M2.7,执行了 openclaw restart。
然后,我这断气了的小虾,满血复活了。
第一时间在 Telegram 上发来了消息,确认自己「已恢复在线」。
费用复盘
龙虾活了之后,我顺手让配置了 M2.7 的 Claude Code 帮我做了一下费用复盘。它 SSH 上去翻了日志,统计了报错频率和历史消耗,然后给我画了张图:
龙虾断粮数据统计
从它的分析来看,龙虾正常运行期间日均消耗约 100-150 元,偶尔飙到 200 以上(肉真的疼)。
主要开销来自两个方面:
一是定时任务(cron job)每 30 分钟触发一次心跳,每次都会消耗一定的 token。二是用户交互时的多轮对话,特别是复杂任务会消耗大量上下文窗口。
9 天跑下来花了一千多,如果换成 Opus 级别的模型,费用至少要翻 20 倍。
而 MiniMax M2.7 的定价是 输 入 , 1.20/1M 输出 token,大约是 Opus 的二十分之一。
对于 OpenClaw 这种需要 24 小时在线的 Agent 服务来说,这个价格差异,还是非常关键的(有钱的除外)。
最后,M2.7 还贴心地给了我几条省 token 的建议:
调低心跳频率,从 30 分钟改到 1 小时甚至 2 小时
开启 context pruning 和 compaction,减少无效上下文
使用 cache retention 策略,避免重复加载相同的 skills 定义
复杂任务拆分成子任务,让 subagent 处理,减少主 agent 的上下文膨胀
除了龙虾的实战,我还让 M2.7 自己让自己做了个简单的前端测试,于是它便给自己安排了一个任务:一句话生成一个粒子动画页面,要有渐变背景和鼠标交互效果。
代码一把过,且完整可运行。120 个粒子在渐变星空中漂浮,相邻粒子之间自动连线形成星座般的网络,鼠标靠近时粒子会被推开,远离时又被拉回。
M2.7 生成的粒子动画效果
一共约 250 行代码,粒子类、连接逻辑、动画循环、事件监听,该有的都有。此次任务共消耗了 2093 个 output token(其中 519 个是 reasoning token),换算下来不到 0.003 美元。
说实话,这类前端任务 Opus 4.6 和 GPT-5.4 都能做,但 M2.7 的生成质量和成本比值,也算是物超所值了。
角色扮演
M2.7 还有个容易被忽略的亮点:角色扮演能力。
MiniMax 在官方公告中提到,M2.7 全面强化了角色扮演能力,覆盖闲聊陪伴、互动小说、沉浸游戏、多角色群聊等场景,原生支持中英日韩等十种语言。
OpenRoom 互动娱乐场景
官方表示,早期测试者反馈 M2.7 在情感智能和角色一致性方面有了明显提升。这条推文获得了超过 15 万次浏览。
当然也要提一句,M2.7 的输出速度偏慢了些,Artificial Analysis 测试显示 49.6 tokens/秒,同类中位数是 103 tokens/秒。另外在 Agent 综合能力上,MM-ClawBench 得分 62.7%,距离 Opus 4.6 和 GPT-5.4 的 73-75%……还有一段路要走。
不过对于这个价位的模型来说,就不要啥自行车了。
龙虾的好伙伴
其实 MiniMax 自己也很清楚 M2.7 最适合什么场景。官方在 X 上的原话是:
MiniMax-M2.7,性价比最高的编程模型,尤其适合你使用那些 token 消耗大户的 Agent 时🦞
那个龙虾 emoji 可不是随便放的。
对于 OpenClaw 这种需要 24 小时在线、不停跑 cron、随时响应用户的 Agent 服务来说,token 消耗是最大的成本项。AllClaw 社区的早期用户反馈,用 M2.7 替换之后每周能省下数小时的开发和办公工作流时间。
而 M2.7 在 Vercel、Ollama、OpenRouter、Kilo 等主流平台上已经全面上线,甚至在 ZO 平台上作为默认模型免费提供。
往远了看
M2.7 最让我关注的,其实不只是跑分或者价格。
而是那个「模型参与自己训练」的范式。
MiniMax 在官方文章中写道,他们团队最高产的成员,就是模型本身。研究员引导方向,模型负责构建。他们让 M2 系列模型以解决方案架构师的身份,仅用 1 人 4 天、零人工编码,自主搭建了包含 CI、测试、代码审查的开发 Agent 系统。
人类把控方向,模型负责构建,用 AI 打造下一代 AI。
这个循环一旦跑通,模型的迭代速度就不再受限于人类工程师的数量了。毕竟 M2.5 到 M2.7 只隔了一个月,而从 M2.7 开始,这个间隔……可能会越来越短。
NYU Shanghai 的研究团队把 M2.7 称为「第一个帮助训练自己的 AI 模型」。
Aaryan Kakad 在 X 上写了一篇详细的 thread,他的观察是:
大多数模型发布都是关于能力升级。M2.7 不同之处在于,它是 MiniMax 第一个让模型有意义地参与自身开发过程的模型。
而 MiniMax 自己对未来的判断是:AI 的自我进化会逐步向完全自动化过渡,包括完全自主地协调数据构建、模型训练、推理架构、评测。
而 M2.7,只是 MiniMax 在这条路上的,第一步。