MiniMax M2.7：第一个参与训练自己的模型，救活了我的龙虾_科技资讯

MiniMax M2.7：第一个参与训练自己的模型，救活了我的龙虾

创始人

2026-03-21 14:05:57

0次

MiniMax 发布了 M2.7，这是他们第一个深度参与迭代自身的模型。

这句话读起来像是科幻小说的开场白，但 M2.7 真的在自己的训练过程中跑了 100 多轮自主优化循环，最终在内部评测集上把效果提升了 30%。

而更让我在意的是，它的价格只有 Opus 4.6 的二十分之一。

因为，我那只因欠费而「饿死」了两天的龙虾🦞，靠它又活过来了。

MiniMax M2.7 官方发布自我进化

先说说 M2.7 最核心的技术亮点：模型参与自己的训练。

传统的模型训练流程，是人类收集数据、设计实验、跑训练、看结果、调参数，一轮一轮地迭代。M2.7 的做法不太一样，MiniMax 让模型自己来承担其中 30% 到 50% 的工作。

M2.7 能够自行构建复杂的 Agent Harness，基于 Agent Teams、复杂 Skills、Tool Search 等能力，完成高度复杂的生产力任务。

这些事情过去可能需要来自不同团队的多位同事协作完成，而现在，研究员只在关键决策和讨论时介入就行了。

M2* 模型自我迭代系统架构

更值得关注的是，MiniMax 让 M2.7 去优化一个内部软件工程开发脚手架的表现。M2.7 全程自主运行，执行「分析失败轨迹 → 规划改动 → 修改代码 → 运行评测 → 对比结果 → 决定保留或回退」的迭代循环超过 100 轮。

这 100 轮下来，M2.7 自己发现了一些有效的优化策略：系统性搜索最优采样参数、为模型设计更具体的工作流指引、在 Agent Loop 中添加循环检测。

最终效果提升了 30%。

X 上的 Chubby 写了这么一段：

说实话，这相当令人着迷。MiniMax M2.7 参与了自己的开发。他们让模型跑了 100 多轮自主循环，分析失败轨迹、修改脚手架代码、运行评测、决定保留还是回退。结果：30% 的性能提升。

Chubby 推文截图

Arena.ai 也第一时间把 M2.7 加入了 Text 和 Code Arena，准备在数学、编程、创意写作、专业知识等多个维度上与其他模型正面 PK。

Arena.ai 上线 M2.7跑分数据

然后，来看几个硬数据。

M2.7 Benchmark 对比

在编程能力上，M2.7 的 SWE-Pro 得分是 56.22%，追平了 GPT-5.3-Codex，距离 Opus 4.6 的 57.3% 只差一个百分点。在 Multi-SWE Bench（多语言代码修复）上，M2.7 直接拿下了全球第一，超过了所有 Claude 和 GPT 模型。

VIBE-Pro 上 55.6%，几乎和 Opus 4.6 持平。这个测试衡量的是端到端的完整项目交付能力，也就是说无论是 Web、Android、iOS 还是仿真类需求，M2.7 应该都能接得住。

在 Agent 能力上，Kilo AI 的独立测试给出的结论是：M2.7 在 PinchBench 上得到 86.2%，50 个模型中排名第 5，仅落后 Opus 4.6 不到 1.2 个百分点。而且 M2.7 还独特解决了其他竞品模型都无法完成的任务。

Kilo AI 博客：

M2.7 是需要深度上下文收集的任务的理想选择，因为它会在写代码之前大量阅读周边文件、分析依赖关系、追踪调用链。

不过也有代价：M2.7 每次测试平均消耗约 280 万输入 token，是所有测试模型中最高的。它读得多，所以想得也全。

Artificial Analysis 的独立评估也值得一看。他们的 Intelligence Index 覆盖了 GDPval-AA、Terminal-Bench Hard、SciCode 等 10 项测试，M2.7 拿到了 50 分，比一个月前的 M2.5 提升了 8 分，在 138 个同类模型中排名前列。

而在性价比象限图中，M2.7 稳稳落在了左上角的「最具吸引力」区域，智能水平接近 GLM-5，但运行评测的成本只要，是（ 547）的三分之一。

Artificial Analysis 智能指数与性价比

在 GDPval-AA（Agent 真实工作任务）上，M2.7 的 Elo 达到 1495，超过了 GPT-5.3 Codex（1462），和 GPT-5.2 并列。这个测试衡量的是做 PPT、写分析报告、处理文档这些真实办公任务的能力。

GDPval-AA 排行榜龙虾断粮了

好了，说完技术参数，来讲讲我自己的实测体验。

我在服务器上部署了 OpenClaw🦞，之前用的是 GLM 的 API。结果……前两天突然发现龙虾不说话了。

打开 Telegram 一看，满屏都是报错：

LLMerror1113: 余额不足或无可用资源包,请充值。

OpenClaw 余额不足报错截图

每 10 分钟报一次错，持续了超过 48 小时，累计报错 294 次。龙虾已经进入了「饥饿状态」，在那疯狂索要虾粮。

一听要钱，我自然也是，假装没空，已读不回

换粮续命

那……正好 MiniMax M2.7 发布了，索性试试用它来给龙虾换个「粮仓」。

在 Claude Code 中配置 MiniMax 的方法其实挺简单。编辑 ~/.claude/settings.json，在 providers中添加 MiniMax 的配置：

{"providers":{"minimax":{"baseUrl":"https://api.minimaxi.com/v1","apiKey":"sk-api--你的MiniMax密钥"}}}

然后把 model 设为 MiniMax-M2.7就行了。也可以直接在环境变量里设：

exportANTHROPIC_BASE_URL= https: //api.minimaxi.com/v1exportANTHROPIC_API_KEY=sk-api--你的密钥

配置好之后，我告诉 Claude Code：「SSH 到 claw 机器，检查 OpenClaw 服务的 LLM 配置，把 API Key 换成 MiniMax 的，然后重启服务。」

于是，它通过 SSH 连到服务器，查看了 /root/.openclaw/openclaw.json配置文件，发现当前用的是 open.bigmodel.cn的接口和 glm-4.7模型，余额已经为零。然后它修改了配置中的 baseUrl和 API Key，把模型切换到了 MiniMax-M2.7，执行了 openclaw restart。

然后，我这断气了的小虾，满血复活了。

第一时间在 Telegram 上发来了消息，确认自己「已恢复在线」。

费用复盘

龙虾活了之后，我顺手让配置了 M2.7 的 Claude Code 帮我做了一下费用复盘。它 SSH 上去翻了日志，统计了报错频率和历史消耗，然后给我画了张图：

龙虾断粮数据统计

从它的分析来看，龙虾正常运行期间日均消耗约 100-150 元，偶尔飙到 200 以上（肉真的疼）。

主要开销来自两个方面：

一是定时任务（cron job）每 30 分钟触发一次心跳，每次都会消耗一定的 token。二是用户交互时的多轮对话，特别是复杂任务会消耗大量上下文窗口。

9 天跑下来花了一千多，如果换成 Opus 级别的模型，费用至少要翻 20 倍。

而 MiniMax M2.7 的定价是输入， 1.20/1M 输出 token，大约是 Opus 的二十分之一。

对于 OpenClaw 这种需要 24 小时在线的 Agent 服务来说，这个价格差异，还是非常关键的（有钱的除外）。

最后，M2.7 还贴心地给了我几条省 token 的建议：

调低心跳频率，从 30 分钟改到 1 小时甚至 2 小时
开启 context pruning 和 compaction，减少无效上下文
使用 cache retention 策略，避免重复加载相同的 skills 定义
复杂任务拆分成子任务，让 subagent 处理，减少主 agent 的上下文膨胀

前端小试

除了龙虾的实战，我还让 M2.7 自己让自己做了个简单的前端测试，于是它便给自己安排了一个任务：一句话生成一个粒子动画页面，要有渐变背景和鼠标交互效果。

代码一把过，且完整可运行。120 个粒子在渐变星空中漂浮，相邻粒子之间自动连线形成星座般的网络，鼠标靠近时粒子会被推开，远离时又被拉回。

M2.7 生成的粒子动画效果

一共约 250 行代码，粒子类、连接逻辑、动画循环、事件监听，该有的都有。此次任务共消耗了 2093 个 output token（其中 519 个是 reasoning token），换算下来不到 0.003 美元。

说实话，这类前端任务 Opus 4.6 和 GPT-5.4 都能做，但 M2.7 的生成质量和成本比值，也算是物超所值了。

角色扮演

M2.7 还有个容易被忽略的亮点：角色扮演能力。

MiniMax 在官方公告中提到，M2.7 全面强化了角色扮演能力，覆盖闲聊陪伴、互动小说、沉浸游戏、多角色群聊等场景，原生支持中英日韩等十种语言。

OpenRoom 互动娱乐场景

官方表示，早期测试者反馈 M2.7 在情感智能和角色一致性方面有了明显提升。这条推文获得了超过 15 万次浏览。

当然也要提一句，M2.7 的输出速度偏慢了些，Artificial Analysis 测试显示 49.6 tokens/秒，同类中位数是 103 tokens/秒。另外在 Agent 综合能力上，MM-ClawBench 得分 62.7%，距离 Opus 4.6 和 GPT-5.4 的 73-75%……还有一段路要走。

不过对于这个价位的模型来说，就不要啥自行车了。

龙虾的好伙伴

其实 MiniMax 自己也很清楚 M2.7 最适合什么场景。官方在 X 上的原话是：

MiniMax-M2.7，性价比最高的编程模型，尤其适合你使用那些 token 消耗大户的 Agent 时🦞

那个龙虾 emoji 可不是随便放的。

对于 OpenClaw 这种需要 24 小时在线、不停跑 cron、随时响应用户的 Agent 服务来说，token 消耗是最大的成本项。AllClaw 社区的早期用户反馈，用 M2.7 替换之后每周能省下数小时的开发和办公工作流时间。

而 M2.7 在 Vercel、Ollama、OpenRouter、Kilo 等主流平台上已经全面上线，甚至在 ZO 平台上作为默认模型免费提供。

往远了看

M2.7 最让我关注的，其实不只是跑分或者价格。

而是那个「模型参与自己训练」的范式。

MiniMax 在官方文章中写道，他们团队最高产的成员，就是模型本身。研究员引导方向，模型负责构建。他们让 M2 系列模型以解决方案架构师的身份，仅用 1 人 4 天、零人工编码，自主搭建了包含 CI、测试、代码审查的开发 Agent 系统。

人类把控方向，模型负责构建，用 AI 打造下一代 AI。

这个循环一旦跑通，模型的迭代速度就不再受限于人类工程师的数量了。毕竟 M2.5 到 M2.7 只隔了一个月，而从 M2.7 开始，这个间隔……可能会越来越短。

NYU Shanghai 的研究团队把 M2.7 称为「第一个帮助训练自己的 AI 模型」。

Aaryan Kakad 在 X 上写了一篇详细的 thread，他的观察是：

大多数模型发布都是关于能力升级。M2.7 不同之处在于，它是 MiniMax 第一个让模型有意义地参与自身开发过程的模型。

而 MiniMax 自己对未来的判断是：AI 的自我进化会逐步向完全自动化过渡，包括完全自主地协调数据构建、模型训练、推理架构、评测。

而 M2.7，只是 MiniMax 在这条路上的，第一步。

上一篇：地平线2025年营收增长57.7％，高阶智驾进入平权时代

下一篇：原创 B费点射，马奎尔染红！卡里克怒斥判罚双标，点球判罚为何天差地别？

MiniMax M2.7：第一个参与训练自己的模型，救活了我的龙虾

相关内容

热门资讯