传统的Agent,多半依赖预设的流程,像一条早已铺好的路。可一旦底层模型更新,整个系统就需要推倒重来。 Kimi采用的端到端地强化学习,走的是另一条路。它让模型在未知的问题里自由探索,不靠固定的程序,而靠数据和反馈一点点成长。
文|胡嘉琦
ID | BMR2004
如今,人工智能已悄然走进我们生活的方方面面。它不再只是一个回答问题、处理事务的小帮手,而是慢慢长成了能参与科研、辅助决策、激发创意的智能体。
7月11日的一个深夜,月之暗面团队推出的 Kimi K2,引起不少人注意。这是一个强大的模型,拥有一万亿个参数,在编程、推理、工具使用上都颇为拿手,和国际上最先进的闭源模型 GPT-4.1、Claude Opus 4 相比,也不遑多让。不同的是,它选择了完全开源,把自己的可能性交给了更大的世界。
Kimi K2在发布后48小时内迅速引爆市场:官网访问量激增36亿,开源社区Hugging Face下载量突破10万次。
与此同时,Kimi还推出了面向科研领域的“Kimi-Researcher”。Kimi-Researcher是月之暗面推出的首个Ai Agent。它的特别之处在于,用上了“端到端的自主强化学习”(End-to-End Reinforcement Learning, E2E RL),就是让它自己学会“做研究”。人们说,这或许是 AI 从“工具”到“研究型伙伴”的一次转身。
01
训练一个会“做研究”的AI
Kimi-Researcher 拥有的这一切已经和一个真实的研究者很接近了。只不过,Kimi-Researcher 不会觉得疲惫,也不会觉得枯燥。
Kimi 团队这些年,一直专注着一个问题:能不能让Kimi-Researcher不只是“找答案”,而是真的能“做研究”?
月之暗面研究员冯一尘、毛绍光在《月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?》分享了Kimi-Researcher的工作原理。在训练过程中,研究团队为它搭建了一个模拟的研究环境,里面有各种各样的复杂任务。它需要自己去想:先把问题问清楚,再规划研究步骤,然后搜集资料、读文献、跑代码、分析数据,最后写出一份像模像样的研究报告。就像一个年轻的研究生,从摸索到独立。
这种训练方式主要靠的是端到端强化学习(End-to-End Reinforcement Learning, E2E RL)。模型会自己尝试不同的研究路径,有时走对了,有时走岔了,再根据结果来调整。久而久之,它学会了如何少走弯路。为了避免人工数据不足,团队还设计了自动合成数据的方法,让它能在更大的范围里反复练习。
在执行任务时,Kimi-Researcher 的表现已经颇有几分“人味”。比如,首先在澄清问题环节,它不会一上来就急着回答,而是常常先追问一句,帮用户把问题讲得更明白。这样做,是为了不让研究方向跑偏。
在深入推理环节,在问题确定之后,它会安静地思考,把一个复杂的问题拆成小问题,一步步地推理。平均下来,每次研究它要走20多步,像画一张路线图。
在主动搜索环节,信息是研究的根基,它会自己设定关键词去找资料。执行一次任务,往往要检索上百个网站,然后只留下最有价值的那几条。
在调用工具环节,当找到的资料不够,它会调动浏览器、代码解释器等工具,把原始数据整理分析,提炼出真正的结论。
在生成报告环节,它把所有过程和发现写进报告里。有时候是一份厚厚的研究稿,动辄上万字,里面还会附上几十条可靠的参考文献;有时候是一份可以交互和分享的可视化结果。无论哪种,都力求清晰、可溯源。
看上去,Kimi-Researcher 拥有的这一切已经和一个真实的研究者很接近了。只不过,Kimi-Researcher 不会觉得疲惫,也不会觉得枯燥。
02
强化学习的成果与“涌现”行为
从科研到商业,Kimi-Researcher的能力逐渐展开。与其说是一个工具,不如说更像一位助手,能在收集、整理与分析之间自主地完成整个链条。
在构建 Kimi-Researcher 时,相比传统搜索工具式的开发思路,端到端强化学习是一条更具挑战性的路线。
这位“研究型智能体”第一次出场,就遇到了一场名叫“人类最后一场考试”(Humanity’s Last Exam,以下简称“ HLE”)的挑战。那是一份涵盖生物、化学、物理、数学、人文学科的卷子,有3000多道专家级的难题。换句话说,这不是随便答答的选择题,而是检验一个Agent能不能像研究者那样思考的试金石。
这条路虽然难,但在端到端的强化学习过程中,也带来一些出乎意料的惊喜。
冯一尘提出,在HLE榜单上,Ai Agent 的分数从最初 8.6%的准确率跃升到 26.9%。这一跨越几乎完全得益于强化学习的训练。OpenAI 的 Deep Research 团队在类似工作中,从20多分提升到 26.6 分,两者对比,更能凸显强化学习在智能体训练上的巨大价值。
在HLE测评中,智能体pass@4指标(指智能体在四次自主尝试内成功解决任务的概率)达到 40.17%。这意味着,即便面对极其困难的问题,智能体在四次尝试里,也有超过四成的概率成功找到答案。只要能够探索到正确路径,这种经验就能逐渐沉淀为模型的内在能力。
其中,更引人注目的是“涌现”。模型在找到初步答案后,并不会立即停下,而是主动进行多轮搜索,用不同来源的信息交叉验证,以确保结论更为准确。甚至在遭遇极度专业、现有资料无法解决的问题时,它还会生成一个行动——“给论文作者发邮件寻求解答”。
这些举动并非预先设计,而是在完成任务的过程中,模型自己摸索出来的办法。正是这样的细节,让人看到了 Agent 向更通用方向发展的可能性,也让强化学习的价值显得尤为清晰。
传统的 Agent,多半依赖预设的流程,像一条早已铺好的路。可一旦底层模型更新,整个系统就需要推倒重来。而模仿学习,则需要人工一步步标注完整的轨迹,费时又难以扩展。端到端地强化学习,走的是另一条路。它让模型在未知的问题里自由探索,不靠固定的程序,而靠数据和反馈一点点成长。它能尝试、能迭代,甚至能在反复试错中学会更高阶的策略。换句话说,它不再依赖外部的拼装,而是把能力“内化”进了自身。
这种方式,也让 Kimi-Researcher 的科研能力落到了实处。它已经能在不同的场景里派上用场:在信息搜集与尽调时,自动梳理最新的基准测试成果;在知识整理时,把复杂体系化繁为简,按时间线清楚地呈现;在陌生领域的探索中,几分钟便能产出长篇报告,帮新手迅速入门;在兴趣探索里,能为一场虚拟漫画比赛写出详细的报告;在市场调研中,则能对比商品的价格、功能与性价比,给出实用的推荐。
从科研到商业,Kimi-Researcher的能力逐渐展开。与其说是一个工具,不如说更像一位助手,能在收集、整理与分析之间自主地完成整个链条。
科研之外,这种 Agent 的能力,还被进一步延伸到日常的工作流管理。通过 Vector(向量或数据结构)、MCP(多智能体通信协议)、Communicate-to(通信目标指示)这样的技术组合,它能自动安排任务、调用不同工具协同工作、根据日程触发执行,并稳定运行在服务器上,全天候地接管事务。对于非程序员来说,这种自动化工作流,像是轻轻松松就搭建了一位“随叫随到”的秘书。
于是,一个科研 Agent,慢慢生长出更通用的面貌:既能在实验室里帮人写综述,也能在办公室里帮人排日程,低成本、高效率,安静却可靠。它所展示的,不只是技术的成果,更是人们与 AI 共处方式的一次新的尝试。
毛绍光曾坦言,来到kimi后,发现大家的愿景其实很一致:提高模型的智能、拓展模型的边界,或者说就是要做通用人工智能(AGI)。于是,他参与训练一个真正的 Agent 模型,成了顺理成章的决定。
只是,这条路并不轻松。虽然强化学习在训练推理模型时已经显示出惊人的效果,但放在Agent上,还要面对许多不同的挑战。因为Agent工作在真实环境里,而环境总是动态的:同一个工具,在不同情况下可能会给出不一样的结果;任务往往是长周期的,对模型的上下文长度管理、展开效率和训练的稳定性,都是新的考验。
更何况,找到能真正激发 Agent 能力的训练数据本就不容易。每一条成功的轨迹都像是一段很长的故事,语境冗长而复杂,怎样让模型从中有效地学习,是一个需要不断探索的问题。
03
迈向更高层级的模型能力
未来的智能不只是“能回答问题”,而是“能自主解决问题”;不只是“堆叠工具”,而是“学会运用工具”;不只是“功能展示”,而是“内化能力”。
如今,Kimi-Researcher 已经能够帮助人们做科研信息的收集、深度分析、知识梳理与决策。但它的目标,并不止于此。
一方面,不断增加任务与工具,让模型在更多陌生的场景里学会泛化;另一方面,强化 Agent 的自主探索能力,使其真正能在科研、决策与创新工作里,成为人类可信赖的伙伴;再进一步,科研型 Agent 与生产力工具的结合,将让它不光“做研究”,还能“做事”。
自 Kimi K2 推出后,这一思路显得更加清晰。长期关注科技行业的撰稿人 David Ondrej 曾提到,Kimi K2 的优势在于高效的混合专家架构(MoE):每个令牌仅需要激活8位专家,就能完成任务。这种设计大幅降低了计算资源消耗,却仍能保持性能,尤其在编程、逻辑推理与中文处理上表现突出。它拥有 1 万亿总参数和 320 亿激活参数,在基准测试 SWEBenchVerified 上的成绩,已走在前列。换句话说,它既节省了成本,又为诸如桌面文件整理、任务自动化等实际应用,打下了可靠基础。
Agent能力为Kimi K2提供了更多的可能性,Kimi K2开始主动在不同环境中探索,学会使用工具、习得新技能,并通过与电子世界甚至真实世界的交互获取反馈,从而不断强化自主完成任务的能力。
工具使用的能力,本质上意味着模型迈向了更高层级。正如在自然界中,动物与人类之间最显著的分界点之一,就是是否能够熟练地使用和创造工具。动物或许能依靠本能完成一些任务,而人类则能借助工具不断扩展自身的边界,从点火取暖到建造城市,正是工具让人类真正成为“能进化的物种”。同样地,Kimi K2 具备了 Agent 能力之后,也不再局限于单纯地被动应答,而是能够通过工具去扩展知识、提升效率、解决更复杂的问题。
具备运用工具的能力,是大模型迭代中的重要一环。在模型竞赛激烈的当下,很多团队为了抢占市场,往往选择快速迭代、抢先发布,以速度赢得关注。然而,Kimi K2 项目团队却选择了一条更艰难但更长远的道路:拒绝抢发,先把基座模型打牢。
这种坚持,在行业里并不常见。许多公司会优先追求“可见的功能”,希望尽快展示应用场景和商业化前景;而 Kimi 团队却选择先解决底层的难题,如何让万亿级参数规模的模型不仅能被训练出来,更要高效、稳定且可扩展。为此,他们首次将创新的优化器应用到万亿级参数训练中,在训练效率与稳定性上都实现了技术突破。这不仅让 Kimi K2 在性能上站稳了脚跟,也为后续的 Agent 能力迭代奠定了坚实基础。
这种取舍,背后反映的是一个清晰的判断:未来的智能体不只是“能回答问题”,而是“能自主解决问题”;不只是“堆叠工具”,而是“学会运用工具”;不只是“功能展示”,而是“内化能力”。而要实现这一切,必须先有足够强大的基座模型,才能承载 Agent 的演化。
在 Agent 的工具调用上,Kimi K2也有亮眼的表现。比如,将13万行原始数据交给 Kimi K2,它能分析远程办公比例对薪资的影响,识别显著差异,自动生成统计图表与回归模型,并以统一色调绘制小提琴图、箱线图、散点图等专业图表,最后还会附上一份条理分明的研究报告。
这种架构,也为全局 Agent打开了可能。通过动态激活少量专家,模型能够在有限资源下完成复杂多步骤任务,如数据分析、报告生成、资源调度,从而让Agent 在更多领域的部署变得更可行、更灵活。未来,结合强化学习或工作流机制,它还有望进一步优化科研协作中的实时响应与决策。
中关村物联网产业联盟副秘书长袁帅认为,从技术优势层面看,Kimi-Researcher和Kimi K2在AI Agent领域优势显著。它们依托先进的大模型技术,在信息处理上具备高效性与精准性,能快速理解复杂问题,从海量数据中提取关键信息并给出准确回答。在推理能力方面,可进行深度逻辑分析,处理复杂任务时展现出较强的思维连贯性。从聊天工具进化为“超级助手”,产品理念发生了根本性转变,早期聊天工具侧重于简单问答交互,而“超级助手”定位为全方位服务提供者,旨在深度融入用户生活与工作场景。技术架构上,从单一问答模型升级为集成多种功能模块的综合系统,涵盖记忆存储、任务规划、工具调用等,各模块协同工作以实现复杂任务。
科方智库研究负责人张新原在接受《商学院》记者采访时表示,Kimi K2在AI Agent领域的优势,核心在于高效信息处理与精确任务执行。从聊天工具到“超级助手”,Kimi实现了架构升级:多模块系统具备记忆、工具调用与任务规划能力,产品理念也从被动响应转向主动服务。
长期记忆通过向量数据库和知识图谱实现,多轮对话依赖上下文扩展与意图识别技术,有效解决传统AI在复杂场景下连续性差、需重复输入的问题,如跨天工作流跟进和个性化学习辅导。未来,Kimi将引入多步骤自动化任务链与跨Agent协作机制,目前正在研发基于DAG(有向无环图)的任务调度引擎与Agent通信协议。
张新原认为,在角色设计上,Kimi采用“核心人格+专业模块”架构,保证底层任务执行稳定,表层通过性格和对话风格实现个性化,并建立严格测试体系保障专业场景可靠性。自研大模型在32k超长上下文窗口和层次化注意力机制方面突破,支持复杂任务拆解和跨模态理解,并优化工作记忆模块动态管理对话历史。
To C端注重体验与情感化设计,To B端强调API开放性与系统集成能力,通过共享底层模型、定制中间件实现资源协同。在张新原看来,Kimi差异化优势在于:对话连贯、角色一致、长期记忆精准调用,这源于对用户心理模型和工作记忆机制的深入研究。
平台化策略包括开放插件接口、建立角色模板市场和推出Agent开发套件,并通过分层激励吸引垂直领域专家。安全层面,Kimi构建了三层防护:沙盒任务执行、多Agent权限隔离、合规审查中间件,并以强化学习优化异常处理。自主性演进采取渐进策略,现阶段聚焦半自主能力,如智能日程管理和自动化报告生成,始终保证人机协作可解释、可控。
随着任务与工具的持续扩展,Kimi 的Agent 或将成为科研、商业与生产力领域里不可或缺的伙伴。那时,它与人类的关系已不只是助手,而更像是一种深度协作,共同迎接新的智能时代。
袁帅认为,展望未来,Kimi向“自主性 Agent”演进成为可能。其成为能独立规划并执行任务的个人数字伙伴,需进一步提升推理和决策能力。在硬件终端融合方面,可与智能穿戴设备、智能家居等结合,实现更便捷的交互和服务,为用户带来全新的智能体验。简而言之,Kimi在技术创新、市场拓展和生态构建等方面不断探索前行,未来发展前景将非常广阔。
来源 | 《商学院》杂志9月刊