清华学霸归国，腾讯混元再添新将_科技资讯

创始人

2026-01-31 09:01:28

0次

1月29日，清华大学计算机系博士、可信机器学习与生成式模型领域的杰出青年学者庞天宇在个人社交媒体更新了自己的工作变动信息，官宣加入腾讯混元团队，担任多模态强化学习（Multimodal RL）方向的 Tech Lead，负责前沿算法探索，隶属于混元多模态部的 Exploration Center。

这个安排，释放出了AI竞赛的关键信号。

过去一年，国内大模型的竞争重点，主要集中在参数规模、推理能力、生成效果这三件事上。

而随着模型能力逐步趋同，新的瓶颈也正在浮现：

模型“会不会行动”、“能不能在环境中做决策”正在变成下一个分水岭。

从“会说”到“会做”

简单说，大模型虽然已经越来越擅长“说话”和“生成”，但距离“在真实或复杂环境中持续决策”还有很长一段路要走。

多模态强化学习，就是要打通这条路径，让模型在视觉、语言、动作等多种信号中进行联合感知，并通过反馈不断优化策略。

这项能力对腾讯来说有着极强的落地价值。无论是游戏、虚拟世界、机器人，还是未来的 AI Agent体系，都迫切需要模型能够理解环境，在现有条件下采取合适的行动。

庞天宇的研究方向，恰好踩在这个交汇点上。

为什么是庞天宇

与一些“单点爆发型”的研究者不同，庞天宇的学术路径有着丰富的基础理论 + 强工程指向的鲜明特点。

他早期深耕对抗鲁棒性、可信机器学习，这类研究并不追求短期效果，但直接关系到模型在复杂环境中的稳定性。近几年，他逐步转向生成模型、多模态理解与强化学习的结合。在 Sea AI Lab 的经历，也让他熟悉工业环境中模型落地所面临的真实约束，而不只是论文指标。

这就是为什么，腾讯并没有把他放在一个“象征性”的学术岗位，而是直接让其担任多模态 RL 的技术负责人。

腾讯的“野心”

如果把腾讯混元当前的核心技术布局拆解，会发现一个逐渐清晰的结构：

姚顺雨：聚焦Reasoning / Agent，解决模型“如何思考、规划复杂任务”

庞天宇：聚焦 Multimodal RL，解决模型“如何感知环境并采取行动”

一个负责“想清楚”，一个负责“做出来”。

在业内，“会推理但不会交互”和“会生成但不会决策”，正在成为通用模型的共同短板，腾讯选择在这个时间点补齐两端，意味着其 AI 战略已经从单纯的模型能力追赶，转向系统能力构建。

庞天宇的加入，更像是一个技术路线上的“落子”，而不是单点补强。

当大模型进入“会行动”的阶段，腾讯追求的是率先跑通完整闭环的能力。

从姚顺雨到庞天宇，腾讯正在做的，并不是简单堆人，而是逐步搭建一个从推理、到感知、到决策的完整能力栈。这条路难度极高，也未必立刻见效，但一旦跑通，壁垒同样极高。

大模型竞赛已然进入下半场。真正拉开差距的，可能不再是谁生成得“更像人”，而是谁的模型能在真实世界里“成为人”。（转载自AI普瑞斯）