清华学霸归国,腾讯混元再添新将
创始人
2026-01-31 09:01:28
0

1月29日,清华大学计算机系博士、可信机器学习与生成式模型领域的杰出青年学者庞天宇在个人社交媒体更新了自己的工作变动信息,官宣加入腾讯混元团队,担任多模态强化学习(Multimodal RL)方向的 Tech Lead,负责前沿算法探索,隶属于混元多模态部的 Exploration Center。

这个安排,释放出了AI竞赛的关键信号。

过去一年,国内大模型的竞争重点,主要集中在参数规模、推理能力、生成效果这三件事上。

而随着模型能力逐步趋同,新的瓶颈也正在浮现:

模型“会不会行动”、“能不能在环境中做决策”正在变成下一个分水岭。

从“会说”到“会做”

简单说,大模型虽然已经越来越擅长“说话”和“生成”,但距离“在真实或复杂环境中持续决策”还有很长一段路要走。

多模态强化学习,就是要打通这条路径,让模型在视觉、语言、动作等多种信号中进行联合感知,并通过反馈不断优化策略。

这项能力对腾讯来说有着极强的落地价值。无论是游戏、虚拟世界、机器人,还是未来的 AI Agent体系,都迫切需要模型能够理解环境,在现有条件下采取合适的行动。

庞天宇的研究方向,恰好踩在这个交汇点上。

为什么是庞天宇

与一些“单点爆发型”的研究者不同,庞天宇的学术路径有着丰富的基础理论 + 强工程指向的鲜明特点。

他早期深耕对抗鲁棒性、可信机器学习,这类研究并不追求短期效果,但直接关系到模型在复杂环境中的稳定性。近几年,他逐步转向生成模型、多模态理解与强化学习的结合。在 Sea AI Lab 的经历,也让他熟悉工业环境中模型落地所面临的真实约束,而不只是论文指标。

这就是为什么,腾讯并没有把他放在一个“象征性”的学术岗位,而是直接让其担任多模态 RL 的技术负责人。

腾讯的“野心”

如果把腾讯混元当前的核心技术布局拆解,会发现一个逐渐清晰的结构:

姚顺雨: 聚焦Reasoning / Agent,解决模型“如何思考、规划复杂任务”

庞天宇:聚焦 Multimodal RL,解决模型“如何感知环境并采取行动”

一个负责“想清楚”,一个负责“做出来”。

在业内,“会推理但不会交互”和“会生成但不会决策”,正在成为通用模型的共同短板,腾讯选择在这个时间点补齐两端,意味着其 AI 战略已经从单纯的模型能力追赶,转向系统能力构建。

庞天宇的加入,更像是一个技术路线上的“落子”,而不是单点补强。

当大模型进入“会行动”的阶段,腾讯追求的是率先跑通完整闭环的能力

从姚顺雨到庞天宇,腾讯正在做的,并不是简单堆人,而是逐步搭建一个从推理、到感知、到决策的完整能力栈。这条路难度极高,也未必立刻见效,但一旦跑通,壁垒同样极高。

大模型竞赛已然进入下半场。真正拉开差距的,可能不再是谁生成得“更像人”,而是谁的模型能在真实世界里“成为人”。(转载自AI普瑞斯)

相关内容

热门资讯

手机“贴一贴”可能无形中泄密 ... 记者从国家安全部了解到,NFC(近场通信技术)作为一种便捷的无线通信方式,已广泛应用于移动支付、门禁...
体验了元宝派一周 AI还没敲开... 文 | 冷眼观天 2026年1月26日,腾讯元宝上线了一个叫“元宝派”的新功能,开始内测。 七天过去...
原创 腾... 文|唐辰 图注:元宝派开启公测 唐辰截图 腾讯迫切需要找到下一个“微信”。 2026年AI圈的年...
原创 一... “苹果税”争议下的苹果公司财报 当地时间1月29日,苹果公司发布2026财年第一季度(截至2025年...
小河之约|对话梁海源:段子如何... 【播客】梁海源的段子是如何从生活里长出来的 欢迎大家收听澎湃有戏出品的《有戏·小河之约》播客。这一...
小米雷军科普SU7:车外“小爱... IT之家 2 月 1 日消息,小米创办人,董事长兼 CEO 雷军今晚在北京亦庄举行科普直播,揭秘新一...
人工智能如何赋能文化产业 省政... 人工智能如何赋能文化产业 省政协委员李涛分享自己的想法 可构建河南历史文化数字IP资源库 李涛 本...
数字人主播等生成内容被纳入监管 《直播电商监督管理办法》(以下简称《办法》)自2月1日起施行,将数字人主播等纳入监管,以促进人工智能...
荣耀终端申请通信方法专利,消除... 国家知识产权局信息显示,荣耀终端股份有限公司申请一项名为“一种通信方法、装置、芯片及存储介质”的专利...
手术机器人收费有了“国家标准” 近日,国家医保局发布《手术和治疗辅助操作类医疗服务价格项目立项指南(试行)》。针对3D打印、手术机械...