原创机器人学技能总摔东西？世界模型让机器人训练成本大降，效率飙升_科技资讯

原创机器人学技能总摔东西？世界模型让机器人训练成本大降，效率飙升

创始人

2025-12-09 21:22:45

0次

文 |姑苏九歌

编辑 |姑苏九歌

最近机器人圈有个新闻，复旦大学团队搞出个ProphRL框架，说是能让机器人少摔东西还学得快。

现在的机器人想变聪明，都绕不开VLA模型，就是让机器视觉、语言、动作三合一，听着挺玄乎，其实就是让机器人“看懂、听懂、会动”。

不过老方法有个大毛病，就是让机器人跟着视频学，也就是模仿学习。

你让它学叠衣服，学个十次八次还行，次数多了就开始手抖，误差跟滚雪球似的越积越大，最后叠成一团乱麻。

这就像让小学生抄作业，抄着抄着就串行了，靠谱不了。

不光叠衣服，复杂点的任务更麻烦。

之前有个Pi*0.6模型搞离线强化学习，看着挺高级，结果人工干预占了训练流程的60%。

工程师天天守着机器人，它一犯错就得手动掰回来，这哪是训练机器人，简直是训练人当保姆，费时费力还费钱。

学不好就算了，练手的工具也不给力。

以前机器人训练用的仿真器，比如MuJoCo、Isaacsim，看着像那么回事，一到真东西就拉胯。

你让它拉张纸巾，视觉上看着跟真的一样，动力学完全不对，纸巾要么纹丝不动，要么被扯烂，成功率连30%都不到。

更头疼的是换东西就得大调参数，今天练抓铁球，明天练抓海绵，仿真器里的物理引擎参数得从头改，工程师天天调参数头都大了。

这就像给汽车换个轮胎，结果得把整个发动机拆开重装，纯属折腾人。

老方法坑这么多，总得有新招吧？复旦大学这个Prophet世界模型就不一样了。

它能根据机器人的动作，预测出接下来的视频画面，相当于机器人自己在脑子里“预演”一遍。

比如要抓杯子，它先在脑子里想，“我这么抓，杯子会不会滑？会不会碰倒旁边的瓶子？”想明白了再动手，出错自然就少了。

这个模型有个FramePack历史记忆机制，听着挺专业，说白了就是让机器人“记住”之前的动作和画面，别抓了半天忘了自己手在哪儿。

以前的模型预测个三五步就开始“失忆”，现在能记好几十步，动作自然就连贯了，不会抓着抓着突然“手滑”。

光会想还不行，还得会学。

ProphRL框架里有个Prophet世界模型，专门管“脑内预演”。

它有两套动作编码，一个管机械臂怎么动，比如胳膊往哪伸、手怎么转，一个管摄像头怎么看，相当于边动手边调整视角，双保险。

最厉害的是学新东西快，以前机器人换个任务，得看成千上万的例子，现在Prophet模型看百十来个真实轨迹就会了。

比如从抓铁球到抓塑料袋，不用从头教，稍微点拨一下就明白，跟学霸看例题似的，一点就透。

模型厉害还不够，还得有好算法推着学，这就轮到FA-GRPO算法出场了。

以前训练机器人算梯度，跟坐过山车似的忽高忽低，学半天没效果。

FA-GRPO把这些梯度合并一下，稳多了，就像开车遇到坑洼路，以前是硬冲，现在慢慢过，舒服还安全。

奖励机制也改了，以前看机器人干得好不好，就量距离，比如杯子离目标差几厘米。

现在不一样了，把视频和语言结合起来评，比如“杯子抓稳了没？”“动作流畅不？”更像教练带徒弟，不光看结果，还看过程漂不漂亮。

这俩合在一起，就形成了“想象-学习-迁移”的闭环。

机器人先在脑子里预演，错了就改，改好了再用算法优化，最后用到真机器人上。

NeurIPS25那篇论文里说，这么一来，比之前Pi*0.6模型少依赖80%的真机交互，意思就是以前摔10个瓶子，现在摔2个就够了，省钱省力。

吹了这么多，真有这么神？得看实验。

他们拿VLA-adapter-0.5B这些模型测试，成功率一下涨了5%-17%。

别小看这几个百分点，机器人圈里，1%的提升都能吹半年，这一下子涨这么多，确实能让同行眼红。

跨数据集测试也稳，不管是AgiBot还是LIBERO的测试集，表现都差不多，说明不是“偏科生”，换个考场照样考高分。

以前的模型就像只会做课后题，换套卷子就懵，现在这个算是有点真本事了。

真机器人上试过没？必须的。

抓瓶子、拉纸巾、叠衣服、拧瓶盖这四样，平均成功率比纯模仿学习高了24%-30%。

抓瓶子以前可能十次掉三次，现在掉一次都难，拉纸巾以前跟扯破布似的，现在能整整齐齐拉出来，进步肉眼可见。

这事儿对机器人圈影响不小，以前搞训练，实验室地上全是碎瓶子、烂纸巾，经费都花在换零件上，工程师天天蹲实验室当“保洁员”。

现在有了世界模型，机器人先在脑子里练，练熟了再上手，实验室阿姨都能少骂几句。

不过要说完美也谈不上，现在最多预演几十步，要是让机器人干个复杂的，比如组装个小家具，一百多步的动作，它可能想到一半就“断片”了。

而且现在主要适配一种机器人，换个长胳膊短腿的，还得重新调，这都是以后要解决的问题。

总的来说，复旦大学这个ProphRL框架算是摸到了门道。

用世界模型让机器人“脑内彩排”，用强化学习优化动作，最后少依赖真机，这条路子是对的。

以后机器人想学新技能，可能不用再摔那么多瓶子，咱们也能早点用上聪明又能干的机器人了。

这事儿，值得期待。

上一篇：AO3407-ASEMI新能源领域核芯组件AO3407

下一篇：详细黑科技（AAPOkER）辅助实际测试（透视）辅助器是真的（总是真的有挂）

原创机器人学技能总摔东西？世界模型让机器人训练成本大降，效率飙升

相关内容

热门资讯

原创 机器人学技能总摔东西？世界模型让机器人训练成本大降，效率飙升

相关内容

热门资讯

原创机器人学技能总摔东西？世界模型让机器人训练成本大降，效率飙升