原创 机器人学技能总摔东西?世界模型让机器人训练成本大降,效率飙升
创始人
2025-12-09 21:22:45
0

文 |姑苏九歌

编辑 |姑苏九歌

最近机器人圈有个新闻,复旦大学团队搞出个ProphRL框架,说是能让机器人少摔东西还学得快。

现在的机器人想变聪明,都绕不开VLA模型,就是让机器视觉、语言、动作三合一,听着挺玄乎,其实就是让机器人“看懂、听懂、会动”。

不过老方法有个大毛病,就是让机器人跟着视频学,也就是模仿学习。

你让它学叠衣服,学个十次八次还行,次数多了就开始手抖,误差跟滚雪球似的越积越大,最后叠成一团乱麻。

这就像让小学生抄作业,抄着抄着就串行了,靠谱不了。

不光叠衣服,复杂点的任务更麻烦。

之前有个Pi*0.6模型搞离线强化学习,看着挺高级,结果人工干预占了训练流程的60%。

工程师天天守着机器人,它一犯错就得手动掰回来,这哪是训练机器人,简直是训练人当保姆,费时费力还费钱。

学不好就算了,练手的工具也不给力。

以前机器人训练用的仿真器,比如MuJoCo、Isaacsim,看着像那么回事,一到真东西就拉胯。

你让它拉张纸巾,视觉上看着跟真的一样,动力学完全不对,纸巾要么纹丝不动,要么被扯烂,成功率连30%都不到。

更头疼的是换东西就得大调参数,今天练抓铁球,明天练抓海绵,仿真器里的物理引擎参数得从头改,工程师天天调参数头都大了。

这就像给汽车换个轮胎,结果得把整个发动机拆开重装,纯属折腾人。

老方法坑这么多,总得有新招吧?复旦大学这个Prophet世界模型就不一样了。

它能根据机器人的动作,预测出接下来的视频画面,相当于机器人自己在脑子里“预演”一遍。

比如要抓杯子,它先在脑子里想,“我这么抓,杯子会不会滑?会不会碰倒旁边的瓶子?”想明白了再动手,出错自然就少了。

这个模型有个FramePack历史记忆机制,听着挺专业,说白了就是让机器人“记住”之前的动作和画面,别抓了半天忘了自己手在哪儿。

以前的模型预测个三五步就开始“失忆”,现在能记好几十步,动作自然就连贯了,不会抓着抓着突然“手滑”。

光会想还不行,还得会学。

ProphRL框架里有个Prophet世界模型,专门管“脑内预演”。

它有两套动作编码,一个管机械臂怎么动,比如胳膊往哪伸、手怎么转,一个管摄像头怎么看,相当于边动手边调整视角,双保险。

最厉害的是学新东西快,以前机器人换个任务,得看成千上万的例子,现在Prophet模型看百十来个真实轨迹就会了。

比如从抓铁球到抓塑料袋,不用从头教,稍微点拨一下就明白,跟学霸看例题似的,一点就透。

模型厉害还不够,还得有好算法推着学,这就轮到FA-GRPO算法出场了。

以前训练机器人算梯度,跟坐过山车似的忽高忽低,学半天没效果。

FA-GRPO把这些梯度合并一下,稳多了,就像开车遇到坑洼路,以前是硬冲,现在慢慢过,舒服还安全。

奖励机制也改了,以前看机器人干得好不好,就量距离,比如杯子离目标差几厘米。

现在不一样了,把视频和语言结合起来评,比如“杯子抓稳了没?”“动作流畅不?”更像教练带徒弟,不光看结果,还看过程漂不漂亮。

这俩合在一起,就形成了“想象-学习-迁移”的闭环。

机器人先在脑子里预演,错了就改,改好了再用算法优化,最后用到真机器人上。

NeurIPS25那篇论文里说,这么一来,比之前Pi*0.6模型少依赖80%的真机交互,意思就是以前摔10个瓶子,现在摔2个就够了,省钱省力。

吹了这么多,真有这么神?得看实验。

他们拿VLA-adapter-0.5B这些模型测试,成功率一下涨了5%-17%。

别小看这几个百分点,机器人圈里,1%的提升都能吹半年,这一下子涨这么多,确实能让同行眼红。

跨数据集测试也稳,不管是AgiBot还是LIBERO的测试集,表现都差不多,说明不是“偏科生”,换个考场照样考高分。

以前的模型就像只会做课后题,换套卷子就懵,现在这个算是有点真本事了。

真机器人上试过没?必须的。

抓瓶子、拉纸巾、叠衣服、拧瓶盖这四样,平均成功率比纯模仿学习高了24%-30%。

抓瓶子以前可能十次掉三次,现在掉一次都难,拉纸巾以前跟扯破布似的,现在能整整齐齐拉出来,进步肉眼可见。

这事儿对机器人圈影响不小,以前搞训练,实验室地上全是碎瓶子、烂纸巾,经费都花在换零件上,工程师天天蹲实验室当“保洁员”。

现在有了世界模型,机器人先在脑子里练,练熟了再上手,实验室阿姨都能少骂几句。

不过要说完美也谈不上,现在最多预演几十步,要是让机器人干个复杂的,比如组装个小家具,一百多步的动作,它可能想到一半就“断片”了。

而且现在主要适配一种机器人,换个长胳膊短腿的,还得重新调,这都是以后要解决的问题。

总的来说,复旦大学这个ProphRL框架算是摸到了门道。

用世界模型让机器人“脑内彩排”,用强化学习优化动作,最后少依赖真机,这条路子是对的。

以后机器人想学新技能,可能不用再摔那么多瓶子,咱们也能早点用上聪明又能干的机器人了。

这事儿,值得期待。

相关内容

热门资讯

黑科技好友房(wpK)ai辅助... 1、黑科技好友房(wpK)ai辅助(透视)透视辅助是否真实存在(素来存在有挂)(UU poker、、...
黑科技好友!红龙扑克机制(WE... 黑科技好友!红龙扑克机制(WEPOKE)黑科技辅助软件(最新技巧黑科技教程)1、很好的工具软件,可以...
黑科技辅助"哈糖大菠... 黑科技辅助"哈糖大菠萝有辅助吗!外挂透明挂辅助软件(黑科技)曝光教程"竟然是有挂1)哈糖大菠萝有辅助...
安卓版黑科技!德州扑克微扑克俱... 安卓版黑科技!德州扑克微扑克俱乐部(透视)太坑了真的是有挂(教你攻略黑科技黑科技);1、在德州扑克微...
黑科技插件(wepoker)软... 黑科技插件(wepoker)软件透明演示(黑科技)发牌机制讲解(一贯真的有挂);1分钟了解详细教程(...
黑科技辅助"wpk外... 黑科技辅助"wpk外挂是真的还是假的!外挂透明挂辅助挂(黑科技)可靠教程"切实是有挂小薇(透视辅助)...
黑科技了解!德州之星有app辅... 黑科技了解!德州之星有app辅助(wEpoKe)外挂透明挂辅助插件(记者揭秘黑科技神器)准备好在德州...
规律黑科技!红龙扑克好友桌(透... 规律黑科技!红龙扑克好友桌(透视)太坑了有挂(技巧教程黑科技辅助)1、红龙扑克好友桌ai辅助优化,红...
辅助黑科技(AAPOKEr)辅... 辅助黑科技(AAPOKEr)辅助器小程序(透视)辅助是有(总是是真的有挂)是一款可以让一直输的玩家,...
合创场景,共赢未来! 在新一轮科技革命和产业变革加速演进的背景下,场景已成为推动科技与产业融合的关键枢纽。稍早前,国务院办...