原创 机器人学技能总摔东西?世界模型让机器人训练成本大降,效率飙升
创始人
2025-12-09 21:22:45
0

文 |姑苏九歌

编辑 |姑苏九歌

最近机器人圈有个新闻,复旦大学团队搞出个ProphRL框架,说是能让机器人少摔东西还学得快。

现在的机器人想变聪明,都绕不开VLA模型,就是让机器视觉、语言、动作三合一,听着挺玄乎,其实就是让机器人“看懂、听懂、会动”。

不过老方法有个大毛病,就是让机器人跟着视频学,也就是模仿学习。

你让它学叠衣服,学个十次八次还行,次数多了就开始手抖,误差跟滚雪球似的越积越大,最后叠成一团乱麻。

这就像让小学生抄作业,抄着抄着就串行了,靠谱不了。

不光叠衣服,复杂点的任务更麻烦。

之前有个Pi*0.6模型搞离线强化学习,看着挺高级,结果人工干预占了训练流程的60%。

工程师天天守着机器人,它一犯错就得手动掰回来,这哪是训练机器人,简直是训练人当保姆,费时费力还费钱。

学不好就算了,练手的工具也不给力。

以前机器人训练用的仿真器,比如MuJoCo、Isaacsim,看着像那么回事,一到真东西就拉胯。

你让它拉张纸巾,视觉上看着跟真的一样,动力学完全不对,纸巾要么纹丝不动,要么被扯烂,成功率连30%都不到。

更头疼的是换东西就得大调参数,今天练抓铁球,明天练抓海绵,仿真器里的物理引擎参数得从头改,工程师天天调参数头都大了。

这就像给汽车换个轮胎,结果得把整个发动机拆开重装,纯属折腾人。

老方法坑这么多,总得有新招吧?复旦大学这个Prophet世界模型就不一样了。

它能根据机器人的动作,预测出接下来的视频画面,相当于机器人自己在脑子里“预演”一遍。

比如要抓杯子,它先在脑子里想,“我这么抓,杯子会不会滑?会不会碰倒旁边的瓶子?”想明白了再动手,出错自然就少了。

这个模型有个FramePack历史记忆机制,听着挺专业,说白了就是让机器人“记住”之前的动作和画面,别抓了半天忘了自己手在哪儿。

以前的模型预测个三五步就开始“失忆”,现在能记好几十步,动作自然就连贯了,不会抓着抓着突然“手滑”。

光会想还不行,还得会学。

ProphRL框架里有个Prophet世界模型,专门管“脑内预演”。

它有两套动作编码,一个管机械臂怎么动,比如胳膊往哪伸、手怎么转,一个管摄像头怎么看,相当于边动手边调整视角,双保险。

最厉害的是学新东西快,以前机器人换个任务,得看成千上万的例子,现在Prophet模型看百十来个真实轨迹就会了。

比如从抓铁球到抓塑料袋,不用从头教,稍微点拨一下就明白,跟学霸看例题似的,一点就透。

模型厉害还不够,还得有好算法推着学,这就轮到FA-GRPO算法出场了。

以前训练机器人算梯度,跟坐过山车似的忽高忽低,学半天没效果。

FA-GRPO把这些梯度合并一下,稳多了,就像开车遇到坑洼路,以前是硬冲,现在慢慢过,舒服还安全。

奖励机制也改了,以前看机器人干得好不好,就量距离,比如杯子离目标差几厘米。

现在不一样了,把视频和语言结合起来评,比如“杯子抓稳了没?”“动作流畅不?”更像教练带徒弟,不光看结果,还看过程漂不漂亮。

这俩合在一起,就形成了“想象-学习-迁移”的闭环。

机器人先在脑子里预演,错了就改,改好了再用算法优化,最后用到真机器人上。

NeurIPS25那篇论文里说,这么一来,比之前Pi*0.6模型少依赖80%的真机交互,意思就是以前摔10个瓶子,现在摔2个就够了,省钱省力。

吹了这么多,真有这么神?得看实验。

他们拿VLA-adapter-0.5B这些模型测试,成功率一下涨了5%-17%。

别小看这几个百分点,机器人圈里,1%的提升都能吹半年,这一下子涨这么多,确实能让同行眼红。

跨数据集测试也稳,不管是AgiBot还是LIBERO的测试集,表现都差不多,说明不是“偏科生”,换个考场照样考高分。

以前的模型就像只会做课后题,换套卷子就懵,现在这个算是有点真本事了。

真机器人上试过没?必须的。

抓瓶子、拉纸巾、叠衣服、拧瓶盖这四样,平均成功率比纯模仿学习高了24%-30%。

抓瓶子以前可能十次掉三次,现在掉一次都难,拉纸巾以前跟扯破布似的,现在能整整齐齐拉出来,进步肉眼可见。

这事儿对机器人圈影响不小,以前搞训练,实验室地上全是碎瓶子、烂纸巾,经费都花在换零件上,工程师天天蹲实验室当“保洁员”。

现在有了世界模型,机器人先在脑子里练,练熟了再上手,实验室阿姨都能少骂几句。

不过要说完美也谈不上,现在最多预演几十步,要是让机器人干个复杂的,比如组装个小家具,一百多步的动作,它可能想到一半就“断片”了。

而且现在主要适配一种机器人,换个长胳膊短腿的,还得重新调,这都是以后要解决的问题。

总的来说,复旦大学这个ProphRL框架算是摸到了门道。

用世界模型让机器人“脑内彩排”,用强化学习优化动作,最后少依赖真机,这条路子是对的。

以后机器人想学新技能,可能不用再摔那么多瓶子,咱们也能早点用上聪明又能干的机器人了。

这事儿,值得期待。

相关内容

热门资讯

透视经验!wpk俱乐部辅助器,... 透视经验!wpk俱乐部辅助器,wpk有作必弊吗(透视)确实存在有脚本技巧(哔哩哔哩)1、wpk俱乐部...
透视手册!wepoker有什么... 透视手册!wepoker有什么规律,wepoker-h5下载(透视)一直真的是有脚本挂(哔哩哔哩)1...
透视积累!wepoker怎么获... 透视积累!wepoker怎么获得好牌,wepoker私人局规律(透视)一直是有脚本工具(哔哩哔哩)1...
透视教材!wepoker私人局... 透视教材!wepoker私人局俱乐部怎么进,wepoker透视挂底牌(透视)切实真的是有脚本器(哔哩...
透视手段!wepoker辅助透... 透视手段!wepoker辅助透视,wepoker辅助器如何使用(透视)切实是真的透视攻略(哔哩哔哩)...
透视项目!aa poker透视... 透视项目!aa poker透视软件,aa poker辅助(透视)一直有脚本脚本(哔哩哔哩)1、aa ...
透视经验!wpk辅助,wpk俱... 透视经验!wpk辅助,wpk俱乐部是做什么的(透视)一贯是有脚本软件(哔哩哔哩)wpk俱乐部是做什么...
透视模板!aapoker万能辅... 透视模板!aapoker万能辅助器,aapoker万能辅助器(透视)原来真的有脚本工具(哔哩哔哩)1...
透视手筋!wepoker高级辅... 您好,wepoker高级辅助这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】...
透视学习!aapoker辅助器... 透视学习!aapoker辅助器是真的吗,aapoker怎么开辅助器(透视)原来有脚本插件(哔哩哔哩)...