文 |姑苏九歌
编辑 |姑苏九歌
最近机器人圈有个新闻,复旦大学团队搞出个ProphRL框架,说是能让机器人少摔东西还学得快。
现在的机器人想变聪明,都绕不开VLA模型,就是让机器视觉、语言、动作三合一,听着挺玄乎,其实就是让机器人“看懂、听懂、会动”。
不过老方法有个大毛病,就是让机器人跟着视频学,也就是模仿学习。
你让它学叠衣服,学个十次八次还行,次数多了就开始手抖,误差跟滚雪球似的越积越大,最后叠成一团乱麻。
这就像让小学生抄作业,抄着抄着就串行了,靠谱不了。
不光叠衣服,复杂点的任务更麻烦。
之前有个Pi*0.6模型搞离线强化学习,看着挺高级,结果人工干预占了训练流程的60%。
工程师天天守着机器人,它一犯错就得手动掰回来,这哪是训练机器人,简直是训练人当保姆,费时费力还费钱。
学不好就算了,练手的工具也不给力。
以前机器人训练用的仿真器,比如MuJoCo、Isaacsim,看着像那么回事,一到真东西就拉胯。
你让它拉张纸巾,视觉上看着跟真的一样,动力学完全不对,纸巾要么纹丝不动,要么被扯烂,成功率连30%都不到。
更头疼的是换东西就得大调参数,今天练抓铁球,明天练抓海绵,仿真器里的物理引擎参数得从头改,工程师天天调参数头都大了。
这就像给汽车换个轮胎,结果得把整个发动机拆开重装,纯属折腾人。
老方法坑这么多,总得有新招吧?复旦大学这个Prophet世界模型就不一样了。
它能根据机器人的动作,预测出接下来的视频画面,相当于机器人自己在脑子里“预演”一遍。
比如要抓杯子,它先在脑子里想,“我这么抓,杯子会不会滑?会不会碰倒旁边的瓶子?”想明白了再动手,出错自然就少了。
这个模型有个FramePack历史记忆机制,听着挺专业,说白了就是让机器人“记住”之前的动作和画面,别抓了半天忘了自己手在哪儿。
以前的模型预测个三五步就开始“失忆”,现在能记好几十步,动作自然就连贯了,不会抓着抓着突然“手滑”。
光会想还不行,还得会学。
ProphRL框架里有个Prophet世界模型,专门管“脑内预演”。
它有两套动作编码,一个管机械臂怎么动,比如胳膊往哪伸、手怎么转,一个管摄像头怎么看,相当于边动手边调整视角,双保险。
最厉害的是学新东西快,以前机器人换个任务,得看成千上万的例子,现在Prophet模型看百十来个真实轨迹就会了。
比如从抓铁球到抓塑料袋,不用从头教,稍微点拨一下就明白,跟学霸看例题似的,一点就透。
模型厉害还不够,还得有好算法推着学,这就轮到FA-GRPO算法出场了。
以前训练机器人算梯度,跟坐过山车似的忽高忽低,学半天没效果。
FA-GRPO把这些梯度合并一下,稳多了,就像开车遇到坑洼路,以前是硬冲,现在慢慢过,舒服还安全。
奖励机制也改了,以前看机器人干得好不好,就量距离,比如杯子离目标差几厘米。
现在不一样了,把视频和语言结合起来评,比如“杯子抓稳了没?”“动作流畅不?”更像教练带徒弟,不光看结果,还看过程漂不漂亮。
这俩合在一起,就形成了“想象-学习-迁移”的闭环。
机器人先在脑子里预演,错了就改,改好了再用算法优化,最后用到真机器人上。
NeurIPS25那篇论文里说,这么一来,比之前Pi*0.6模型少依赖80%的真机交互,意思就是以前摔10个瓶子,现在摔2个就够了,省钱省力。
吹了这么多,真有这么神?得看实验。
他们拿VLA-adapter-0.5B这些模型测试,成功率一下涨了5%-17%。
别小看这几个百分点,机器人圈里,1%的提升都能吹半年,这一下子涨这么多,确实能让同行眼红。
跨数据集测试也稳,不管是AgiBot还是LIBERO的测试集,表现都差不多,说明不是“偏科生”,换个考场照样考高分。
以前的模型就像只会做课后题,换套卷子就懵,现在这个算是有点真本事了。
真机器人上试过没?必须的。
抓瓶子、拉纸巾、叠衣服、拧瓶盖这四样,平均成功率比纯模仿学习高了24%-30%。
抓瓶子以前可能十次掉三次,现在掉一次都难,拉纸巾以前跟扯破布似的,现在能整整齐齐拉出来,进步肉眼可见。
这事儿对机器人圈影响不小,以前搞训练,实验室地上全是碎瓶子、烂纸巾,经费都花在换零件上,工程师天天蹲实验室当“保洁员”。
现在有了世界模型,机器人先在脑子里练,练熟了再上手,实验室阿姨都能少骂几句。
不过要说完美也谈不上,现在最多预演几十步,要是让机器人干个复杂的,比如组装个小家具,一百多步的动作,它可能想到一半就“断片”了。
而且现在主要适配一种机器人,换个长胳膊短腿的,还得重新调,这都是以后要解决的问题。
总的来说,复旦大学这个ProphRL框架算是摸到了门道。
用世界模型让机器人“脑内彩排”,用强化学习优化动作,最后少依赖真机,这条路子是对的。
以后机器人想学新技能,可能不用再摔那么多瓶子,咱们也能早点用上聪明又能干的机器人了。
这事儿,值得期待。