明星公司轮番崛起 AI加速走向物理世界
创始人
2025-06-10 09:22:08
0

日前,第七届智源大会在北京举行,被“众星捧月”的嘉宾从去年的月之暗面创始人杨植麟变更为今年的宇树科技CEO王兴兴。在多位与会人士看来,一轮又一轮明星公司或创业者崛起的背后,AI(人工智能)越来越快的发展速度是核心驱动力。

参与主论坛的图灵奖得主、深度学习领域奠基人之一的蒙特利尔大学教授Yoshua Bengio称:“我们低估了AI进步的速度。”面壁智能CEO李大海也在采访中表示,技术的发展是非线性的,大模型作为基础技术与基础设施,待未来发展到一定程度后,行业一定会更关注基础设施之上的应用,这是行业合理规律。

今年智源大会传递出的AI重点从大语言模型的预训练,更迭为世界模型的培育发展。智源研究院院长王仲远表示,AI正加速从数字世界走向物理世界。

何为世界模型

对于世界模型的精准定义,王仲远在采访中表示,目前世界范围内暂时没有共通的定义,已存在的名称包括“空间智能”“时空智能”等。此次智源研究院发布的一系列相关产品与技术,也代表了自身对世界模型的理解。

近年来,大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合,进而驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合。

因此今年,智源推出“悟界”系列大模型,承载的是智源对人工智能从数字世界迈向物理世界的技术趋势判断与思考。具体来讲,“悟界”系列包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

其中,Emu3对多模态技术的升级迭代具有重要作用。多模态是通往AGI(通用人工智能)的必由之路,系同时使用多种不同类型的数据形式——如图像、文本、语音、视频、传感器信号等,来共同表达信息或完成任务的技术或系统。

王仲远表示,大模型技术过往基于互联网数据,尤其是互联网文本数据训练而来,固然对知识的理解很强,但对真实世界的运作规律并不理解。AI从数字世界跨向物理世界时必须突破数字世界的隔阂,最重要的隔阂和边界是空间和时间的感知。这也是此次智源一系列AI产品进行具身与脑科学等行业落地时,可以进一步探索的方向。

底座大模型如何破瓶颈

无论是物理世界还是数字世界,AI落地都需要底座大模型的智能化支撑。

王仲远认为,大模型技术还远没有到发展的尽头,过往所说的“百模大战”更多的是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前,突破瓶颈的解法包括强化学习、数据合成、多模态数据三方面。

强化学习在后训练和推理方面的提升作用已明确表现在OpenAI o1、o3、o4、DeepSeek R1等产品上,合成数据目前学术界仍在努力突破。至于多模态数据,在全世界范围内,多模态数据规模可达文字数据的百倍、千倍甚至万倍以上,但这些数据远未被高效利用,多模态技术的发展也是本届大会讨论的重点之一。

去年智源便对大模型的技术路线进行了预判:从大语言模型向多模态,尤其是原生多模态世界模型的方向发展。而原生多模态世界模型本质上是为了让AI感知和理解物理世界,进而推进与物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。

针对物理世界对数据需求量大、目前多模态数据又不足的难题,王仲远表示这是具身智能目前存在循环悖论——具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。这一困难从不同角度出发有不同解法,智源走的是大模型路线,更多依靠互联网数据帮助机器人学习智能。

具体训练方式表现为不断学习海量已有数据,再通过强化学习和少量真实世界的数据不断训练其能力,不断突破具身智能的发展上限,这与大模型发展路线不谋而合,基础能力发展到一定程度后,可以通过强化学习进一步激发智能化程度。

王仲远强调,由于目前具身领域的技术路线尚未收敛,不同厂商、不同团队都在用不同方式进行探索,智源走的技术路线目前只是“一家之言”。

具身热但发展状态尚早

具身智能不仅是智源提及世界模型与物理世界建立联系的“渠道”之一,更是此次大会重点核心议程。

智源提供的解决方式之一便是跨本体的具身大脑,未来行业可以通过具身智能的融合模型突破硬件构型、数据类型,使得这些数据能够被真正有效集成起来,这样采集的真机数据不会被浪费。但同时,王仲远表示,具身大脑的跨本体相对较为容易,而具身大脑最重要的是感知与理解世界,通过与世界交互,完成任务规划与指令拆解,这部分仅仅通过大脑是不够的,还需要指挥硬件本体,后者是更大的挑战。另外,跨本体的小脑技能目前还未完全掌握技术路线。

在北京人形机器人创新中心有限公司CTO唐剑看来,机器人行业发展还面临多项痛点,第一就是机器人的场景泛化能力差,比如一款机器人只能工作在一个场景内,打螺丝的专职打螺丝,酒店送餐的专职送餐,很难看到原来干打螺丝工作的机器人跑去酒店送餐。其次,即使在单一场景内,机器人也需要搭载不同的程序与软件来完成,因此机器人的任务泛化能力也很差。第三点便是机器人的本体泛化能力差,厂商一般针对具体某一类工作场景设计一款机器人本体。

整体来看,王仲远总结称:具身大模型的发展仍处于非常早期的阶段,可类比大模型在GPT-3 之前的技术探索期,具体包括技术路线尚未形成共识,学界与产业界对核心技术路径存在分歧,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;另外产业落地尚需突破,尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需解决“感知—决策—行动”协同、多模态数据融合等基础问题。具体技术路径的成熟与产业落地仍需多方长期共同努力。

相关内容

热门资讯

每日必看推荐!(雀神广东麻将软... 每日必看推荐!(雀神广东麻将软件插件安装教程)详细教程(透视)其实真的有挂(有挂教程)-哔哩哔哩;是...
火狐Firefox浏览器官方A... 6 月 10 日消息,Mozilla 公司宣布将于 2025 年 6 月 26 日正式关闭其火狐 F...
总算了解!(小程序雀神广东麻将... 总算了解!(小程序雀神广东麻将一直输)详细教程(透视)的确真的有挂(有挂介绍)-哔哩哔哩;小程序雀神...
汇聚更加硬核的长三角创新力量 在新一轮科技革命和产业变革风起云涌的2025年,现象级创新成果DeepSeek惊艳全球,春晚上扭秧歌...
攻略讲解!(雀神辅助器苹果版)... 攻略讲解!(雀神辅助器苹果版)详细教程(透视)其实真的有挂(有挂规律)-哔哩哔哩1、完成雀神辅助器苹...
玩家必用!(全民雀神棋牌有插件... 玩家必用!(全民雀神棋牌有插件)详细教程(辅助挂)竟然是真的有挂(有挂透明)-哔哩哔哩是一款可以让一...
中国电研获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示中国电研(688128)新获得一项实用新型专利授权,专利名为“...
中国科研团队首次证实,人工智能... 钛媒体App 6月9日消息,中国科研团队结合行为实验与神经影像分析,首次证实多模态大语言模型能自发形...
“独角兽”企业完成IPO辅导!... 近日,证监会披露了国泰海通关于视涯科技股份有限公司(简称“视涯科技”)首次公开发行股票并上市辅导工作...
三分钟了解!(雀神智能辅助)详... 三分钟了解!(雀神智能辅助)详细教程(辅助挂)其实真的有挂(有挂规律)-哔哩哔哩1、点击下载安装,微...