“大语言模型是基础,世界模型是途径,自主智能才是AI的终极奥义。
在过去两年里,大语言模型(LLM)在语言理解、文本生成、推理、指令执行等方向取得突破,使AI在理解语义层面变得越来越可靠。
然而,语言智能只是通向通用智能的一环。要让AI在懂语言的基础上,去理解真正的世界,就必须让它理解环境、感知动态、在环境中做出行动判断。这其中的关键,就是世界模型(World Model)。
世界模型的核心是让AI内部构建一个可交互的世界,要理解物理规则、模拟未来状态、预测动作结果。实现从静态图像、视频生成,逐步走向多模态、带动作控制的视觉语言动作模型(VLA,Vision-Language-Action)。
从OpenAI的Sora(文本→视频世界模拟)到DeepMind的Genie(可交互世界生成),从Meta的V-JEPA 2(视觉自监督世界模型)到特斯拉在自动驾驶系统中隐含的世界意识探索,乃至国内诸如华为ADS等智驾系统,这些案例都表明世界模型正成为AI Agent化路径上的关键支点。
可以预见,未来的AI Agent很可能是“LLM+世界模型+执行动作层”的三层协同结构。理解这一趋势,对我们判断产业方向、技术路线、战略布局至关重要。
如果说大语言模型让AI学会了理解语言,那么世界模型的出现,则意味着AI开始尝试理解世界。
在人工智能研究的脉络中,“世界模型”(World Model)并不是一个全新的概念。早在2018年,谷歌大脑研究科学家David Ha与瑞士AI实验室IDSIA负责人Jürgen Schmidhuber在经典论文《World Models》中提出,智能体要想高效学习,就必须在大脑中构建世界的内部模型。这种模型能够通过感知输入,去预测外部世界在未来的变化,在内部“想象”出一系列可能的结果,从而据此选择行动。
智能体包含紧密相连的三个模块:视觉 (V)、记忆 (M) 和控制器 (C)(来自World Models)
彼时,世界模型还主要服务于强化学习领域,用于在游戏或仿真环境中帮助智能体做规划与决策。
随着算力的提升和多模态学习的成熟,世界模型的内涵被重新定义,从在仿真环境里学习,演进为让AI自己生成并理解环境。比如谷歌DeepMind在Dreamer系列工作中,让智能体能够在潜在空间(latent)中对未来进行滚动预测(roll-out),从而无需真实环境就能完成策略优化。这种思路,被视为世界模型的早期成熟版本,也让预测未来成为机器学习的新边界。
而真正让世界模型走出学术圈,成为AI产业热词,是视频生成技术的突破。
2024年2月15日,OpenAI发布Sora模型,并在官方论文中首次明确提出,视频生成模型正在成为世界模拟器(world simulator)。Sora不仅能生成语义上合理的视频,还能在物理规律、光影运动、空间连续性等层面维持一致性,让AI演绎世界成为可能。
Sora2
几乎在同一时间,Meta发布视觉自监督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。这是由Yann LeCun团队主导的项目,旨在让AI通过预测视觉序列中的时空变化,在潜在空间中理解世界的结构与规律。与生成式模型不同,V-JEPA不直接生成图像,而是学习世界的抽象表征,这是Meta首次在视觉领域明确提出构建世界模型的研究方向。
仅在那十余天后,DeepMind发布了Genie模型。与Sora不同,Genie并不是单纯的视频生成器,而是一个“可玩世界”的生成模型,可以从普通视频素材中学习环境规律,并生成可实时交互的二维游戏场景。用户可以控制角色在生成的世界中移动、碰撞、跳跃,这种“生成—交互—反馈”的闭环,被认为是世界模型从被动感知迈向主动参与的重要一步。
Sora、V-JEPA与Genie,分别代表了世界模型演化的三个方向,生成世界、理解世界、参与世界。三者几乎出现在同一时间节点,共同组成了世界模型认知层面的突破。
而另一条更具现实意义的路径,则来自执行层面的落地。
自2023年底起,特斯拉在其自动驾驶系统FSD(Full Self-Driving)中推行端到端神经网络架构,从感知到规划再到控制,全部由统一模型完成。
马斯克将FSD V12称为世界模型驱动的驾驶系统,因为车辆已不依赖高精地图或人工编码规则,而是通过多摄像头视频流在内部重建外部环境,并实时预测交通参与者的行为。今年上半年推出的FSD V13进一步加入时序记忆与多模态预测,使这一世界模型式驾驶的雏形更趋完整。
而在国内,这样的探索思路也几乎同步落地。
比如华为在2024年4月发布ADS 3.0(乾崑),以去高精地图与世界建模感知为核心,依托多源传感重建动态场景;
小鹏在2024年5月公布XPlanner(规划与控制大模型),与感知网络XNet、车载大模型XBrain组成端到端量产栈,将长时序预测引入轨迹规划;
百度Apollo则在同月推出ADFM自动驾驶基础模型,并搭载到第六代 Robotaxi。
这些系统共同指向一个趋势,世界模型正在从虚拟场景走向真实世界,从“认知世界”转向“执行世界”。如果说Sora、V-JEPA、Genie们构建的是AI的感知与想象层,那么FSD、ADS、XPlanner、Apollo们则构建了AI的行动与落地层。前者是通往通用智能的基础,后者则是将智能具象化的通道。
如今,世界模型已经成为全球AI竞争的新焦点。其中,最具代表性的当属中美之间的竞争。
这场看似关于算法的较量,背后却是认知方式与产业逻辑的分歧,也正因为这种分歧,中美两国正走在两条不同的路径上。
前文说过,在美国,OpenAI、DeepMind、Google、Meta、Anthropic五大巨头构成了最具体系化的“世界建模阵营”。
它们的共同特征是,从语言模型出发,沿着认知—生成—具身(Embodied)的路线,把AI从语言理解延伸到物理模拟。
今年9月,Sora 2登场,不仅整合了音视频统一建模和动态光照控制,还新增 “Cameo”功能,让用户可以直接把自己嵌入生成的世界中。
今年8月,DeepMind发布Genie 3,允许从自然语言直接生成三维、可操作的虚拟世界,用户能实时控制角色,与环境交互并观察反馈。
今年6月,Meta V-JEPA 2以自监督方式让AI理解视频中的时序与动力规律,成为世界模型“视觉直觉”的雏形。它不依赖标签数据,而是通过预测画面未来帧的方式,逼近人类感知世界的方式。
与此同时,尽管Google Gemini 2.5 Pro与Anthropic Claude 4.5不算严格意义上的世界模型,但它们都在让语言模型具备理解世界的能力,前者通过多模态语义建模理解现实逻辑,后者通过隐式因果推理保持认知一致性。
以此可见,美国的研究体系已经形成了完整的认知链条,从理解语言、预测视觉变化到生成并模拟世界。
而在中国,世界模型的侧重方向更贴近执行层面。
从智能驾驶到行业智能体,再到具身机器人,国内企业更关注AI在真实物理环境中的可感知、可预测与可执行性。可以说,中国企业更看重系统集成与工程落地。
智能驾驶之外,国内世界模型的思想和策略也正在进入更多行业场景。
比如华为盘古大模型引入物理建模框架,将世界模型理念应用到气象预测、制造、制药等工业领域;
百度文心在视频理解和数字人交互中融入动态世界建模机制,此类案例非常多,这里就不一一展开。
更具代表性的,是中国在具身智能方向的系统化突破。
过去一年,宇树、优必选、傅利叶、小米等公司,陆续推出新一代人形与四足机器人,让世界模型从算法概念真正落地到机器身体。
比如宇树发布的R1人形机器人,支持图像与语音多模态融合,可进行动态行走与交互;
优必选 Walker S2具备灵巧双臂与自主换电功能,更贴近工业执行场景;
傅利叶推出可遥操作的GR-3C人形机器人版本,可用于康复与人机协作;
从智能驾驶,到智能机器人,中国的AI正在推动世界模型从虚拟走向物理,从算法走向具身。
中美世界模型生态逻辑对比:
当然,这种解读仅限于生态偏重,不涉及能力边界。
美国并非只有认知与生成。以特斯拉、Figure AI、Boston Dynamics为代表的企业,已经在构建具身智能与自动驾驶的世界建模系统建立一定优势。
国内也不止于感知与执行。万相、可灵等视频生成模型,也在构建中国版的“视觉世界模拟器”。
尽管中美两国为代表的世界模型演变生态逻辑不同,但从更长的技术周期看,这种分野正逐渐进化为互补关系。
世界模型的最终方向,肯定不是生成完美的视频,也不是控制一辆汽车,而是打通“理解—预测—行动”的完整闭环。从这个层面来说,中美两国正共同构建通向通用智能的现实路径。
过去十年,AI的每一次跃迁都源自输入方式的变革:文字带来了语言智能,图像催生了视觉智能,而如今,世界模型正在让AI理解现实世界,一个有时间、有空间、有因果的动态系统。
这正是世界模型的核心价值,它让AI获得了具身智能(Embodied Intelligence)的基础。
在过去的一年中,具身智能已经成为全球AI研究的共识。
如OpenAI投资的Figure AI,正在以GPT系列模型驱动人形机器人的决策系统;特斯拉的FSD与Optimus,分别在道路和工厂场景中验证世界模型驱动的闭环控制;中国的机器人企业也在让模型直接掌控传感器与电机,使算法真正落地到身体。
这种趋势背后,AI正在经历一场从虚拟智能到物理智能的转变。在虚拟世界中,它生成一段视频或一段话,而在物理世界中,它必须理解摩擦力、时间延迟和人的意图。
可以预见,未来的智能体将是一个多层协作系统:上层的大语言模型负责目标规划与逻辑推理,中层的世界模型负责环境建模与因果预测,底层的执行系统则负责感知、行动与反馈。
当这三层闭合,AI才真正拥有“意图—计划—行动”的完整循环,这正是通用智能的现实路径。
再往前一步,便是AI的终极奥义——自主智能(Autonomous Intelligence)。
一旦AI能在内部模拟世界、预测变化并根据反馈修正决策,它就不再只是生成内容、执行动作,甚至可能思考如何存在。
这意味着,AI将具备一种内在的驱动力:能根据环境变化自主设定目标、规划路径、评估后果、修正策略。这种能力不再依赖外部指令,而是建立在长期记忆、世界建模与价值函数的协同基础之上。
可以说,自主智能是AI自我意识的一种雏形,即不以人类输入为中心,而以世界模型为认知坐标系,主动发现问题、验证假设、优化自身。
智能的定义,也将被彻底改写。
当然,这是最顺畅的路径。事实上,每一次智能的跃迁,都伴随着新的复杂性与不确定性。
首先,是技术和生态层面的挑战。
与语言模型不同,世界模型必须同时理解文本、图像、视频、语音、动作等多模态信息。数据维度暴涨、推理链条加深、模型参数呈指数级增长,对算力、能耗与数据质量提出了前所未有的要求。
Sora级别的视频生成模型都需要巨量GPU支撑,而具身智能又要求在端侧实现实时计算,其中的复杂性将考验当下的算力极限。
同时,世界模型也缺乏跨平台协同的工程体系配套。目前而言,世界模型没有标准,缺乏统一的训练语料、可比的评价指标与公共实验平台,企业往往各自为战。
如果无法实现跨模型的可验证性与可复用性,世界模型的生态就很难真正形成规模化创新。
其次,是认知层面的挑战。
世界模型的强大之处,在于它可以在内部推演与预测,但这也让它的决策过程愈发难以被人类理解。试想一下,当一个模型能在潜在空间中模拟成千上万种结果时,我们还能否追踪它的决策逻辑?
从自动驾驶的责任归属,到自主智能之间,有没有可能产生长期目标漂移(Goal Drift)?进而延伸出AI的目标是否仍与人类一致的问题。
一旦AI从被动执行转为主动学习,安全与伦理的议题,也随之从技术层面上升到价值层面。
接下来,是产业和伦理层面的挑战。
世界模型的进一步发展,势必重新定义产业边界。AI不仅可能重构交通、制造、医疗、金融等领域的决策体系,也将催动算法主权、智能监管等制度议题。
中美虽然在路径上各有偏重,美国凭借资本与开放生态快速试错,中国依托产业链协同推进落地,但双方都面临同一问题,当世界模型真正嵌入社会运行系统,它将以何种规则参与人类世界?
就目前而言,世界模型所依托的世界,仍建立在人类提供的语料、规则与经验上。但AI进化下,人类需要持续地在技术、伦理与治理层面为智能设定边界,这会是一项长期的考验。
总之,世界模型是算法从符号空间步入物理现实的通道。大语言模型构建了AI的语义基础,世界模型打开了AI的行动途径,目标是智能的真正落地。
可以肯定的是,世界模型的意义,绝对不是让AI更像人,而是让人类在AI的协同下,走向更远的未来。