当地时间 8 月 5 日,谷歌 DeepMind 发布了其“世界模型”(World Model)的最新版本——Genie 3。该模型能够根据用户的文本或图像提示,实时生成可供用户及 AI 智能体(AI agent)进行互动的 3D 虚拟环境。相比前代产品,Genie 3 实现了向实时可交互虚拟世界模拟的重大跨越,尤其在互动时长和记忆连贯性上取得了巨大进步。
所谓“世界模型”,是一种旨在理解并模拟世界运行规律的 AI 系统。不同于传统的电子游戏需要开发者预先制作好所有 3D 资产和环境,世界模型可以仅凭一句指令,如“一个正在下雨的赛博朋克城市”或“一片阳光明媚的奇幻森林”,便能即时“创造”出一个对应的空间供用户进入探索。DeepMind 在这一领域已深耕十余年,从训练能够掌握复杂即时战略游戏的 AI,到为机器人和开放式学习开发模拟环境,Genie 系列模型正是这些研究的集大成者。
Genie 3 的核心突破在于其“实时交互性”和“长时程一致性”。此前的版本,如 2024 年 12 月发布的 Genie 2,虽然也能根据图像生成可互动的世界,但交互时间仅有 10 到 20 秒,且并非实时进行,分辨率也停留在 360p。而 Genie 3 则实现了质的提升,它能以 720p 的分辨率和每秒 24 帧(24fps)的速率流畅运行,用户可以持续进行长达数分钟的互动。
图丨Genie 3 的重要参数对比(DeepMind)
更重要的是,Genie 3 拥有了初步的“记忆”能力。在其技术演示中,模型能够维持大约一分钟的视觉记忆。如果一个用户在一个生成的房间墙壁上涂鸦,然后转身探索别处,过一会再回到原地,墙上的涂鸦依旧会保留。这种对环境状态的持续性记忆,是营造沉浸式体验的关键,它解决了前代模型在长时间交互后容易出现内容“遗忘”或前后矛盾的问题。DeepMind 的研究人员指出,这种长时程的一致性是一种涌现能力,并非被直接编码到模型中,这使得 Genie 3 生成的世界远比过去更加动态和丰富。
除了基础的导航探索,Genie 3 还引入了一项名为“可提示的世界事件”(promptable World Events)的功能。这允许用户在交互过程中,通过新的文本指令动态地改变世界。比如,用户可以在一个宁静的滑雪场景中输入指令“加入一群鹿”,模型便会实时在环境中生成相应的动态角色。
同样,用户也可以通过指令改变天气、添加物体,甚至召唤出完全不合常理的角色,如“穿着天鹅绒背心的大猩猩”。这种能力极大地增强了交互的自由度和创造性,使得这些 AI 生成的世界更像一个可以随意修改的“沙盒”,而不仅仅是一个被动探索的环境。
那么,谷歌为何要大力投入研发这样的世界模型?其应用远不仅限于游戏和娱乐。DeepMind 认为,Genie 3 更深远的目标在于推动通用人工智能(AGI,Artificial General Intelligence)的发展。研究人员认为,世界模型是通往 AGI 的关键基石,因为它们能够为 AI Agent 提供一个近乎无限的、丰富多样的模拟环境来进行训练。
为了验证这一点,DeepMind 已经将 Genie 3 用于其通用 AI 智能体 SIMA(Scalable, Instructable, Multiworld Agent)的训练。SIMA 的目标是学习在各种不同的 3D 虚拟环境中遵循自然语言指令来完成任务。通过在 Genie 3 生成的无数个世界中进行训练,SIMA 可以学习如何导航、与物体互动以及适应不可预见的突发状况,例如,指示 Agent 在一个虚拟花园里完成“靠近水管”这样的任务。这种方式为训练更强大、更通用的具身智能体(embodied agents),例如未来可能应用于工业、物流领域的自主机器人,提供了成本更低、效率更高且环境更多样化的解决方案。
不过,虽然 Genie 3 取得了巨大进步,但其目前仍存在诸多局限性。首先,Agent 本身能够执行的动作范围(action space)仍然有限,许多复杂的环境干预需要通过文本提示而非 Agent 的直接操作来完成。其次,模型在模拟多个独立的 AI 智能体在共享环境中进行复杂互动方面仍面临挑战。
此外,Genie 3 目前还无法以完美地理精度模拟现实世界中的真实地点,并且其文本渲染能力较弱,通常只有在输入提示词中明确提供时,才能生成清晰易读的文字。最后,虽然“数分钟”的互动时长已是巨大进步,但这与真正意义上可以长时间游玩的电子游戏或进行长期模拟的科学研究相比,仍有不小的距离。
目前,Genie 3 并不会向公众开放。谷歌仅提供一个“有限研究预览版”给一小部分经过挑选的学者和创作者使用。谷歌表示,此举的目的是为了在更广泛地推广这项技术之前,能够更好地理解其潜在的风险和挑战,并与社区合作,以负责任的方式推动技术发展。
虽然距离打造出如《星际迷航》中“全息甲板”那样的终极虚拟现实体验还有很长的路要走,但 Genie 3 作为第一个真正意义上实现了实时交互的通用世界模型,已经清晰地展示了这样一条技术路径的可能性。
参考资料:
1.https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
运营/排版:何晨龙