让100个Agent在虚拟世界里生活10年,米哈游发了篇论文
创始人
2026-06-24 18:42:25
0

6月5日,一篇论文出现在学术网站Arxiv上。

标题是《Agentopia:智能体社会中的长期人生模拟与学习》(Agentopia: Long-Term Life Simulation and Learning in Agent Societies)。

今年5月,有消息称,米哈游创始人蔡浩宇在美国创立的Anuttacon转向押注超级智能体,而这篇论文的核心力量正是来自Anuttacon的AI研究团队。

第一作者王鑫涛,复旦大学计算机学院博士生,专注于LLM拟人化与角色扮演领域研究,他同时也是由米哈游创始人蔡浩宇创办的AI公司Anuttacon的员工。

参与这项工作的还有多位来自复旦大学和Anuttacon的研究者。

他们共同发起了一个项目:让100个AI智能体在三个虚拟世界中自主生活十年。

这些AI智能体不是简单执行脚本的程序,而是拥有性格、记忆、情感和目标的数字生命。他们上学、工作、谈恋爱、交朋友,会经历职业转型、社交倦怠,甚至会遭遇中年危机。

这是一次将长期社会模拟推向新尺度的大胆实验。

一、“加速的虚拟世界”

这项研究的核心是一个名为Agentopia的框架。

在这个框架所构建的世界里,100个AI智能体被投入三个截然不同的虚拟社会:一个是纽约市的合租公寓,住满了年轻专业人士和学生;一个是魔法学院,师生们要应对学术和人际的双重挑战;还有一个是顶尖高中的校园场景,聚焦青春期的成长与压力。

这些智能体不再是传统游戏中只会按照预设脚本行动的NPC,它们由语言模型驱动,每个人拥有独特的背景、性格、技能和社交关系,会在虚拟世界中做出各种行为。

研究的突破在于时间尺度。过去的大多数智能体社会模拟只持续数天,而Agentopia将这一尺度从天数拉长到了年份。

研究设定了10个模拟年,每周为一个基本周期,每个周期包含四个阶段:规划、社交联系、活动执行和每周回顾。智能体需要自主制定周计划、向他人发起邀约、参与单人或多人的活动,并在周末反思总结。

支撑这一切的是三项关键技术设计。

首先是生活奖励机制。研究团队根据马斯洛需求层次理论,为每个智能体设计了三个维度的奖励:社会地位、主观幸福感和经济状况。

社会地位衡量其他智能体对某个个体的看法,主观幸福感追踪其一年内的满足感变化,经济维度记录其年度财务表现。这套奖励系统不仅用于评估智能体的生活状态,更成为后续训练模型的核心反馈信号。

其次是环境引擎。Agentopia没有像传统模拟那样写死大量规则,而是启用一个单独的生成式大模型作为环境引擎。这个引擎负责判断智能体行为的合理性、提供环境反馈、生成偶遇事件、安排活动顺序,甚至在年底更新每个智能体的档案。

第三是文件系统式的长期记忆。每个智能体拥有一个可自主管理的记忆系统,包括对他人的印象笔记、个人计划、反思记录等。智能体可以通过函数调用创建、读取和更新这些文件,实现跨周、跨年的知识积累。这种设计让智能体的行为能够展现出持续性和成长性,而非每次对话都从零开始。

在10年的模拟结束后,研究团队观察到了丰富的社会行为。友谊网络从稀疏变得密集,公寓世界中的平均互惠友谊数从4.3增长到10.1。

智能体展现出职业转型的能力,有角色主动放弃高薪咨询工作,选择登山向导这一收入减半但更加热爱的事业。还有角色在9年间经历了巨大的性格转变,自信心从30分增长到80分,内向程度从95分降至65分。

研究还发现了一些反直觉的规律。有些智能体虽然社交活跃、被很多人喜欢,但社会地位的评分反而在下滑,因为他们的社交广度未能转化为深度。另一些智能体虽然社会评分持续下降,个人幸福感却一路上升,因为他们主动选择了少而精的关系网络。

这就像是一个真实世界的缩影,很容易就能看到其中蕴藏的无穷潜力。

二、AI,展现出游戏的新可能性

类似Agentopia这样的研究对游戏行业具有相当的价值。

要理解这一点,需要先看传统游戏中NPC设计的困境。

大多数游戏中的非玩家角色依赖预设脚本运行。玩家与NPC的对话选项有限,NPC的行为模式可预测,且几乎不会对玩家的行动或环境变化做出持续性的适应。

这造成了一种世界感的断裂:玩家在游戏世界中不断成长变化,而周围的角色却仿佛定格在时间之中,没有制作者的主动更新,就不会产生新的命运轨迹,不会再发生任何变化。

Agentopia展示的是一种完全不同的可能性。

如果游戏中的每个NPC都拥有长期记忆、自主目标和情感模型,它们就能像真实人类一样成长和变化。一个在游戏早期帮助过玩家的小商人,可能在若干游戏年后成为地区商会领袖,记得玩家的恩情并给予回报。

一个曾在战斗中背叛玩家的同伴,可能会在后续剧情中因为愧疚而改变行为模式。这些不再依靠编剧预先写好的分支剧情,而是NPC经过真实思考之后,自主选择的结果。

论文中有一个有趣的案例。

一位名叫格兰特的医生主动将几位公寓邻居组织成一个小圈子,但当这个圈子形成稳定的社交网络后,格兰特反而被逐渐边缘化,最初的社交建筑师最终成为圈子里最被忽视的人。

这种自然涌现的社交动态,在传统游戏设计中几乎不可能实现。

训练方法同样意义深远。

研究团队利用模拟中产生的高质量智能体轨迹,通过拒绝采样方式对大语言模型进行微调,性能有了长足的的提升。

这意味着,游戏公司可以利用内部模拟来优化智能体模型,而这些模型又会被部署到更广泛的游戏场景中,形成一种正反馈循环。更重要的是,这种训练不需要依赖昂贵且难以扩展的人类标注数据。

智能体在模拟中的行为轨迹本身就是训练样本,它的规模和多样性远超人工收集的极限。对于需要大量NPC的游戏开发而言,这提供了一条成本可控且可规模化复制的路径。

从Anuttacon,或者说米哈游的战略角度看,Agentopia这一研究与米哈游的IP生态扩张方向高度吻合。

现在,米哈游旗下的《原神》《崩坏星穹铁道》《绝区零》三款主力作品保持着错开更新的高频曝光节奏,但内部框架的高度相似在累积玩家的审美疲劳。

开拓新品类、新运营模式成为必然选择。

米哈游已公布涵盖生活模拟、都市开放世界、射击等多品类的预研项目,横跨完全不同的玩法类型。

Agentopia这类长期社会模拟技术的加入,意味着米哈游可能不仅在游戏IP上做拓展,更在游戏体验的本质层面发起革新:让NPC真正变得像人,让世界真正活起来。

三、什么才是“世界”模型

近两年,世界模型成为AI行业最火热的概念之一。

但通常来说,现在讨论的世界模型,大多指向物理世界的模拟。这些模型试图预测物理世界的状态变化,比如物体如何运动、场景如何因操作而改变,最终目标是服务于自动驾驶、机器人控制等场景。

米哈游正在做的实验,也可以说是一种世界模型,却走了一条截然不同的路。

Agentopia的核心不是模拟物理规律,而是模拟社会规律。它的关注点不是物体如何滚动、光线如何折射,不是下一秒世界会发生什么事,而是人在漫长的生命周期里如何具体的成长、人物之间的关系如何演变、游戏中的社会如何组织。

这是一种以故事、情感和人生轨迹为主线的世界模型。

这种差异影响深远。物理世界模型追求精确和通用,希望通过大量数据学习物理规律,最终实现一个可以替代真实环境进行训练的数字孪生。但人类社会的运行逻辑比物理世界复杂得多。一个人为什么选择交某个朋友,为什么突然决定换工作,为什么对某个陌生人产生好感,这些决策背后是性格、经历、情感和外部环境的复杂交织。

要模拟这些,需要的不是牛顿定律的推演,而是对人类行为模式的深度理解。

只有长期深耕于内容型创作的游戏公司,才有动力去做这样的研究。

而也只有米哈游这样,始终走在行业前列的公司,才有条件去真正落实这样的研究。

原因在于,游戏天然就是社会模拟的实验场。数百万玩家同时在线,他们之间的互动构成了一张巨大的社会关系网。

游戏公司需要理解这张网是如何运转的,才能设计出更好的社交系统、经济系统和剧情走向。更重要的是,游戏公司拥有其他AI研究机构无法复制的数据资产:真实的玩家行为轨迹和社交网络数据。

米哈游在Agentopia中的做法也体现了这一特点。

米哈游公司战略中明确提出了2030年愿景:打造十亿人生活其中的虚拟世界。这个目标需要三类核心技术支撑:沉浸式的视觉与交互让这个世界值得停留,智能的NPC让这个世界有人相伴,稳定的社会系统让这个世界的运行可持续。

Agentopia解决的是后两个问题。从更深层次看,这种研究路线的差异也反映了两种世界观的分野。

物理世界模型的技术路线倾向于认为,通用人工智能需要通过理解物理世界来实现,理解人类最后只是理解物理世界后的副产品。

而以生活模拟为目标的路线认为,理解人类本身就是核心命题,社交智能才是通用智能不可或缺的组成部分。

结语

米哈游正在用自己的方式重新定义世界模型。建造一个由故事、情感和人生轨迹编织的虚拟社会。

Agentopia的100个智能体在虚拟世界中度过的十年,可能只是这场宏大实验的第一步。

让十亿人生活其中的虚拟世界还有很长的路要走,但如果每一个NPC都拥有真实的记忆、成长和情感,那个世界或许比我们想象的更近。

相关内容

热门资讯

思维列控:股东赵建州拟减持不超... 5月15日消息,思维列控公告,公司持股5%以上股东赵建州基于个人资金需要,计划自2026年6月8日起...
国内商品期货夜盘开盘,沪银跌6... 5月15日消息,国内商品期货夜盘开盘,多数品种下跌。沪银跌6%,沪锡跌3%,国际铜、沪铜氧化铝、沪金...
教育部部长怀进鹏会见美国黑石集... 5月15日消息,教育部部长怀进鹏14日在京会见美国黑石集团主席苏世民一行。双方就中美教育合作、清华大...
中国国航:4月旅客周转量同比上... 5月15日消息,中国国航公告,2026年4月,集团合并客运运力投入(按可用座位公里计)及旅客周转量(...
金融监管总局:一季度保险公司原... 5月15日消息,金融监管总局发布2026年一季度银行业保险业主要监管指标数据情况。2026年一季度,...
智媒融通,连接世界,国广东方智... 以“众智启新”为主题的2026年上海世界移动通信大会(MWC上海2026),于6月24日至26日在上...
360纳米Work亮相ISC,... 6月24日,由360集团主办的互联网安全大会(ISC)在北京国家会议中心开幕。 360集团创始人周鸿...
傅利叶智能发展前景如何?十年康... 2026年,具身智能产业正从概念走向规模化落地。成立超过十年的傅利叶智能,凭借独特的“康养+交互”战...
曾毓群透露固态电池技术进展:现... PChome 6月24日消息,2026大连夏季达沃斯论坛现场,宁德时代董事长曾毓群谈及行业热门的固态...
快手刘逍:快手生活服务覆盖20... 5月15日消息,2026快手生活服务大会在成都召开。快手生活服务事业部负责人刘逍分享,截至2026年...