写在前面:配置智能体最好有一个GPT-4的账号,大语言模型需要作为大脑,对大模型的能力要求很高,GPT-4的能力几乎是大模型中最强的。如果使用通义千问等大模型,建议使用参数量最多的版本。GPT-4 API可以使用国内中转,国内中转是即充即用,可以只充值10元。例如
GPT4.0 API KEY By OPENAI HK 中转ChatGPT
相关代码地址见文末
论文地址:Generative Agents: Interactive Simulacra of Human Behavior | Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology
论文提出了一种多个智能体进行协同,进而模拟可信的人类行为,适用于沉浸式环境、人际沟通排练空间和原型工具等互动应用。生成代理能够像人类一样起床、做早餐、工作;艺术家画画,作家写作;他们形成意见、注意彼此并开始对话;他们记住和反思过去的日子,并计划未来的行为。为了实现生成代理,论文描述了一种架构,该架构通过自然语言存储代理的完整经历记录,随着时间的推移综合这些记忆形成高层次的反思,并动态检索它们以计划行为。研究表明,这些生成代理能够在一个交互沙箱环境中生成可信的个体和群体行为。例如,只需告诉一个智能体它想举办情人节派对,该智能体就会自主地传播邀请并协调其他代理参与。
例如:John Lin的一天生活,包括起床、准备早餐、与家人互动、工作等日常活动。
如下图所示,
生成智能体的架构通过结合大型语言模型和记忆管理机制,使智能体能够根据其当前环境和过去经历生成合理的行为。该架构的核心挑战是确保在需要时能够检索和综合最相关的记忆。记忆流记录智能体的所有经历,反思机制将记忆综合成高层次的推论,计划机制将这些推论转化为高层次的行动计划,并递归分解成具体行为。当前使用ChatGPT的gpt3.5-turbo版本,并预计随着语言模型的改进,生成智能体的表现将不断提升。通过这种架构,智能体能够在复杂环境中保持长期一致和可信的行为。
挑战: 创建生成智能体需要对大量经历进行推理和筛选。如果总结所有经历,可能会分散模型的注意力,且不适合语言模型的有限上下文窗口。因此,需要一个有效的机制来表面化相关记忆,以生成更有意义和具体的响应。
方法: 记忆流维护了智能体经历的全面记录。每个记忆对象包含自然语言描述、创建时间戳和最近访问时间戳。最基本的记忆对象是观察,包括智能体自身的行为或他们观察到的其他行为。为了生成有效的结果,系统关注以下三个主要组件:
近期性(Recency):
重要性(Importance):
相关性(Relevance):
挑战: 生成智能体在只有原始观察记忆的情况下,难以进行概括或推理。一个理想的智能体应能从记忆中提取高层次的反思(Refection),而不仅仅是基于频繁互动选择对象。
方法: 引入第二种类型的记忆,称为“反思”。反思是智能体生成的高层次、抽象的思考,作为一种记忆类型,与其他观察一起被检索。
实现细节:
反思的生成:
反思过程:
回答问题并生成反思:
挑战: 尽管大型语言模型可以生成符合情境的信息,但智能体需要进行长期规划,以确保其行为序列的一致性和可信度。单独依靠语言模型可能会生成重复或不连贯的行为。
方法: 规划描述了智能体未来的行为序列,帮助保持其行为的一致性。每个计划包含位置、开始时间和持续时间。
实现细节:
规划的生成:
响应:
概述: Smallville沙盒游戏环境是使用Phaser网络游戏开发框架构建的,包括智能体的头像、环境地图和碰撞地图。论文通过一个服务器补充了沙盒开发框架,该服务器使得生成智能体能够获取沙盒信息并在沙盒环境中移动和影响环境。
服务器功能:
智能体初始化:
环境树结构:
智能体环境建模:
确定动作位置:
对象状态变化:
生成智能体旨在生成基于其环境和经历的可信行为。在评估中,论文探讨了生成智能体在回忆过去经历、生成可信的计划、反应和推论方面的能力,并分析了智能体社区在信息传播、关系形成和智能体协调方面的行为。
评估程序: 通过“面试”智能体,探讨它们的记忆、计划、反应和反思能力。面试问题涵盖五个核心领域:自我认知、记忆、计划、反应和反思。以下是一些问题示例:
条件设置: 评估包括三种消融条件:
人类评估者: 评估者需为美国人,英语流利,年龄在18岁以上。通过Prolific平台招募,实验持续约30分钟。评估者根据行为的可信度对不同条件下的智能体反应进行排名。
分析: 使用TrueSkill评分模型和Kruskal-Wallis检验分析排名数据。通过定性分析比较不同条件下生成的响应类型。
重要结论:
完整架构优于其他条件:
生成智能体记住,但有添油加醋:
反思对于综合是必需的:
为探讨智能体社区中的新兴行为,论文设计了对25个智能体进行连续两天的完整模拟,观察信息传播、关系形成和智能体协调的情况。
测量方法:
结果:
通过归纳分析Smallville中的边界条件和不稳定行为,识别出三种常见的错误行为模式:
记忆综合和执行位置选择的挑战:智能体在综合大量记忆信息时会遇到困难,导致选择不典型的地点执行行动,使行为显得不可信。
不合适行为的错误分类:由于物理规范和自然语言的传达限制,智能体可能会误解某些地点的使用规范(如浴室使用规范或商店关闭时间)。
指令调优的可能影响:智能体的对话行为可能受到指令调优的影响,表现得过于正式和合作。例如,智能体可能会采用不符合自身特征的建议。
代码地址:
链接:https://pan.baidu.com/s/1BQL5y2OBf2wQc18Jg75JKg?pwd=tbfx
提取码:tbfx