2025年4月23日,兰德发布《绘制通用人工智能的多种路线图》(Charting Multiple Courses to Artificial General Intelligence)报告,报告探讨了大语言模型向通用 人工智能演进的可能路径,指出其面临的技术、数据与能耗瓶颈。启元洞见编译文章主要内容,旨在为读者把握人工智能研究未来的重要突破方向提供参考。
一、从大语言模型走向通用人工智能
大语言模型(LLM)是一项变革性技术,自诞生以来就吸引了极大的关注和大量投资。许多业界人士和人工智能研究者认为,LLM在各种基准测试中表现日益卓越,意味着通用人工智能(AGI)时代即将到来。考虑到当前LLM的开发速度飞快,如果AGI即将在未来两到四年内实现(如一些预测所言),那么它很可能将来自对LLM的超规模扩展(hyper scaling)。对于一些人工智能专家来说,这一前景意味着风险可控,并将引发“智能爆炸”,最终走向后稀缺社会;但另一些人则担忧,它可能构成人类生存的真正威胁。
除了可能带来的巨大经济利益或灾难性风险,AGI的前景还具有重大的地缘政治意义,特别是在国际竞争的背景下。由于AGI有望带来变革性的经济增长与国家实力跃升,全球普遍担忧谁先实现AGI,谁就可能获得持久且决定性的地缘政治优势。
二、大语言模型持续进步,
但这是否足以实现通用人工智能?
现有研究表明,超规模扩展(hyper scaling)可能并不是实现通用人工智能的可行路径,或至少不是唯一路径。例如,尽管领先的人工智能实验室在宣传其大语言模型产品时强调随着模型规模扩大,其在推理基准测试上的性能不断提升,但最新研究指出,这一趋势虽然存在,但扩展同时也会带来更多错误的回答。因此,尽管LLM技术持续进步,其发展过程仍然是复杂的。
超规模扩展范式的核心思想是“涌现能力”(emergent abilities)。早期研究发现,随着模型规模扩大,性能会出现意想不到的跃升:某些能力会在没有特别训练的情况下“突然出现”。然而,后续研究指出,这种“涌现”可能是由不恰当的评估指标引发的幻觉。此前的评估标准多为“全或无”的测量方法,因此即使模型逐步改进,也会在指标上表现为突然跃升。当改用能衡量渐进改进和部分解决问题的新指标后,性能改进呈现出平滑趋势,而“新能力”也随之消失。但也有学者认为,扩展确实可能产生真实的涌现能力,只是LLM最终会在能力上遇到瓶颈。
除了性能上的局限,还有数据和能源方面的经济限制。按照当前模型扩展速度,人类生产的数据总量可能在十年内被消耗殆尽,而使用人工智能生成的内容作为训练数据可能导致“污染”,进而造成模型输出质量和多样性下降。这个“数据壁垒”可能成为LLM进一步扩展的重大障碍。除了数据限制,模型训练和推理所需的庞大电力需求也可能让研究者遇到“能源壁垒”,限制LLM的扩展。
三、潜在的关键算法与计算技术
(一)物理信息神经网络与因果模型
想象一个孩子手里拿着理发剪刀,在家中奔跑的画面。这个场景很可能让人感到不适,因为成年人已经建立了对现实世界物理和因果关系的稳固认知。也就是说,人类能够很好地理解当锋利的钢铁与柔软的皮肤在外力作用下相遇时会发生什么;人类也能预见此类事件可能带来的严重后果。人类之所以具有广义智能,部分原因就在于人类对物理世界运行机制的理解。
物理信息神经网络(Physics-Informed Neural Networks, PINNs)是一种将牛顿运动定律等基本物理规律纳入神经网络建模过程的技术。PINNs能够用于解决诸如动力学等问题,在数据稀缺的情况下仍具有高度价值,因为它们能够利用物理学的先验知识。
因果模型(CausalModels)则专注于理解因果关系。它们能够区分“相关性”与“因果性”,并允许人工智能系统模拟反事实情境(例如:“如果刹车更用力会发生什么?”)。因果模型对于安全性至关重要,因为自主系统(如机器人、自动驾驶汽车)需在动态的现实环境中运行,而未来可能出现的AGI系统也需要类似的安全保障机制。
尽管大语言模型能够捕捉文本或视觉数据中的模式,但它们并未明确表示现实世界的物理规律或因果关系。现有的LLM只是将“锋利物体”建模为词语之间的概率联系,而没有任何与物理世界相对应的实质性映射。
而PINNs与因果模型则可弥补人工智能在理解现实世界方面的这一缺陷。当前语言模型只能提供表层语义理解,而PINNs能够建模物理过程,因果模型则能够推理这些过程的后果。两者结合,有望实现更加稳健的决策能力。
(二)认知人工智能
认知人工智能以人类认知为出发点来实现通用人工智能(AGI)。与基于统计和生成的方法不同,认知人工智能致力于在人工系统中复现人类智能的核心特征。其研究目标是构建类似人类智能的系统,具体表现为:能够通过与环境和其他行动者的互动学习概念、具备短期与长期记忆、能够根据不同情境自适应地学习行动方式,并持续进行迭代学习。
这种人工智能技术可望解决复制人类广泛而灵活的智能这一根本性挑战。AGI中“G”(即“通用性”)的一个定义包含了以下假设:智能应当能够从多样化的经验中学习并理解,从语境中做出决策,并能在不同领域间灵活应用知识——而这些能力正是人类认知的核心所在。通过聚焦于这些认知过程的复现,认知人工智能为开发不仅能完成具体任务,还能将学习迁移到未知挑战中的系统,提供了发展路径。这种适应性与语境理解能力,或许正是AGI在现实复杂动态环境中有效运行所必需的关键。
(三)信息格学习
假如将一堆尺寸不一、颜色各异、形状为正方形和星形的积木扔在地上,即便是年幼的孩子也能迅速看出区分这两类形状的规律。而且,到了一定年龄的孩子还可以清晰地表述分类规则:正方形有四个角且边长相等,星形则有四个以上的角且边长可能不一致。相比之下,当前的大语言模型并不具备这种仅凭极少样本就能识别模式、并以人类易于理解的方式解释规律的能力。
然而,一种新型人工智能方法——信息格学习(Information Lattice Learning),正是以非神经网络的方式实现了这一点。该方法可以从极少量数据中,以类似教科书那样可解释的形式,发现音乐理论、化学、遗传学、量子物理等领域中已知的规律,而且还能自主发现人类科学家此前未曾提出的新知识,而无需预先由人工输入任何领域知识。
这种通用知识发现方法可被应用于多个下游场景,如最先进的视觉目标分类、面向第六代无线通信(6G)的语义压缩,或是辅助人类创造前所未有的创意与作品。由于几乎不需要先验领域知识,且对数据的依赖极低,信息格学习体现了通用智能的一个核心特质。在情报、国防、生物安全以及科研与开发等涉及国家竞争力的领域中,面对快速变化或高度个性化的环境,信息格学习的数据效率与人类可控性,与当前的LLM形成了强有力的互补关系。
(四)强化学习
强化学习(RL)通过试错训练人工智能,而不是通过学习规则或理论来实现。例如,现有能够击败任何人类选手的国际象棋人工智能系统,并不是通过学习一套原则和策略来像人类那样学会下棋,而是通过尝试数以百万计的组合来寻找最优解。当RL模型取得进展时,其策略会通过奖励机制得到强化,而次优的动作则会被惩罚。最终,系统可能能够在看似隐蔽的路径上提前几十步做出决策,只为获得一个微小的胜利,例如吃掉一个兵。这种方式虽然与人类截然不同,但在特定任务和特定领域中却极具效力和实用价值。
强化学习可能是实现通用人工智能(AGI)的关键,因为它赋予机器通过经验学习和适应的能力,类似于人类的学习方式。RL系统可以在持续获取反馈的过程中不断优化行为,从而应对多种任务和环境。此外,RL还可以与大语言模型结合,形成将任务深度学习能力与问题解决能力相融合的混合系统。
(五)神经符号架构
神经符号架构(Neurosymbolic Architectures)是一项新兴领域,旨在将神经网络的优势与符号推理相结合,以克服纯粹数据驱动模型的局限性。大语言模型是传统神经网络的一个例子,在模式识别和数据驱动任务方面表现出色,但在抽象推理、逻辑推断以及超出训练数据的泛化能力方面存在短板,尤其是在高等数学任务上。而神经符号人工智能(Symbolic AI)则通过形式逻辑和显式的知识表示(如规则、本体)来对世界进行推理。通过结合这两种方法,开发者可以设计出一种混合型神经符号人工智能系统,既能利用神经网络处理原始数据的灵活性,又能借助符号系统进行结构化推理与解释。
与依赖海量文本语料进行统计学习的LLM不同,神经符号人工智能融合了数据驱动学习和显式的知识表示。虽然LLM展现了令人印象深刻的语言能力,但它们仍然受限于模式匹配,缺乏真正的逻辑推理或对世界的理解。而通过引入逻辑推理和结构化知识等符号成分,神经符号人工智能能够更好地处理诸如演绎推理、问题分解和生成解释等任务。这类模型架起了神经网络的数据驱动能力与符号推理结构智能之间的桥梁,支持在更多样化的领域中实现更强的泛化能力和可解释性。
神经符号人工智能可能是实现AGI的重要一步,因为它能够将灵活的学习机制与结构化的推理能力结合。AGI不仅需要强大的数据处理能力,还需要逻辑推理、少样本学习和跨领域知识泛化的能力——而这些正是单一神经网络模型难以实现的。将符号推理集成进神经网络,可以赋予系统更高阶的认知能力,例如理解上下文、建立因果关系以及将学到的知识迁移到新情境中。这种混合方法赋予人工智能更类似于人类的思维灵活性,例如在信息不完整的情况下进行推理、解释决策结果、应对新情况等。
(六)具身智能
如果一个人工智能系统能像婴儿一样通过与世界的互动进行学习,会怎样呢?想象一个拥有多种传感器的机器人:摄像头、麦克风、带有触觉传感器的手,甚至可能有味觉和嗅觉的化学传感器。这个机器人在周围自由移动,通过听狗叫声、抚摸狗的毛发、观察狗的动作以及闻到湿狗的气味来学习关于狗的知识。它通过与人类互动来实现具身学习。
具身智能系统扎根于现实世界,能够发展出对空间关系、物体动态和物理交互的细致理解。这使得系统可以通过与环境的交互进行学习,类似于人类的学习方式,同时获得情境感知的知识,而这是LLM所欠缺的。这种高度的情境意识对于人工智能系统能否进行实时决策和动态适应至关重要。通过打通“感知—运动—操作”之间的桥梁,具身智能系统具备物理知识、因果推理和交互能力,能够理解自身行为在现实世界中的后果,从而做出更加明智和安全的决策。
具身智能让人工智能系统更接近人类智能,因为它们能够以类似人类的方式“体验”世界。这种体验式学习对于发展同理心、直觉等认知能力至关重要,而这些能力单靠数据处理是难以实现的。
(七)类脑计算
大语言模型使用了极大的能量,不仅在训练大型模型时如此,即使是在部署与生成回应(即推理)阶段也同样能耗高,尤其是在使用链式思维(chain-of-thought)技术以及基于RL的推理方法时,因为它们采用了测试时扩展计算(test-time scaling)而非训练时扩展(train-time scaling)。由于LLM属于一种人工神经网络,因此需要高性能的计算芯片,尤其是图形处理器(GPU)。GPU能够高效执行LLM所需的复杂矩阵运算,但其训练和运行过程中对电力的消耗极大。随着LLM的大规模应用,这种能耗问题成为一个重要的可持续性挑战。此外,GPU几乎完全由一家供应商主导,这也带来了成本高和供应链风险。
传统芯片使用时钟驱动的时序逻辑与持续供电,而一种新型的类脑芯片则采用离散电信号脉冲进行计算,从而显著降低能耗。类脑芯片借鉴人脑的工作机制,通过“尖峰信号”与大规模并行连接的计算单元运行,其能效远远高于传统计算电路。这类芯片已经在实验室中得到应用,但截至2025年初,尚未广泛推广。另一种处于萌芽阶段的前沿方向是将生物神经元培养为人工计算装置,从而实现“以糖为燃料”的计算设备,而非依赖高电力消耗。如果这类替代计算结构能实现工业化应用,将有可能彻底改变人工智能的算力供应链,并重塑人工智能的能源使用模式。
四、涵盖多种未来路径的战略
尽管本报告并未提出针对具体技术或战略的建议,但本报告认为,美国政府的政策可以在考虑AGI可能即将通过“超扩展范式”实现的同时,避免仅基于该假设制定政策。美国政府应当制定能够适应不确定性的政策,构建一个支持多种AGI发展路径的战略框架。