编辑丨&
2024 年,ChatGPT、Sora、Stable Diffusion 等人工智能生成内容(AIGC)工具把算力需求推上新高,全球的推理请求连年出现高增长率递增,云端往返动辄出现极高延迟。
有没有这么一种方法,在保证服务质量的同时还可以优化 AIGC 模型的计算需求呢?有的,广州大学、清华、浪潮联合团队给出的答案是——把大模型切成「即取即用的乐高」,用 TD3 算法实时拼搭。
在有限的边缘存储空间、带宽资源和计算资源的约束下,此次研究致力于减少用户模型服务请求的响应时间与成本。
该研究以「EdgeAIGC: Model caching and resource allocation for Edge Artificial Intelligence Generated Content」为题,于 2025 年 7 月 4 日发布在《Digital Communications and Networks》
EdgeAIGC 框架
整体框架由云服务中心、边缘服务层和用户层组成。
云服务中心包括一个具有丰富计算资源和存储空间的云服务器(CS),存储了许多预训练的 AIGC 模型,如文本转语音、文本转文本等,可以满足所有用户推理服务请求,但提供的服务也将花费更多的时间和成本。
图示:EdgeAIGC 框架。
网络架构由 1+E+U 节点组成,CS 与 边缘服务器 ES 的计算资源由 A800 GPU 的数量表示。由于需要考虑到用户关注的效率与成本以及运营商关注的成本利润,研究者将会考虑优化所有请求服务执行中的平均响应时间与成本。
把框架搭好了,TD3 才好决定「存什么」、「给谁用」。
TD3 算法
在资源分配里,动作空间是连续的,带宽资源、计算资源分配等都是连续变量,TD3 算法能够有效解决连续动作空间的问题,并且对高维状态空间也有很好的适应性。
它可以学习最优的连续动作策略来确定最佳缓存决策和资源分配方案,并引入延迟更新策略网络的机制,使策略网络的更新更加稳定。
在本次研究中,问题 P 被形式化为一个马尔可夫决策过程(MDP),由状态空间、动作空间和奖励组成。
图示:TD3 架构。
算法架构中包含了六个神经网络,通过 Actor、Critic 网络抑制 Q 值过估,延迟更新策略网络防止震荡。
训练过程里,Actor 网络输出策略发生剧烈变化,难以收敛到稳定的策略,容易错过最优解。这证明 TD3 算法对学习率的设置有较高要求。TD3 通过双评论家网络和延迟更新策略显著提高了学习效率和稳定性,并在奖励优化方面比 DDPG 算法提高了约 1.72%。
随着用户数量的增加,模型命中率也增加。在此过程中,TD3 算法的模型命中率始终优于其他基准算法,与 DDPG、GCRAS、PCRAS相比最大改善率分别为为 41.06%,50.93%,57.85%。
小结
这是一种基于 TD3 算法的边缘智能模型缓存与资源分配联合优化框架。通过构建 EdgeAIGC 网络架构,结合动态模型流行度等,实现了边缘服务器的模型缓存决策及带宽和计算资源的协调分配。
与基线方法相比,TD3 算法将模型命中率至少提高了约 41.06%,为未来边缘计算与 AIGC 的融合提供了新的思路和方法。