当AI大模型参数规模突破万亿级,AI算力的重要性已经毋庸置疑。但随着算力基础设施越建越多,一个被忽视的真相也逐渐清晰:最终决定训练乃至推理效率的不是单纯的算力峰值,而是数据从存储到计算的“流转效率”。
在AI大模型训练、推理等业务快速发展的大背景下,数据存储与计算的协同效率不仅成为运营商IT系统升级的关键,更关乎AI在运营商和各行各业业务中的部署应用。
作为数字基建主力军,当前运营商对存力的需求已从“辅助角色”升级为“重要引擎”。
01
迎接“AI+”时代
存算网协同成为运营商的必答题
随着AI大模型发展深入推进,行业对存力的需求日益凸显。在数据处理能力上,存储系统须具备高IOPS和高带宽,满足高速读写需求,减少计算资源等待时间;在容量方面,存力要从TB级扩展到PB级以上,以容纳海量非结构化数据;同时,存力支撑下的低延迟访问对实时AI应用也至关重要。
直面行业需求,运营商作为算网一体化的核心建设者与引领者,存储与计算、网络的协同已成为其无法回避的课题。
从业务需求来看,AI训练和推理对存算网协同的性能要求呈现多维度提升。 中国移动研究院网络与IT技术研究所项目经理闫晗指出,在训练方面,随着参数量、训练数据量的激增,训练检查点不断增大,对于存储提出TB/s级高吞吐性能需求。在推理方面,由于GPU显存空间有限,需要构建HBM-DRAM-SSD多级KVCache缓存架构,以缓存更多KV数据,提升KVCache命中率。
“当前存储与计算、网络资源的协同还存在诸多短板:在多协议处理方面,传统按照文件、对象、块协议分立的存储系统暴露出数据跨池拷贝痛点和数据冗余问题;在存储网络方面,传统TCP/IP网络面对海量数据传输存在瓶颈;在存储客户端方面,传统NFS文件客户端不能满足高并发读写性能需求。”闫晗讲道。
从IT系统整体来看,存储与计算、网络资源如何协同才能满足AI业务需求,目前存在哪些协同短板?未来如何实现高效低时延传输?带着这一系列行业关注的话题,近期,工信智媒体还将组织专家研讨沙龙,深入探索行业的应用之策。
02
高性能、低成本的SSD
成为存力市场核心诉求
构建高效存力,存储技术可谓关键制约因素。在这场关于容量、性能、成本的博弈中,存储技术也逐渐演进,打破HDD市场长期被国外制约的困境,国产厂商在SSD领域正实现弯道超车。
就企业进展来看, 长江存储3D NAND闪存技术持续迭代,作为SSD大脑的主控芯片,目前国内绝大多数依然是国外芯片厂商占据,其比例远高于CPU市场,这无疑凸显了国内相关产业在该领域实现自主突破的紧迫性。
从技术价值来看,SSD芯片直接决定存储性能。“中国移动重点考量SSD硬盘的读写带宽、IOPS、时延、可靠性、功耗等指标,同时也考量SSD产品的成本因素,从技术和成本两方面进行综合评估。”闫晗介绍,目前中国移动在智算场景下,存储介质正在快速向全闪化演进,以实现存储系统高吞吐、低延迟、低功耗的目标。
对此, 中国联通研究院未来网络研究部总监曹畅也同样认为,从运营商角度来看,更为看好SSD在成本控制与性能优化上的优势。一方面,新型SSD芯片可实现更低时延,提供更 大带宽和IOPS,能满足AI训练中大量数据的快速读写需求,部分新型SSD芯片还具备计算加速功能,可以加速数据处理。另一方面,新型SSD芯片采用更先进制程,在能效比上表现优异。
近年来 平头哥的镇岳企业级SSD主控芯片崭露头角,不仅具备高达3400K IOPS的IO处理能力,轻松应对高并发AI推理任务;而且凭借领先业界的超低延迟 ,能快速响应推理请求,减少等待时间;同时支持多种NAND技术,保证性能的同时控制存储成本,提升AI推理成本效益。
03
存算网协同长远在于
打赢算力能效战
AI算力的爆发式增长带来巨大能耗压力,如何在提升训练效率的同时降低能耗,成为运营商存算网协同的重要课题,SSD凭借节能的突出优势,也将有效助力这一进程。
对此,闫晗认为,液冷技术与SSD替代结合是节能关键。液冷一方面能够提高数据中心的设备部署密度,另一方面也能保证芯片在最大电压和频率下连续运行,提升芯片性能。而SSD硬盘能耗比HDD硬盘节省90%以上,通过SSD对HDD的替代,可进一步降低设备功率,其与液冷技术相辅相成,将共同推动新型节能、绿色低碳算力网络发展。
网络架构优化与协议创新可进一步降低能耗。曹畅指出,光电混合新型组网方案是未来的重要方向,可以解决传统网络架构难以满足超大规模算力集群互联需求。同时,通过优化拥塞控制算法、负载均衡策略及RDMA协议,能提升网络吞吐效率AI训练效率。此外,曹畅提醒,从系统协同方面来看,通过智能化的管控与调度、自动化运维等手段也可以确保网络的高可用和高可靠。
正如不同的应用场景,对存力的挑战各有不同,各有侧重。未来存算网协同还有赖于产业链上下游企业同心协作,从OEM厂商、SSD盘的厂商和SSD核心芯片企业都应各尽所长。 平头哥半导体产品总监周冠锋认为,作为一种典型的闭源系统,SSD盘厂与主控厂需要紧密合作,充分发挥出主控芯片与NAND芯片的能力,并尽量以通用部件的形态,满足各场景诉求;同时在接口兼容性上与OEM厂商联合发力,充分适配各种不同硬件平台。