文 | 半导体产业纵横
存储器,包括DRAM(动态随机存取存储器)和NAND(闪存),一直是半导体行业的重要组成部分,存储器市场的增长为半导体产业带来了新的增长点,推动了半导体产业的进一步发展。特别是近年来随着以ChatGPT为代表的生成式人工智能(AI)技术的不断发展和普及,也推动了存储器市场的发展,尤其是新型存储技术,如HBM、QLC SSD等。
众所周知,计算能力是AI时代至关重要的一环,但实际上很多人都会忽略存储在AI生命周期中发挥的重要作用,特别是随着生成式AI的爆火,包括图像、视频、音频在内的非结构化数据都会呈现出指数级增长的态势,也自然会激发出新的存储需求。根据IDC的调研结果,预计到2028年,全球将产出394ZB的数据,其中AIGC领域的数据产出尤为突出,届时,AI图像和视频生成将增长167倍。
在此基础上,存储逐渐成为了AI发展的瓶颈。近年来,存内计算被业界广为关注,但却始终卡在商业化上。而就在近日,三星电子和 SK 海力士正在合作标准化 LPDDR6-PIM 内存产品。该合作伙伴关系旨在加快专门用于人工智能(AI)的低功耗存储器标准化。而这也有望推动存内计算的商业化。
存算一体加速AI运算
众所周知,算法、数据和算力(芯片)是人工智能发展的三大核心要素,其中芯片是决定人工智能是否能够最终落地的根基。随着ChatGPT,GPT-4等大模型研究的不断深入,模型结构日趋复杂,数据量与计算量大幅增长。与此同时,随着摩尔定律的逐渐失效,芯片制造工艺演进相对放缓。算法发展与硬件发展之间存在矛盾,如何高效地利用复杂算法处理海量数据成为当前人工智能领域的重要挑战。
究其原因,芯片作为人工智能的基石,正遭遇着严重的“冯·诺依曼架构瓶颈”。在冯·诺伊曼架构中,计算与内存是分离的,计算单元从内存中读取数据,计算完成后再存回内存。特别是随着人工智能等对性能要求极高的场景爆发,传统的冯·诺依曼架构的短板开始凸显,例如功耗墙、性能墙、内存墙的问题。同时,由于器件尺寸微缩逐渐逼近物理极限,单纯通过工艺来进一步提升芯片性能的技术路径逐渐受阻,芯片发展面临着“工艺墙”问题。
为了解决上述问题,国内外学术界和产业界从架构、工艺、集成等多个维度展开了诸多研究,探索后摩尔时代新一代芯片技术。例如,数据流架构芯片实现流式计算,在处理AI类大规模数据时可以实现远高于冯·诺依曼架构的吞吐率;可重构芯片技术通过软件定义硬件电路结构,从而实现高灵活性与高能效计算;晶圆级芯片通过先进工艺技术扩展芯片面积来提高算力;三维芯片通过3D集成封装技术,将多个芯片在垂直方向上进行堆叠来实现高带宽与高算力;存算一体芯片则通过器件–架构–电路–工艺的协同创新,实现存储与计算的融合一体化,从根源上突破冯·诺依曼架构瓶颈。
基于存算一体芯片的架构特点,一方面可以大幅降低数据搬运开销,突破“存储墙”与“功耗墙”;另一方面,基于其大规模并行运算特点,可以在相对落后的工艺节点下实现比肩先进工艺的性能,从而在一定程度上缓解工艺微缩压力。此外,存算一体技术也可以方便地与其他技术进行结合,如可重构芯片技术、晶圆级芯片技术、三维集成技术等。因此,存算一体芯片被认为是后摩尔时代最重要的芯片技术方向之一。
存算一体有三种主流技术路径:近存计算(PNM)、存内处理(PIM)、存内计算(CIM)。
近存计算的优势在于减少数据移动和提高缓存效率,适合于需要大规模并行处理和优化内存带宽的应用。存内处理的优势在于数据密集型应用和能效优化,适合于需要快速数据处理和减少能耗的应用。存内计算的优势在于特定领域的高并行性计算和定制硬件优化,适合于需要高度专业化和定制化解决方案的应用。
巨头的存内计算布局
存算一体的概念最早可以追溯到1969年,斯坦福研究所的Kautz等人首次将存储和逻辑整合,提出“logic-in-memory”方案。后续研究人员在芯片电路结构、计算架构与系统应用等方面开展了一系列研究。但受限于电路设计复杂度与工艺难度,后续的大部分研究本质上实现的是“近存计算”,仍然需要把数据从内存中读取出来之后再就近进行计算。目前业界比较典型的方案是通过3D封装和高带宽内存等技术来缩短存储器和处理器之前的距离,并提高数据带宽。目前,近存计算技术相对比较成熟,已经实现了规模化量产。以AMD、Intel、三星、海力士等企业为代表的半导体龙头企业均已发布基于高带宽内存技术(HBM)和2.5D/3D封装技术的近存计算芯片。例如,三星最新发布的HBM3 Icebolt 技术采用近存计算架构, 通过 12层10 nm级DRAM堆叠,实现了高达6.4 Gbps处理速度和高达819 GB/s的带宽。但本质上,近存计算技术仍然是存算分离的冯·诺依曼架构。
近年来,大数据驱动应用发展迅猛,数据量呈现指数级暴增。研究者们考虑赋予内存一定的计算能力,从而减少数据移动,降低计算机系统运行能耗,实现存储和计算融合一体化的“存内计算”架构成为了产业界的研究热点。2021年开始,存内计算相关产品逐步落地,包括三星、海力士、TSMC在内的国际巨头以及Mythic等公司经过技术沉淀,已经开始试产存内计算芯片。
2021年12月,阿里巴巴旗下达摩院计算技术实验室成功研发全球首款基于DRAM的3D键合堆叠存算一体AI芯片,号称在特定AI场景中,该芯片性能提升10倍以上,能效比提升高达300倍。
2021年,三星展示了基于HBM2-PIM技术的存内计算芯片,该处理器可以提供最高达1.2 TFLOPS的嵌入式计算能力,从而使内存芯片本身能够执行通常由CPU,GPU,ASIC,或FPGA处理的工作。2022年,三星更是对AMD Instinct MI100计算卡进行了改造,加入了HBM-PIM芯片,构建了一个大型计算系统。该系统在使用训练语言模型算法T5时,性能提高了2.5倍,功耗降低至原来的2.67分之一,充分展示了PIM技术的巨大潜力。此外,为了验证MoE(混合专家系统)模型,三星使用96个配备了HBM-PIM的MI-100 GPU来构建HBM-PIM集群。在MoE模型中,与HBM相比,HBM-PIM GPU的性能提高了一倍,能效提高了三倍。
2023年,在Hot Chips 2023会议上,三星电子公布了HBM(高带宽存储器)-PIM(存内计算)和LPDDR(低功耗双倍速率动态随机存取存储器)-PIM最新的的研究成果。其中,LPDDR-PIM将移动DRAM与PIM相结合,可在移动设备中直接进行数据的处理和计算。由于它是针对移动设备开发的产品,因此它的带宽(102.4GB/s)也较低。但功耗却节省了72%。三星重注PIM技术,力图在AI应用中超越SK海力士。
另一个存储大厂SK海力士也不甘落后。2022年,SK 海力士宣布,开发出了公司首款基于PIM技术的产品 – GDDR6-AiM的样本。GDDR6-AiM是将计算功能添加到数据传输速度为16Gbps的GDDR6内存的产品。与传统DRAM相比,将GDDR6-AiM 与 CPU、GPU 相结合的系统可在特定计算环境中将演算速度提高至最高16倍。在性能大幅提升的同时,采用PIM技术的GDDR6-AiM的工作电压为1.25V,与GDDR6的1.35V相比降低明显。此外,PIM技术的应用减少了内芯片与CPU、GPU的数据传输往来,从而降低了CPU及GPU的能耗,借此GDDR6-AiM成功使功耗降低80%。
此外,TSMC也展示了其在SRAM、ReRAM、PCM、STT-MRAM等多种器件上实现存内计算的探索成果。美国处理器公司Mythic推出M1076处理器,采用模拟存内计算方案,存储介质为Flash,在40nm制程工艺下实现25TOPS的算力与3W的功耗;2022年国内知存科技推出首款量产存内计算SOC芯片WTM2101,采用模拟存算计算范式,以Flash为介质,在40nm成熟工艺下以2.6x3.2mm²极小封装实现了50Gops的高算力,功耗低至5uA。已商用至智能可穿戴设备中2023年后摩智能推出鸿途H30芯片,采用数字存算计算范式,以SRAM为介质,实现256TOPS的算力与35W的功耗。WTM2101也是全球首颗也是实现百万级量产商用的存内计算芯片。存内计算产业化初见成果,越来越多的存内计算产品落地。
PIM技术需要标准化推动
虽然各家都早已布局PIM技术,但却始终徘徊在商业化门口,其中的重要原因之一便是各家企业根据各自的标准开发产品,导致概念和规范存在差异,行业难以采用通用标准。
三星电子和SK海力士正在合作推动LPDDR6-PIM内存的标准化。这种合作旨在加快专门用于人工智能的低功耗存储器标准化进程。两家公司已经确定建立联盟,以使下一代存储器符合这一趋势。他们正在与联合电子设备工程委员会(JEDEC)进行标准化工作,讨论确定每项标准的具体规格。
首先,标准化可以提升兼容性和互操作性。通过标准化,不同厂商生产的PIM设备可以在同一系统中无缝协作,减少因兼容性问题导致的系统故障或性能下降。这有助于促进技术的广泛应用和普及。
其次,标准化有助于降低成本。标准化可以减少研发成本和时间,因为不同的设备制造商可以共享和利用已有的标准,避免重复开发。此外,标准化还能促进规模经济,降低生产成本,从而使得PIM技术更加普及和实惠
PIM芯片大规模落地的时刻尚未明确,但这一天的到来值得我们期待。技术的演进从不停止,市场的需求也在不断变化,当各种条件成熟之际,或许就是存算一体芯片大放异彩之时。如今标准化迫在眉睫,也意味着条件即将成熟。