赛道Hyper | 英特尔芯片设计之变
创始人
2024-09-30 20:40:47
0

9月25日,英特尔正式推出AI加速卡Gaudi 3和“Granite Rapids”Xeon 6(至强6,服务器CPU)。

Gaudi 3对标英伟达H100和AMD的Instinct MI300,用于GAI和HPC;Xeon 6专为人工智能和高性能计算场景设计。

虽弱但强?怎么理解?

今年4月,英特尔就宣布,将于今年四季度推出Gaudi 3,现在,市场终于可以看到这颗英特尔倾尽全力研发的AI加速卡的实际性能,究竟有多强。毕竟,英特尔要靠这颗芯片正面PK英伟达广受市场欢迎的H100加速卡。

除了选用HBM2E(第三代)作为存储中心,较为令人迷惑——H100用的是HBM3(H100 SXM5 GPU是全球首款使用HBM3内存的GPU,提供了高达3 TB/s的内存带宽),其他的性能升级,至少从参数看,还是非常惊人的。

Gaudi 3采用台积电5nm制程工艺,拥有两个芯片组:每个芯片组各有4个(合计8个)MME(矩阵乘法引擎),包含64个张量处理器核心(TPC,带有FP32累加器的256x256 MAC结构);SRAM缓存容量翻番至96MB,带宽翻倍至19.2TB/s;HBM2E内存容量从96GB增加到128GB(8颗),带宽为3.7TB/s。

与前代Gaudi 2相比,在物理配置上,Gaudi 3也有明显的大幅提升。Gaudi 2用了台积电7nm工艺,有24个TPC、2个MME和96GB HBM2E高带宽内存。但不知出于何种考虑,英特尔Gaudi 3仅支持FP8矩阵运算和BFloat16矩阵和矢量运算,不再支持FP32、TF32和FP16。

性能方面,Gaudi 3的MME和矢量BF16的参数都赶不上英伟达H100。

Gaudi 3的MME BF16/FP8都是1835 TFlops(1.835亿亿次/秒),矢量BF16能达到28.7 TFlops(28.7万亿次/秒),分别比Gaudi 2提升3.2倍、1.1倍和1.6倍;但是英伟达H100的这三项性能参数分别为BF16的1979 TFlops(高于1835 TFlops)、FP8的3958 TFlops和1979TFlops。

在核心性能参数上,Gaudi 3和英伟达H100的差距肉眼可见。但是,英特尔却宣称,Gaudi 3比H100的LLM大模型推理性能领先50%、训练时间快40%,综合性价比是英伟达的两倍。

这是怎么做到的呢?是不是英特尔的软件能力(尤其是软件开发配套工具)和AI生态比英伟达更强?毕竟硬件性能需要强悍的软件能力,以及完善的生态做配合,才能充分激发。

对此,英特尔没有做过多解释,其宣称比英伟达更强的证据,仅是几张PPT。因此,是否真能像英特尔说的那样,还需要市场和时间验证。

至少英特尔高层也承认生态的价值,认知还是相当全面的。

英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说,“对AI的需求正在推动数据中心发生巨大转变,业界要求在硬件、软件和开发工具方面做出选择。随着我们推出配备P核的Xeon 6和Gaudi 3 AI加速器,英特尔正在建立一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施所有工作负载。”

从这个表态可以看出,英特尔的AI加速卡生态也在构建过程中。开发配套软件方面,Gaudi 3能无缝兼容PyTorch框架、Hugging Face Transformer和扩散模型;同时,Gaudi 3会提供给IBM Cloud和英特尔Tiber开发者云。

此外,Gaudi 3加速器提供三种部署形态,分别是OAM 2.0标准夹层卡,被动散热峰值功耗900W,液冷散热峰值功耗1200W;HLB-325通用基板,功耗未知;HL-338扩展卡,PCIe 5.0 x16接口,被动散热峰值功耗600W。

基于英特尔Gaudi 3的系统将于今年第四季度从戴尔、HPE和超微全面上市,戴尔和超微的系统将于10月出货,超微的设备将于12月出货。

设计思路向联发科看齐?

同一日,英特尔还发布了宣称过久却迟迟不露面,故而快被遗忘的“Granite Rapids”Xeon 6(CPU)。

好在9月25日,“Granite Rapids”服务器 CPU 系列的高端产品终于登台,市场认为,“Granite Rapids”Xeon 6与今年6月发布的“Sierra Forest”Xeon 6芯片组合起来,还是能打的,起码能降低英特尔在IDC(数据中心)领域的市场损失。

尽管这个结果不那么好——推出一颗新的性能强劲的处理器,作用仅仅是降低损失,这无论怎么说,都有点令人沮丧。但是,英特尔的对手——AMD现在对英特尔来说,后者难以在技术、成本、性能和市场等维度做到超越,故而若能减少损失,这结果已经相对理想。

由于Xeon 6的E核(能耗)和P核(性能)变体的芯片封装和架构,在2023年的Hot Chips 2023已经公开,所以实际上,对“Granite Rapids”Xeon 6来说,性能提升的亮点就9月25日披露的信息看,最鼓舞至少是英特尔公司信心,部分让市场看到希望的亮点,是——Xeon 6提升了设计水平。

芯片设计水平能决定最终的性能表现,芯片设计最难的部分是取舍,这取决于对特定芯片定位、性能、技术水平、成本、竞争和市场需求度等极多维度的综合考虑。

比如联发科技设计旗舰芯片的核心考虑是要在保持相对低功耗的基础上,再考虑性能提升;而高通更追求高性能,不像联发科那么极度追求功耗平衡,所以之前推出了饱受市场诟病的火龙芯片。

英特尔的芯片设计考虑,有点类似于联发科。比如IPC(每时钟指令数)常被用来衡量CPU性能的重要指标。那么在芯片设计时,无限制提升IPC是可取的吗?

别忘了还有能耗限制。虽然台式机或者服务器,对能耗的容忍度更高,但也会综合考虑能耗成本。此时应该如何选择?

最近,英特尔高级研究员兼Xeon 6产品线首席架构师Ronak Singhal对这个话题有过一番解释, 核心观点就一个,英特尔Xeon 6的设计思路是降低能耗,同时再尽可能的保持高性能,故而不过分追求IPC。

这个设计指导思路的结果就是,“Granite Rapids”Xeon 6,英特尔将核心数量从之前的两颗P核的56个核心提升至120个,增加2.3倍,而顶部部分的功率仅增加至500W,仅增加1.4倍。

总的来说,Xeon 6的性能特性很多,比如超核心数(UCC)变体,即Xeon 6 6900P,具有高达504 MB的L3缓存,远超通常的英特尔芯片缓存容量。但是Xeon 6也有很奇特的设计,比如不支持支持四路和八路服务器的变体,这和Gaudi 3使用HBM2E一样令人困惑。

来 源 | 华尔街见闻官方

推荐阅读——

美国再将13家中企列入“未经验证清单”(附中文名单)

日本突发,更新出口管制!包含5项半导体产品

一文看懂算力核心HBM的技术特点

美国升级AI芯片出口禁令,13家中国GPU企业被列入实体清单(附名单)

又来!外媒:美国商务部将对42家中国企业出口管制(附中文清单)

美商务部再将11个中国实体列入实体清单(附名单)

欧美担心中国加速生产传统芯片!专家:美政府在对华芯片问题上无清晰战略

日本7月23日起尖端半导体出口管制生效,影响23种制造设备(附明细)

涉及近20家中国企业!美国国会对四家美国风投公司在华投资展开调查(附名单)

美国宣布制裁13个中国实体与个人,我驻美使馆回应(附制裁对象清单)

【半导体】以涉俄军为由,美帝将12个中国企业加入管制出口“实体清单”

相关内容

热门资讯

机器人、光模块、芯片,AI企业... 12月17日,广州举办“十四五”建设现代产业体系新闻发布会。会上数据显示,在推动“数转”“智改”“网...
消息称苹果iPhone 17e... IT之家 12 月 17 日消息,科技媒体 The Information 昨日(12 月 16 日...
合肥蜀山区如何让“寸土”生“寸... 近日,安徽省亩均效益评价联席会议办公室正式公布2025年安徽省制造业企业、县(市、区)、开发区亩均效...
上蔡供电公司:深化地址数据治理... 大象新闻记者 周文德 通讯员 于亚洲 唐培森 为全面提升数据质量,支撑电网精准管理,12月15日,...
盐城射阳60亿元新材料项目加速... 仲冬时节,寒意虽浓,却难掩企业火热的发展势头。近日,在射阳港经济开发区,江苏京奕绿能新材料科技有限公...
原创 A... 文/杨剑勇 沐曦股份以700的元开盘,相较于发行价(104.66元)上涨568%,上午最高涨幅更是达...
收购扫地机器人鼻祖,深圳如何“... 文|无相财经 12月15日,美国扫地机器人行业开创者iRobot宣布进入破产程序,解救它的重组企业...