Intel正式发布Gaudi 3 AI加速器:1200W功耗!性价比两倍于NVIDIA H100
早在4月,英特尔就宣布了新一代AI加速器Gaudi 3,如今终于发布了。详细规格也已发布。竞争对手直接瞄准了NVIDIA H100 GPU 加速器。当然,后者的Blackwell系列也会在体积上有所增加。
Gaudi 3的规格有了很大的提升。内置SRAM缓存容量翻倍至制造工艺从台积电7nm来到台积电5nm,MME(矩阵乘法引擎)从2个增加到8个,虽然每个MME内部的TPC(张量处理核心)从12个减少到8个,但是总数从24个大幅增加到了64个,另外媒体解码器差从8个增至14个。,带宽翻倍至12.8TB/s。
核心性能方面,96MBHBM2E高带宽内存容量从96GB提升至MME BF16/FP8都是1835 TFlops(每秒1.835亿亿次),矢量BF16则是28.8 TFlops(每秒28.8万亿次),分别提升了3.2倍、1.1倍、1.6倍。,带宽也提升至惊人的3.7TB/s。
24个200Gb RDMA网络接口,双向网络互连带宽1.2TB/s,主机接口峰值双向带宽128GB/s,系统总线升级为128GB(八颗)
根据官方的说法,在开发方面,PCIe 5.0 x16。无缝兼容PyTorch框架、Hugging Face Transformer和扩散模型。
Gaudi 3加速器提供Gaudi 3对比NVIDIA H100,LLM大模型推理性能领先50、训练时间快40,性价比则是对手的2倍。三种部署形式,支持48个112Gb PAM4SerDes网络链路。
一是OAM 2.0标准夹层卡,被动散热峰值功耗900W,液冷散热峰值功耗1200W,具体功耗未透露。
二是HLB-325通用基板,支持八颗Gaudi 3,还可以四卡互联。
英特尔此前曾宣布IBM将在其云服务中部署Gaudi 3加速器。
另据悉,Gaudi 3加速器还有中国专用版本,其中三是HL-338扩展卡,PCIe 5.0 x16接口,被动散热峰值功耗600W,算力自然会大幅降低,但目前还没有进一步的说法。