英特尔Aurora超级计算机已经推迟了很长时间,但它终于成型了。该系统由Intel的XeonCPUMax和XeonGPUMax系列提供支持,与最初的1Exaflop目标相比,该系统已升级为2Exaflop机器。这将使它与AMD驱动的Frontier超级计算机相提并论,后者是目前地球上最快的。
在最新的披露中,英特尔透露,Aurora超级计算机将封装总共10,624个节点,其中包括基于SapphireRapids-SP系列的庞大的21,248个XeonCPU和基于PonteVecchio设计的63,744个GPU。该系统将是一个具有疯狂结构互连的野兽,提供2.12PB/s的峰值注入带宽和0.69PB/s的峰值二分带宽。
Argonne正在带头开展国际合作以推进该项目,其中包括英特尔;慧与;
能源部实验室;美国和国际大学;非营利组织;与国际
合作伙伴,如RIKEN。
此外,英特尔和阿贡国家实验室强调了Aurora的安装进度、系统规格和早期性能结果:
英特尔已经为极光超级计算机完成了超过10,000个刀片的实物交付
。
Aurora的完整系统使用HPECrayEX超级计算机构建,将拥有63,744个GPU和21,248个
CPU以及1,024个DAOS存储节点。它将利用HPESlingshot高性能以太网网络。
早期结果显示在现实世界的科学和工程工作负载上具有领先的性能,性能比AMDMI250GPU高出2倍,在QMPACK量子力学应用程序上比H100提高20%,并且接近线性扩展到数百个节点。
Aurora在今年推出时有望提供超过2exaflops的峰值双精度计算性能。
通过英特尔
对于内存,Aurora超级计算机配备了10.9PB的DDR5系统DRAM、1.36PB的CPUHBM容量和8.16PB的GPUHBM容量。系统DRAM达到5.95PB/s的峰值带宽,CPUHBM达到30.5PB/s的峰值带宽,GPUHBM达到208.9PB/s的峰值带宽。在存储方面,该系统配备了230PB的DAOS容量,以31TB/s的峰值带宽运行,总共配置了1024个节点。
运行最新英特尔数据中心GPUMax系列1550的Aurora提供最快的SimpleFOMP性能,超过NVIDIAA100和AMDInstinctMI250X加速器。英特尔还在聚变反应堆预测、蒙特卡洛方法(最大化)和QMCPACK(计算量子力学特性)中吹捧了一些令人印象深刻的相对性能与那些加速器。
在英特尔的特别展示中,麦克维重点介绍了整个硬件领域的最新竞争性能结果,并与客户分享了强劲的势头。
英特尔数据中心GPUMax系列在各种工作负载上比NvidiaH100PCIe卡平均高出30%1,而独立软件供应商Ansys显示Max系列GPU在AI加速HPC应用程序上的速度比H100高50%。
XeonMax系列CPU是唯一具有高带宽内存的x86处理器,在高性能共轭梯度(HPCG)基准测试1上比AMD的Genoa处理器提高了65%,而且功耗更低。高内存带宽已被认为是HPC客户最需要的功能之一。
第四代英特尔至强可扩展处理器——HPC中使用最广泛的处理器——比AMD的Milan4平均提速50%,而能源公司BP最新的第四代至强HPC集群的性能比上一代处理器提高了8倍,同时提高了能效.
Gaudi2深度学习加速器在深度学习训练和推理方面具有竞争力,性能比NvidiaA100快2.4倍。
通过英特尔
据说Aurora超级计算机将在今年晚些时候再次推出,其峰值性能超过2Exaflops的障碍。超级计算机还将运行最新的AuroragenAI模型,该模型为科学应用提供1万亿个参数。
除了极光超级计算机,英特尔还宣布了其全新的数据中心GPUMax子系统,该子系统采用x8UBB设计,共有8个PonteVecchioGPU。