NVIDIAHopperH100AIGPU基准测试在游戏中比AMD680MiGPU慢但在AI测试中摧毁RTX4090

2023-06-26 12:35:13

NVIDIAH100GPU是一款非常昂贵的芯片,需要在中国购买。我们已经看到单位成本在30,000美元左右,最高可达50,000美元。因此,其中四张显卡的价格将超过100美元,这太疯狂了。为了在DIYPC设置上测试这些GPU,必须制作一个3D打印管道来为卡提供冷却,因为它带有一个被动散热器,这意味着卡上没有主动冷却解决方案。NVIDIAGeForceGTX1650Ti显卡也用作辅助显示卡,因为H100不提供任何显示输出,旨在用作加速卡。

使用的H100变体是80GBPCIe,在GH100GPU的全部144个SM和H100SXM上的132个SM中启用了114个SM。该芯片本身提供3200FP8、1600TF16、800FP32和48TFLOPs的FP64计算能力。它还具有456个张量和纹理单元以及24个ROP。

H100的结构方式使其只有2个TPC可用于标准图形处理任务,而整个GPU块主要专用于计算任务,因此即使在驱动程序不支持的情况下也可能导致游戏出现不良结果这样的工作量。该卡具有跨5120位总线接口的80GBHBM2e(2.0Gbps)内存布局,额定TDP为350W。然而

从基准测试开始,该卡首先在StableAIDiffusion基准测试中进行了测试,虽然H100能够在2.82秒内生成图像,但它仍然比RTX4090慢。主要问题是由于Xformers没有包括对H100的支持,因此决定使用不同的模型Donut。Donut工具利用了在pytorch2.0.01下的HopperH100GPU上发现的变压器引擎,并且还启用了对CUDA11.8的支持。

此处的性能与H100完全相反,速度比RTX4090和RTX6000AdaGPU快30%。内容创建者还使用了多达四个H100GPU来查看缩放性能,看起来两个H100提供了43%的进一步提升,但3路和4路结果显示收益递减和负缩放。看起来标准PC无法利用多个H100GPU。

在VITS训练基准测试中,H100的性能比NVIDIARTX4090和RTX6000AdaGPU快23%。这是一个非常占用内存的基准测试,增加批处理大小不会影响H100的性能,因为它已经包含80GB内存,但RTX4090由于其有限的24GBVRAM而确实落后于更高的批处理大小。

接下来,我们在ChatGPT中有一个大型LLAMA模型,总共有650亿个参数,这在H100上是可管理的,但RTX4090最多只能运行60亿个参数。这说明至少对于LLM来说,游戏GPU并不是一个明智的选择,最好还是弄个专用的加速器。在最后一组基准测试中,使用了HPC工作负载,例如LAMMP(2023年3月28日),RTX4090和RTX6000Ada都无法与H100PCIe抗衡,后者淘汰了这两种产品。

但是这张卡在游戏中的表现如何呢?好吧,3DMarkTimeSpy和RedDeadRedemption2用于测试NVIDIAH100GPU的游戏性能,该卡的运行速度比集成GPU的AMDRadeon680M慢。问题是由于未充分利用和驱动程序的未优化性质造成的,这是可以预料的,因为H100是HPC/AI优先的解决方案,而且该公司没有为该卡制作的官方游戏驱动程序。

在RedDeadRedemption2中,该卡以1080p高设置和DLSS“平衡”预设运行,并且仍然提供低于30FPS的帧率。再一次,您可以看到该卡的功率低于100W,这表明H100GPU的利用率严重不足。

因此,NVIDIA的H100就是它所说的那样,是一款适用于AI和HPC工作负载的出色显卡,仅此而已。这是一个非常昂贵的加速器,但由于没有竞争对手可以与之匹敌,因此在AMD和英特尔在同一领域提供更具竞争力的解决方案之前,绿色团队可以在价格上逍遥法外。

免责声明:本文来源网友投稿及网络整合仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。投诉邮箱:1765130767@qq.com。
本文地址: