RTX 4090深度学习性能实测,模型训练可提升60~80%!

申明:本文原文链接为https://www.hynx.com.cn/consult/detail/44

本篇文章分别从RTX4090的平台兼容性以及8卡整机性能,满负载温度及功耗方面展开分享,以全面评估其相比上代RTX30系列的性能优势。

首先让我们一起看看本次测试的硬件配置。

测试硬件配置

简单介绍一下本次使用的平台为超微SYS-420GP-TNR,这款GPU系统针对 AI 和图形密集型工作负载的灵活设计, 4U 双处理器(第三代英特尔® 至强®),双根GPU系统,最多10个PCIe GPU,详细产品参数可查看https://suzdell.com/449.html/sys-420gp-tnr/

软件环境

超微服务器安装8张涡轮版RTX 4090显卡样例图

超微SYS-420GP-TNR服务器安装8张RTX 4090 (涡轮版)显卡情况良好,前后空间充足,无结构干涉,显卡采用尾部供电设计,也不需要额外选购凸起顶盖。

涡轮版RTX 4090 性能测试

显卡硬件参数对比

为了更加直观的体现,我们将Geforce RTX 4090显卡与Geforce RTX 3090、RTX 3080做性能参数对比,首先三张GPU卡硬件参数如下:

单张显卡FP32/16 ResNet50 性能测试

测试任务

• TensorFlow-1.15.5 : ResNet50 , fp32和fp16

测试单张显卡TensorFlow FP32、FP16性能,使用NVIDIA官方NGC容器nvcr.io/nvidia/tensorflow:23.01-tf1-py3,命令示例:

• python resnet.py --layers=50 --precision=fp16 --batch_size=128

• python resnet.py --layers=50 --precision=fp32 --batch_size=128

结果分析:

RTX4090显卡得益于新的架构和工艺制程,性能相比RTX3090有40%-80%的提升,相比RTX 3080则提升更大(RTX3080为10GB显存版本,部分测试项目会提示显存容量不足)。

8卡RTX 4090性能测试

测试任务

• TensorFlow-1.15.5 : ResNet50 , fp32和fp16

测试8张RTX4090显卡TensorFlow FP32、FP16性能,使用NVIDIA官方NGC容器nvcr.io/nvidia/tensorflow:23.01-tf1-py3

命令示例:

• mpiexec --allow-run-as-root --bind-to socket -np 8 python resnet.py …

结果分析:

420GP-TNR平台下, GPU多卡性能相对单卡总体性能有较大提升,由于pcie带宽限制和额外通信开销,总体未呈线性提升,实际应用可依据具体环境优化代码,多GPU性能加速比还有提升空间。

8卡涡轮版RTX4090 服务器整机温度测试

SYS-420GP-TNR服务器PCI-E槽位显卡slot位置图

nvidia-smi命令查询显卡序号与slot槽位对应关系如下:

测试方法:

在室温25度环境下,使用gpu-burn工具对所有GPU卡进行压力测试,使用默认命令和增加-tc参数(启用tensor core)来测试(两者单卡最大功耗分别为390W和440W左右),风扇分别设置optimal和fullspeed,运行超过1个小时后记录温度情况。

服务器内部风扇默认optimal模式

服务器风扇optimal模式下,风扇转速4000-6000 RPM。

1)运行gpu-burn(不带-tc参数),GPU卡最大功耗390W ,8张RTX 4090显卡最低温度为71℃,最高温度为80℃,测试截图如下:

2)运行gpu-burn -tc 启用tensor核心,此时GPU卡最大功耗接近440W ,8张RTX 4090显卡最低温度为75℃,最高温度为84℃,测试截图如下:

服务器内部风扇full speed模式

将服务器风扇设置为full speed,此时风扇转速为11000 RPM左右。

1)运行gpu-burn(不带-tc参数),GPU卡最大功耗390W ,4张RTX 4090显卡最低温度为70℃,最高温度为77℃,测试截图如下:

2)运行gpu-burn -tc 启用tensor核心,GPU卡最大功耗接近440W ,8张RTX 4090显卡最低温度为69℃,最高温度为81℃,测试截图如下:

温度测试小结:

本测试中所使用的涡轮版RTX4090显卡强化了涡轮风扇设计,在满负载时风扇会智能调速至100%,因此在机箱尾部没有辅助抽风风扇情况下,8张RTX 4090满载运行的温度均在可控范围内。将风扇模式调整为Full speed,显卡温度可整体再降低2~3℃。

8卡涡轮版RTX 4090 服务器整机功耗

SYS-420GP-TNR配备2000W 钛金级(2+2)冗余电源,其转化效率为96%,可满足8卡GPU整机供电需求。8张RTX 4090 GPU在满载运行情况下,服务器总功率为4200W左右。

功耗统计如下:

4个电源模块负载情况分别如下:

测试总结

新一代RTX 4090显卡性能相比上一代RTX 30系列有了巨大提升,最高接近80%,涡轮版RTX 4090显卡尺寸与30系列涡轮版对比变化不大,依旧与超微8卡GPU平台适配,搭配后可以提供强大的整机计算性能。涡轮版RTX 4090强化了自身涡轮风扇散热,无需在机箱尾部外挂辅助风扇,亦能有效的控制温度,保障持续稳定运行。

苏州火猴网络 — Dell戴尔服务器工作站存储AI训练服务器多卡GPU服务器经销商

业务领域:服务器、工作站、存储器、深度定制服务器