[测试]3700xRadeonVII9900K2080Ti实验室深度学习

楼主: fo40225   2020-05-08 18:57:15
重要的事先说在前
别真的买AMD显卡来跑DL
使用Radeon VII跑tensorflow与pytorch纯粹测试
购买Radeon VII的正确理由应该是
有OpenCL的程式要执行
且需要双精度算力
而不需要ECC
又买不起计算卡(P100 V100)
这时才考虑收一张Radeon VII来应付
===
做实验要有对照 因此使用同为8C16T的9900K作为3700X的对手
但不是专业评测媒体 没有很多备品与时间 很难做到完全公平测试
只能尽量说明细节 读者可自行判断结果
测试目标是在尽量默认(官方Turbo)的条件下
用一些比较简单的小程式
尝试反应跑运算的能力(ML DL)
所有结果仅供参考
在windows上也能跑出类似的数据
有相同配备的人可以试着重现实验结果
===
测试硬件
AMD Ryzen 7 3700X
Wraith Prism (H mode)
ASUS TUF GAMING X570-PLUS
4x Kingston KVR32N22D8/16
HIS Radeon VII
XPG SX8200Pro 1TB
全汉 圣武士 650W
视博通 圣斗神 PRO
Intel Core i9-9900K
Thermalright Silver Arrow IB-E Extreme
GIGABYTE Z390 AORUS ELITE
4x KLEVV KD4AGU88C-26N190A
GIGABYTE RTX 2080 Ti Turbo
XPG SX8200Pro 1TB
全汉 圣武士 650W
全汉 CMT240(B) 炫斗士 (黑)
另外加测同一张2080ti插到3700x那台上
===
BIOS版本与设定
TUF GAMING X570 PLUS 1405
PBO manual
Package Power Tracking(PPT) 1000W
Thermal Design Current(TDC) 1000A
Electrical Design Current(EDC) 1000A
其余默认
DDR4-3200 (22-22-22) 1.2V
Z390 AORUS ELITE F8
Package Power Limit 1 4090W
Package Power Limit Time 1 127s
Package Power Limit 2 4090W
Package Power Limit Time 2 127s
Platform Power Limit 1 4090W
Platform Power Limit Time 1 127s
Platform Power Limit 2 4090W
Power Limit 3 4090W
Power Limit 3 Time 127s
Core Current Limit 255A
其余默认
DDR4-2666 (19-19-19) 1.2V
(早期的科赋原生内存是有xmp的
开了时序会收紧
但这批比较后期 xmp profile时序是一样的
开xmp就只是电压变1.35V CPU更耗电)
另外使用
nvidia-smi -pm 1
nvidia-smi -pl 280
解除2080ti到280W
OS
Ubuntu Server 20.04 LTS kernel 5.4.0-26
ROCm driver 5.4.8
CUDA driver 440.64
频率温度功耗
数字皆为约略
详细可看录影
3700x
sensors读取温度
turbostat读取频率瓦数
Radeon VII
rocm-smi读取温度频率瓦数
9900k
turbostat读取温度频率瓦数
2080ti
nvidia-smi读取温度频率瓦数
待机
3700x+Radeon VII
CPU 2100MHz 36度C 13W
GPU 808MHz 36度C 18W
延长线 52W
3700x+2080ti
CPU 2100MHz 36度C 13W
GPU 300MHz 31度C 6W
延长线 46W
9900k+2080ti
CPU 800MHz 28度C 8W
GPU 300MHz 29度C 5W
延长线 38W
Prime95 Version 29.8 build 6
Small FFTs(L1/L2/L3) FMA3(AVX2)
3700x
1秒
CPU 3978MHz 81.5度C 143W
延长线 210W
1分钟
CPU 3911MHz 87.1度C 133W
延长线 197W
https://youtu.be/FsxKta8cYQs
9900k
1秒
CPU 4700MHz 87度C 222W
延长线 314W
1分钟
CPU 4532MHz 100度C 216W
延长线 290W
https://youtu.be/1SJ_f3upgEc
(linux的行为与windows不同
使用sudo service thermald stop
避免一撞温度墙就降到base)
(实验室5颗9900k
1颗在ASUS PRIME Z390-A上解除电流限制(192A)会自动关机
估计是VRM不够力
另外4颗在GIGABYTE Z390 AORUS ELITE上
有1颗默认电压较低 可90度上下全核4.7
其他3颗都只能100度全核4.5
也无法降电压 就算只-0.05V p95一样无法过
只能说是体质问题
下面的效能测试是全核4.5GHz这粒CPU的结果)
tensorflow resnet50 training fp16 batch128
3700x+Radeon VII
1分钟
GPU 1801MHz 105度C 273W
延长线 381W
https://youtu.be/xBZvnZ0Gtk0
3700x+2080ti
1秒
GPU 1905MHz 40度C 254W
延长线 351W
1分钟
GPU 1845MHz 70度C 273W
延长线 366W
https://youtu.be/7dURoFo-TyY
9900k+2080ti
1秒
GPU 1920MHz 39度C 254W
延长线 358W
1分钟
GPU 1830MHz 69度C 279W
延长线 336W
https://youtu.be/y3jh_HDrJ-g
(真正跑数小时到数天的运算
基本上是稳定1545MHz 84度C)
p95+tensorflow
3700x+Radeon VII
CPU 125W
GPU 302W
延长线 505W
https://youtu.be/vXGoWQZyf5M
3700x+2080ti
CPU 129W
GPU 279W
延长线 490W
https://youtu.be/EjuvHMI8pQE
9900k+2080ti
CPU 228W
GPU 270W
延长线 618W
https://youtu.be/eVz76K0rsdE
由于现在CPU GPU都有boost 跑出来结果会飘
大概前几位数比较一下趋势就好 没有重复很多次或固定温度
不要太认真比较小数点后几位
CPU理论效能测试
使用https://github.com/Mysticial/Flops 86d412c
(这结果会与AIDA64 GPGPU效能测试中的CPU结果相似)
version3/binaries-linux下
./2006-Core2 //使用SSE2 模拟 一般/普通/传统/上古遗迹 应用程式
./2013-Haswell //使用AVX/FMA3 模拟 高度最佳化的现代应用程式
(3700x执行./2017-Zen不会有明显差别)
| 128-bit SSE2 | 256-bit AVX | 256-bit FMA3
| Multiply + Add | Multiply + Add | Fused Multiply Add
| 1T | 16T | 1T | 16T | 1T | 16T
3700x | 42.432 | 521.184 | 82.176 | 992.256 | 136.896 | 1044.1
9900k | 39.072 | 301.008 | 79.968 | 602.016 | 159.552 | 1204.22
单位: GFlops
以上是单精度
zen2已经解决zen1 256bit浮点半速问题
zen2与skylake的架构分析文 网络上很多
两家的解码执行策略不同 导致这个结果
CPU计算效能测试
使用intel的测试script
基本反应numpy scipy sklearn效能
同时也可以知道像MATLAB与其他用到BLAS、LAPACK的程式会是什么状况
python使用Anaconda3-2020.02 内建numpy使用Intel MKL
另外比较numpy使用conda提供的OpenBLAS pip的OpenBLAS
与自编译BLIS+libFLAME有没有机会赢MKL
===
###主程式
git clone
作者: windrain0317 (你在大声啥)   2020-05-08 19:13:00
推详细测试

Links booklink

Contact Us: admin [ a t ] ucptt.com