在正文前 先提醒
最近要采购主机的公家研究人员
若实验室有机房机柜可放机架式
应该优先考虑今年的政府采购网共同供应契约
LP5-108036 采购期限到2021/04/30
不仅有Epyc
1U单路Epyc16核/32GB 134,185
1U单路Epyc32核/64GB 187,433
1U单路Epyc64核/128GB 297,125
2U单路Epyc16核/32GB 140,575
2U单路Epyc32核/64GB 209,798
2U单路Epyc64核/128GB 312,034
(但没有双路Epyc 不知道理由是什么)
也有高密度2U4Nodes
每节点双路Xeon Silver/8c/单3.2GHz/全2.5GHz/32GB
403,621
睽违多年 难得一见的四路主机
2U四路Xeon Gold/ 8c/单3.9GHz/全2.8GHz/128GB 376,556
3U四路Xeon Gold/20c/单3.9GHz/全2.8GHz/128GB 475,930
今年更是直接有GPU主机
终于不用再招标 开评选委员会了
2xRTX6000 24GBvram/256GB/双路16C 585,729
4xRTX8000 48GBvram/512GB/双路高频8C或20C 1,331,203
4x V100 32GBvram/512GB/双路高频8C或20C 1,735,889
===
这篇文章能看看自组主机的极限大约在哪
对于不熟组装机的人购买电脑
真的请找厂商
或是共契的笔电/桌机/塔式工作站/机架服务器
采购流程也方便
(但共契还是要看是否符合需求
笔电问题还好 近年都已全面标配SSD
但桌机有SSD的项次少的可怜
i7配机械读取臂拿来办公
浏览器 office卡到呼吸困难
还要改装就失去采购方便的意义
塔式工作站机架服务器若规格不够可以原厂加购项目
至少都是品牌机 大厂验证品质保固很好 出问题有人负责)
尤其是要求有ECC/raid稳定不当机确保资料要正确的工作站或服务器
不要自组
这边只比效能 什么ECC、RAID、IPMI远端管理、10/25/40/100Gbps网卡都没有
内存也只有256GB 以64核来说每核才分到4GB
四通道对于某些任务也是瓶颈
(若看到其他review 有些吃内存频宽的项目
3900x与3950x 3970x与3990x会同分就是这个原因)
基本上就是单人平行计算使用 没办法多人丢一堆工作上来
若不追求单核效能 白牌单路Epyc组起来价格差不多的
测试结果看看就好
也提供手上一些旧服务器的结果给有升级计画的人评估参考
测试软件细节可看 #1UjJiMol (PC_Shopping)
===
测试硬件
AMD Ryzen Threadripper 3990X
ENERMAX LIQTECH TR4 II 360 (上置冷排 内往外吹)
ASUS PRIME TRX40-PRO
8x Kingston KVR32N22D8/32
2x NVIDIA TITAN RTX
TITAN RTX NVLINK BRIDGE
Intel Optane 900P 480GB
FSP CANNON 2000W
Apexgaming Hermes C2
2x Thermalright TY-143 SQ (前置进风)
(这个组合有一些注意事项
1. VRM风扇架内附螺丝只能锁薄扇 20mm厚的风扇螺丝会不够长 (手册没写)
2. 这个机壳上置这个冷排风扇会卡到VRM散热片 歪一点点勉强能锁
3. 因为VRM散热片卡到冷排的关系 VRM风扇支架其实锁不上去
4. 使用3-slot bridge只剩一个从芯片组的pcie x4 并且会影响显卡散热
5. 使用4-slot bridge可以有一个low profile从CPU的pcie x16
但titan rtx的风扇会挡到所有前置音效、USB、风扇线、面板线等等
在这机壳还会挡到电源线出口
若配上7槽的机壳(像这个)会吸不到风
rtx公版双风扇一定要留一槽
就算像 #1UcfVWN9 推文照片一样装上去
重载也会直接过热降频到生活无法自理(剩?00MHz左右)
这也是为什么geforce nvlink bridge没有2 slot的原因)
BIOS版本与设定
ASUS PRIME TRX40-PRO 0902
PBO manual
PPT 1000W
TDC 1000A
EDC 1000A
CPU冷排风扇测点CPU
PUMP全速
前上风扇测点VRM
前下扇测点PCH
后风扇测点PCH
20度C 20% 65度C 70% 70度C 100%
其余默认
DDR4-3200 (22-22-22) 1.2V
另外使用
nvidia-smi -pm 1
nvidia-smi -pl 320
解除TITAN RTX到320W
OS
Ubuntu Server 20.04 LTS kernel 5.4.0-26
CUDA driver 440.64
频率温度功耗
3990x
sensors读取温度
turbostat读取频率瓦数
TITAN RTX
nvidia-smi读取温度频率瓦数
待机
3990x+TITAN RTX
CPU 2200MHz 35度C 36W
GPU 300MHz 33度C 14W
延长线 111W
Prime95 Version 29.8 build 6
Small FFTs(L1/L2/L3)
3990x sse2
1秒
CPU 3896MHz 75.4度C 657W
延长线 1027W
1分钟
CPU 3503MHz 86.0度C 486W
延长线 748W
https://youtu.be/u3f6RF38rnM
3990x fma3
1秒
CPU 3538MHz 80.8度C 675W
延长线 987W
1分钟
CPU 3337MHz 93.8度C 522W
延长线 848W
https://youtu.be/TDqVbTaJ_jI
1xGPU tensorflow resnet50 training fp16 batch128
1xTITAN RTX
1秒
GPU 1905MHz 47度C 299W
延长线 557W
1分钟
GPU 1860MHz 70度C 280W
延长线 494W
https://youtu.be/yfBuosZqKDw
p95+tensorflow
3990x fma3+2xTITAN RTX
延长线 1494~1287W
https://youtu.be/fKHs8-pbdbM
IO测试
| 3990x+900P CPU| 3990x+900P PCH|3990x+sx8200pro cpu
1MSeqQ8T1r|2441MB/s |2433MB/s |2782MB/s
1MSeqQ8T1w|2236MB/s |2231MB/s |2835MB/s
1MSeqQ1T1r|2449MB/s |2435MB/s |2764MB/s
1MSeqQ1T1w|2218MB/s |2220MB/s |2817MB/s
4kQ32T16r |2386MB/s(583k) |2387MB/s(583k) | 696MB/s(170k)
4kQ32T16w |2439MB/s(595k) |2407MB/s(588k) |1469MB/s(359k)
4kQ1T1r | 291MB/s(71.1k)| 268MB/s(65.3k)|79.1MB/s(19.3k)
4kQ1T1w | 217MB/s(52.9k)| 204MB/s(49.9k)| 209MB/s(50.9k)
对手服务器规格
===
Nehalem
4x Intel Xeon X7550
8C16T/单2.4GHz/全2.13GHz
p95sse2 2.066GHz
64x 16GB DDR3-1066 4R ECC RDIMM
Ubuntu Server 16.04.6 LTS kernel 4.4.0-177
===
SandyBridge
2x Intel Xeon E5-2690
8C16T/单3.8GHz/全3.3GHz
p95avx 3.2GHz
24x 16GB DDR3-1066 2R ECC RDIMM
Ubuntu Server 16.04.6 LTS kernel 4.4.0-177
===
DGX Station
1x Intel Xeon E5-2698v4
20C40T/单2.7GHz/全2.7GHz
p95avx2 2.6GHz
8x 32GB DDR4-2400 2R ECC RDIMM
4x V100 32GB 300W
DGX OS Desktop 4.0.7 kernel 4.15.0-96
CUDA driver 410.129
===
Skylake
2x Intel Xeon Gold 6148
20C40T/单3.7GHz/全3.1GHz
p95avx512 1.9GHz
24x 16GB DDR4-2666 1R ECC RDIMM
1x V100 32GB 250W
Ubuntu Server 18.04.4 LTS kernel 4.15.0-96
CUDA driver 440.64
===
CascadeLake
2x Intel Xeon Gold 6248
20C40T/单3.9GHz/全3.2GHz
p95avx512 2.1GHz
24x 32GB DDR4-2933 2R ECC RDIMM
Ubuntu Server 18.04.4 LTS kernel 4.15.0-96
===
国家高速网络与计算中心
台湾杉二号
TWCC
2x Xeon Gold 6154
18C18T
(猜测是锁3.0GHz无Turbo无idle降频无avx节流?)
24x 32GB DDR4-2666 2R ECC UDIMM
8x V100 32GB
Red Hat Enterprise Linux 7.5.1804 kernel 3.10.0
CUDA driver 418.87
实际使用时是在container内
依container type限制资源
GPU数量 1 2 4 8
CPU使用量限制(%) 400% 800% 1600% 3200%
RAM限制(GB) 90GB 180GB 360GB 720GB
这次测试使用8GPU
===
CPU理论效能测试
| 128-bit SSE2 | 256-bit AVX | 256-bit FMA3
| Multiply + Add | Multiply + Add | Fused Multiply Add
| 1T | nT | 1T | nT | 1T | nT
3990x| 42.816 | 4009.97 | 84.672 | 7203.17 | 138.816 | 8012.35
Nehalem| 15.936 | 325.584|
SandyBridge| 28.416 | 419.376| 49.824 | 813.696|
DGX Station| 21.552 | 432 | 41.28 | 832.416| 82.56 | 1664.83
Skylake| 22.704 | 991.44 | 44.832 | 1665.89 | 89.664 | 3323.9
CascadeLake| 30.096 | 1023.89 | 59.52 | 1789.54 | 119.232 | 3579.26
TWCC | 28.8 | 919.632| 55.2 | 1669.34 | 108.288 | 3343.3
| 512-bit AVX512
| Fused Multiply Add
| 1T | nT
Skylake| 192 | 5641.73
CascadeLake| 238.08 | 6396.67
TWCC | 209.664| 5481.98
(Gold 6148那台单核分数偏低的原因
根据观察 应该是因为Turbo反应慢
时脉还没拉起来程式就跑完了
而且是慢慢增加 不是向其他台直接切换到顶
有人知道TurboBoost反应速度跟什么有关系吗?
不知道是不是白牌server主机板issue还是UEFI或OS设定问题)
CPU计算效能测试
Intel均使用mkl版
|Cholesky|Det | Dot |Fft |Inv |Lu |Qr |Svd
3990x pip | 606.62| 350.05| 748.52|4.92|285.76|479.42|124.15|11.14
3990x mkl | 1119.49|1074.78| 971.88|5.03|214.65|888.52|440.20|34.16
debug mkl | 1268.56|1023.48|1205.16|5.05|712.24|799.41|475.49|43.18
Nehalem | 178.54| 199.17| 105.35|1.20|125.58|161.51| 81.88| 5.12
SandyBridge | 282.10| 318.30| 286.69|3.65|272.92|260.07|151.88| 7.19
DGX Station | 563.56| 705.35| 689.77|3.20|538.82|518.52|239.39|13.82
Skylake | 725.24|1054.83|1245.51|3.38|755.73|721.35|297.93|18.36
CascadeLake | 1139.19|1582.38|1369.20|3.58|878.06|789.13|335.06|19.10
TWCC | 1101.03|1446.08|1133.23|3.97|812.55|711.94|287.07|14.01
由于这个结果太惨 没有展现出64核杀翻全场的气势
一句四通道塞车就想打发可能太混
延续AMD要debug的传统
因此加测关核跑
使用MKL_NUM_THREADS设定核心数量
|Cholesky|Det | Dot |Fft |Inv |Lu |Qr |Svd
48c+debug | 1406.96|1081.58|1274.44|4.99|738.84|821.23|492.49|45.97
32c+debug | 1399.11| 981.86|1208.92|6.04|760.53|769.36|502.57|48.60
24c+debug | 1142.76|1023.80|1182.79|6.09|809.32|791.94|483.72|45.80
16c+debug | 823.99| 880.87| 872.70|6.10|658.55|709.48|411.23|43.35
8c+debug | 452.84| 445.21| 451.89|5.96|372.54|400.83|268.13|22.70
这结果看起来若要跑多核数学运算的买3960x就好
更上去请买epyc 八通道记得插满
多工vm多开不吃内存频宽 需要单核效能的的再来看3970x 3990x
(MSRP USD 3960x $1399 3970x $1999 3990x $3990
夹在中间的Epyc有很多 其实不一定要买3970x (32C/4.5~3.7GHz/128MB/280W)
$4025 7552 48C/3.3~2.2GHz/192MB/200W
$3400 7542 32C/3.4~2.9GHz/128MB/225W
$3100 7F52 16C/3.9~3.5GHz/256MB/240W
$2450 7F72 24C/3.7~3.2GHz/192MB/240W
$2300 7502P 32C/3.35~2.5GHz/128MB/180W
$2100 7F32 8C/3.9~3.7GHz/128MB/180W)
至于svd项目爆高 估计是合计256MB的L3太扯
若把8个执行绪挤到同一个CCD上 速度会跟3700x差不多
MKL默认为granularity=core
在Linux 5.4上 OS会自动打散到不同CCX
MKL只能看出
一个core两个SMT
无法辨识
一个CCX四个core共享L3
一个CCD两个CCX一条IFOP到IO hub
若要手动设定granularity 或是在windows上
建议自己准备一个有node_n id资讯的cpuinfo.txt 提供给MKL
https://software.intel.com/en-us/cpp-compiler-developer
-guide-and-reference-thread-affinity-interface-linux-and-windows
另外在TR好像没看到NUMA Nodes Per Socket选项
没办法只使用最靠近的IMC降延迟
这篇是论坛文 不是论文 所以
如何考量
SMT减轻内存延迟惩罚 增加运算单元使用率
cache coherence communication overhead
cache line invalidation overhead
page thrashing
CCX L3怎么分配 CCD频宽
epyc上的NUMA Nodes Per Socket选项
这些议题来分配与设定Threads
让3990x跑程式最快
就交由其他
算法、计组计结、平行运算、分布式系统
融会贯通的大神下结论
nvidia-smi topo -m
3990x
GPU0 GPU1 CPU Affinity
GPU0 X NV2 0-127
GPU1 NV2 X 0-127
DGX Station
GPU0 GPU1 GPU2 GPU3 CPU Affinity
GPU0 X NV1 NV1 NV2 0-39
GPU1 NV1 X NV2 NV1 0-39
GPU2 NV1 NV2 X NV1 0-39
GPU3 NV2 NV1 NV1 X 0-39
TWCC
GPU0 GPU1 GPU2 GPU3
GPU0 X NV1 NV1 NV2
GPU1 NV1 X NV2 NV1
GPU2 NV1 NV2 X NV2
GPU3 NV2 NV1 NV2 X
GPU4 SYS SYS NV1 SYS
GPU5 SYS SYS SYS NV1
GPU6 NV2 SYS SYS SYS
GPU7 SYS NV2 SYS SYS
GPU4 GPU5 GPU6 GPU7 CPU Affinity
GPU0 SYS SYS NV2 SYS 0-17
GPU1 SYS SYS SYS NV2 0-17
GPU2 NV1 SYS SYS SYS 0-17
GPU3 SYS NV1 SYS SYS 0-17
GPU4 X NV2 NV1 NV2 18-35
GPU5 NV2 X NV2 NV1 18-35
GPU6 NV1 NV2 X NV1 18-35
GPU7 NV2 NV1 NV1 X 18-35
Legend:
X = Self
SYS = Connection traversing PCIe as well as the SMP interconnect between
NUMA nodes (e.g., QPI/UPI)
NODE = Connection traversing PCIe as well as the interconnect between PCIe
Host Bridges within a NUMA node
PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically
the CPU)
PXB = Connection traversing multiple PCIe switches (without traversing the
PCIe Host Bridge)
PIX = Connection traversing a single PCIe switch
NV# = Connection traversing a bonded set of # NVLinks
nvidia-smi topo -mp
3990x
GPU0 GPU1 CPU Affinity
GPU0 X SYS 0-127
GPU1 SYS X 0-127
DGX Station
GPU0 GPU1 GPU2 GPU3 CPU Affinity
GPU0 X PIX PHB PHB 0-39
GPU1 PIX X PHB PHB 0-39
GPU2 PHB PHB X PIX 0-39
GPU3 PHB PHB PIX X 0-39
TWCC
GPU0 GPU1 GPU2 GPU3
GPU0 X PIX NODE NODE
GPU1 PIX X NODE NODE
GPU2 NODE NODE X PIX
GPU3 NODE NODE PIX X
GPU4 SYS SYS SYS SYS
GPU5 SYS SYS SYS SYS
GPU6 SYS SYS SYS SYS
GPU7 SYS SYS SYS SYS
GPU4 GPU5 GPU6 GPU7 CPU Affinity
GPU0 SYS SYS SYS SYS 0-17
GPU1 SYS SYS SYS SYS 0-17
GPU2 SYS SYS SYS SYS 0-17
GPU3 SYS SYS SYS SYS 0-17
GPU4 X PIX NODE NODE 18-35
GPU5 PIX X NODE NODE 18-35
GPU6 NODE NODE X PIX 18-35
GPU7 NODE NODE PIX X 18-35
Legend:
X = Self
SYS = Connection traversing PCIe as well as the SMP interconnect between
NUMA nodes (e.g., QPI/UPI)
NODE = Connection traversing PCIe as well as the interconnect between PCIe
Host Bridges within a NUMA node
PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically
the CPU)
PXB = Connection traversing multiple PCIe switches (without traversing the
PCIe Host Bridge)
PIX = Connection traversing a single PCIe switch
p2pBandwidthLatencyTest
3990x
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D 0 1
0 550.18 11.80
1 11.76 553.24
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
D\D 0 1
0 552.10 46.94
1 46.93 552.71
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D 0 1
0 556.35 20.84
1 21.06 556.59
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
D\D 0 1
0 557.18 93.51
1 93.49 554.59
P2P=Disabled Latency Matrix (us)
GPU 0 1
0 1.94 12.44
1 13.86 1.93
CPU 0 1
0 3.24 8.52
1 9.51 3.44
P2P=Enabled Latency (P2P Writes) Matrix (us)
GPU 0 1
0 1.94 2.15
1 2.09 1.93
CPU 0 1
0 3.54 2.86
1 2.83 3.45
DGX Station
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D 0 1 2 3
0 735.64 10.05 11.10 11.05
1 10.04 739.82 11.12 11.06
2 11.09 11.13 739.82 9.99
3 11.09 11.15 10.05 741.22
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
D\D 0 1 2 3
0 727.42 24.21 24.22 48.33
1 24.21 742.63 48.33 24.21
2 24.20 48.32 742.63 24.20
3 48.34 24.22 24.22 742.63
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D 0 1 2 3
0 746.18 10.45 19.07 18.90
1 10.45 752.65 19.27 19.11
2 19.08 19.11 749.04 10.52
3 19.03 18.99 10.42 753.38
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
D\D 0 1 2 3
0 746.89 48.37 48.31 96.47
1 48.37 750.48 96.42 48.38
2 48.36 96.25 750.48 48.36
3 96.28 48.38 48.33 753.38
P2P=Disabled Latency Matrix (us)
GPU 0 1 2 3
0 1.89 16.56 16.44 16.42
1 16.43 1.76 16.19 16.42
2 15.81 16.43 1.87 16.43
3 16.43 16.41 15.81 1.83
CPU 0 1 2 3
0 3.84 9.41 9.21 9.46
1 9.33 3.93 9.68 9.45
2 9.41 9.25 3.78 9.46
3 9.49 9.39 9.35 3.77
P2P=Enabled Latency (P2P Writes) Matrix (us)
GPU 0 1 2 3
0 1.89 1.91 1.90 1.91
1 1.85 1.76 1.85 1.85
2 1.85 1.87 1.87 1.86
3 1.87 1.85 1.85 1.82
CPU 0 1 2 3
0 3.82 2.90 2.88 2.85
1 2.86 3.91 2.82 2.86
2 2.86 2.86 3.91 2.84
3 2.86 2.89 2.86 3.84
TWCC
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D 0 1 2 3 4 5 6 7
0 731.51 9.26 10.41 10.39 10.37 10.36 10.38 10.36
1 9.30 739.82 10.41 10.41 10.37 10.37 10.38 10.38
2 10.43 10.41 739.82 9.24 10.37 10.37 10.38 10.38
3 10.44 10.40 9.28 739.82 10.37 10.37 10.37 10.38
4 10.42 10.39 10.42 10.41 738.42 9.26 10.38 10.39
5 10.42 10.38 10.42 10.41 9.26 742.63 10.32 10.37
6 10.42 10.39 10.42 10.41 10.40 10.42 739.82 9.26
7 10.42 10.39 10.42 10.42 10.40 10.42 9.26 739.82
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
D\D 0 1 2 3 4 5 6 7
0 731.51 24.22 24.22 48.36 9.03 9.35 48.33 8.93
1 24.22 741.22 48.35 24.22 9.36 9.19 8.96 48.35
2 24.22 48.35 742.63 48.34 24.22 8.90 9.00 8.83
3 48.34 24.22 48.34 742.63 8.88 24.23 8.83 8.83
4 9.01 8.86 24.22 9.07 742.63 48.35 24.22 48.34
5 8.86 8.97 9.05 24.22 48.32 741.22 48.35 24.23
6 48.34 9.08 9.34 9.17 24.23 48.35 744.05 24.22
7 9.13 48.34 9.01 9.34 48.34 24.22 24.22 742.63
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
D\D 0 1 2 3 4 5 6 7
0 746.18 9.38 17.86 17.92 17.79 17.81 17.15 16.99
1 9.27 746.89 17.14 17.06 17.30 17.07 17.13 16.82
2 17.82 17.05 749.76 9.66 17.66 17.74 17.73 17.17
3 17.78 17.08 9.39 747.61 17.96 17.75 17.59 17.26
4 18.03 17.10 17.69 17.72 749.04 9.40 17.58 17.05
5 17.67 17.44 17.80 17.77 9.39 748.32 17.73 17.11
6 17.83 17.02 17.77 17.65 17.43 17.23 749.76 9.38
7 17.27 16.81 17.00 17.28 17.03 17.04 9.44 749.76
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
D\D 0 1 2 3 4 5 6 7
0 747.61 48.40 48.40 96.52 17.24 17.25 96.54 17.25
1 48.34 750.48 96.50 48.39 17.30 17.24 17.27 96.52
2 48.40 96.28 747.61 96.55 48.40 17.25 17.24 17.25
3 96.28 48.39 96.50 747.61 17.29 48.40 17.25 17.24
4 17.25 17.31 48.34 17.28 754.83 96.52 48.41 96.50
5 17.24 17.24 17.25 48.40 96.31 751.92 96.28 48.40
6 96.51 17.27 17.26 17.25 48.34 96.31 746.18 48.40
7 17.24 96.31 17.25 17.25 96.26 48.40 48.39 746.89
P2P=Disabled Latency Matrix (us)
GPU 0 1 2 3 4 5 6 7
0 1.68 16.39 16.39 16.38 16.38 16.41 16.40 16.40
1 16.43 1.65 16.51 16.83 16.45 16.46 16.49 16.44
2 16.47 16.46 1.71 16.46 17.44 17.45 17.44 17.44
3 16.50 16.44 16.44 1.64 17.45 17.46 17.44 17.44
4 16.43 16.44 16.47 16.44 1.65 16.44 16.81 16.41
5 17.40 17.20 17.32 17.32 15.81 1.63 16.20 16.06
6 16.67 16.56 16.49 16.59 16.48 16.42 1.59 16.43
7 15.41 15.40 15.47 15.40 15.51 15.37 15.50 1.59
CPU 0 1 2 3 4 5 6 7
0 3.93 9.98 10.54 10.37 9.93 8.83 10.02 10.37
1 9.89 3.64 10.43 10.40 9.93 8.74 9.96 10.08
2 10.26 10.31 4.18 10.94 10.48 9.39 10.66 10.80
3 10.24 10.18 11.02 4.00 10.48 9.43 10.72 10.52
4 9.66 9.63 10.65 10.51 4.07 9.07 10.12 10.14
5 8.92 8.83 9.87 9.79 9.36 3.39 9.67 9.45
6 9.76 9.63 10.71 10.61 10.15 9.20 3.94 10.23
7 10.04 9.83 11.20 10.67 10.22 9.28 10.24 4.28
P2P=Enabled Latency (P2P Writes) Matrix (us)
GPU 0 1 2 3 4 5 6 7
0 1.67 1.48 1.48 1.90 2.12 2.11 1.92 2.13
1 1.52 1.65 1.99 1.53 2.13 2.12 2.12 1.98
2 1.47 1.89 1.74 1.88 1.46 2.12 2.12 2.12
3 1.85 1.48 1.89 1.63 2.11 1.48 2.12 2.13
4 2.10 2.10 1.53 2.10 1.66 1.99 1.52 1.97
5 2.09 2.09 2.10 1.52 1.98 1.62 1.98 1.52
6 1.89 2.12 2.10 2.11 1.47 1.88 1.59 1.48
7 2.12 1.90 2.11 2.12 1.90 1.48 1.48 1.59
CPU 0 1 2 3 4 5 6 7
0 3.65 2.76 2.65 2.67 2.65 2.71 2.58 2.61
1 2.64 3.62 2.60 2.58 2.71 2.67 2.63 2.55
2 2.96 2.86 4.12 2.79 2.87 2.96 2.89 2.96
3 2.82 2.83 2.78 4.01 2.86 2.89 2.86 2.90
4 2.63 2.70 2.66 2.76 3.94 2.65 2.69 2.73
5 2.35 2.38 2.33 2.42 2.36 3.30 2.32 2.36
6 2.66 2.83 2.80 2.76 2.69 2.73 4.02 2.71
7 2.68 2.70 2.90 2.78 2.71 2.78 2.67 4.11
Tensorflow测试 resnet50
1xTITAN RTX fp32
| batch64 | batch128
3990x | 298.97 | 310.80
1xTITAN RTX fp16
| batch64 | batch128 | batch256
3990x | 844.00 | 877.49 | 877.88
2xTITAN RTX fp32
| batch32 | batch64 | batch128
| global64 | global128 | global256
3990x | 601.78 | 654.36 | 674.78
2xTITAN RTX fp16
| batch32 | batch64 | batch128 | batch256
| global64 | global128 | global256 | global512
3990x | 1353.65 | 1635.21 | 1813.69 | 1896.68
1xV100 fp32
| batch64 | batch128 | batch256
6148 | 351.17 | 378.99 | 392.35
1xV100 fp16
| batch64 | batch128 | batch256
6148 | 850.51 | 1019.35 | 1145.15
4xV100 fp32
| batch16 | batch32 | batch64
| global64 | global128 | global256
DGX Station | 1037.34 | 1248.10 | 1430.58
4xV100 fp16
| batch16 | batch32 | batch64 | batch128
| global64 | global128 | global256 | global512
DGX Station | 1223.04 | 2382.59 | 3032.58 | 3739.49
8xV100 fp32
| batch8 | batch16 | batch32
| global64 | global128 | global256
TWCC | 479.91 | 773.50 | 1281.98
8xV100 fp16
| batch8 | batch16 | batch32 | batch64
| global64 | global128 | global256 | global512
TWCC | 654.66 | 1210.17 | 2272.34 | 3708.51
Pytorch 与 AMP(Apex) 测试
bert | fp32| fp16
3990x 2xTitan RTX |00:25.39|00:28.93
6148 1xV100 |00:57.33|01:25.29
DGX Station 4xV100 |00:27.66|00:37.42
TWCC 8xV100 |00:12.54|00:20.86
(6148那台可能是单核或环境问题 参考就好)
===
没有Sever_Shopping板可以贴
这些测项与MIS板的需求也不同(没测长时间重载硬盘网络IO)
或许该转DataScience板?
自组价格比共契的585,729便宜一点点
CPU核心多一倍
牺牲的就是整机稳定度
没有品牌系统厂验证 散热电力无法保证
也没有大SI处理保固 状况排除
不建议省这些钱
实际在使用时 有看过延长线瞬间1600W的读数
几乎顶到110V的上限1650W
CPU 700~800W也是有
就会想到大同电锅6人份耗电600W 10人份700W
用那么一个小小的AIO水冷要帮电锅散热感觉就很不合理
真的跑几个月运算 水管也不知道能撑多久
冷头内感觉就跟热水器差不多
AIO应该要提供水温回报给主机板
这360一体水号称解热能力500W+
PBO稳定也就真的差不多500W
想要PBO AUTO全64核4.1GHz 800W稳定跑应该是要开放水+冷水机
但小实验室用自组的主机 最后如果水冷漏水 一定很精彩
这代TITAN公版从鼓风扇换双风扇完全就是要阻止买游戏卡跑运算的
两张TITAN RTX 600W的热积在那边超级难处理
整台主机全开时冷排排风口的温度跟冬天用的陶瓷电暖器有87%像
一个TY 143全速吹显卡 另一个全速吹VRM
感觉是不太够力 但也没办法 现在这样已经跟电风扇开强差不多大声
除非这机器会放在没人的地方
或是有冷热通道隔离的机房 买个层板主机横躺或4U机壳
前置3风扇全换万转12cm
但搞到这样为什么不直接买设计好的塔式/机架式配Quadro/Tesla呢?