Re: [请益] 机器学习 Nvidia Tesla T4 or Quadro RTX

楼主: hizuki (ayaka)   2020-04-26 15:18:26
目前确实打算等GTC 2020后再打算,因为只有一个月左右时间可能还能等
说一下目前做的功课
1. 参考 fo40225 大的文章决定除GPU部分的配置
#1SxhRJ80 (PC_Shopping)
2. Nvidia vGPU认证资料
要挑机器直接从当中挑就好了
https://www.nvidia.com/en-us/data-center/resources/vgpu-certified-servers/
Asus 不知道台湾本部的情况如何,国外事业部的服务水准很鸟,客服根本听不懂我们在说什么
Cisco 价格太贵了,而且服务支援太麻烦了
Dell EMC 不理会我们,似乎是之前被放鸟太多次了,可以NVLink的只有1U机型
Huawei 不能出货了
HPE 4U外的机器估价很慢,出货太少的缘故吧。GPU一定要装4块才能出货
Lenovo 机器是很便宜,但是全部都只能上Tesal T4也没有NVLink
Supermicro 可以凸一下只安装2 GPUs出货
3. 数个效能评估文章
https://blog.exxactcorp.com/whats-the-best-gpu-for-deep-learning-rtx-2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
得出来的结论就是,论单一GPU,不考虑double precision(因为很少有用)
GPU Memory > Tensor core
4. NVLink
目前只有SXM form fator(板卡尺寸)才支援NVLink Hybrid Cube Mesh
也就是单个CPU上的GPUs之间都是用NVLink互相连接的,两个CPUs上的GPUs是可以通过
有限通路的NVLink相互连接
而普通的NVLink只能两个GPUs之间互相连接
至于能否变成Memory Pool或者利用复数GPUs的tensor core进行运算,我不确定效果
因为之前的机器配置的连接模式有问题
根据nVidia方面的说明,nccl能帮你完成这方面的工作,OpenMP也已经提供了相应的支援
不过具体使用方式,取决于你的training framework,例如Horovod 表示是可以支援多GPUs
分发,但是我还是不确定这部分的效果
5. Tesla VS Quadro VS Titan
其实没有什么可选的,只有那几款Tesla才有采用SXM form factor
Titan系列的都不支援SR-IOV,如果想要VMware 下无修正使用(会损失效能),只能考虑
Tesla或Quadro
价格上来讲,Tesla会比Quadro较优,Titan是CP值最高
: → hizuki : 但是Titan要三槽位很难插,只能找美超微定机器了? 04/18 14:36
: 推 atrix : Titan rtx 只占用双槽,不会卡到第三槽。 04/19 00:20
: 散热器会突来一点
: → atrix : 我晚点装看看,我记得是不会卡到阿? 04/21 10:20
: → atrix : 是装的下拉,不过多卡时,散热就很紧 04/21 10:45
: → atrix : http://i.imgur.com/SY1vtWZ.jpg 04/21 10:45
更麻烦的是比如4U托架服务器的槽位,估计只能勉强塞下,要拆掉散热塑胶,
然后没有地方给你安装NVLink bridge
6. 结论
目前 US$ 20,000的预算是没有办法选支援NVLink hybrid cube mesh的机型的,
托架式的可能无法安装NVLink bridge

Links booklink

Contact Us: admin [ a t ] ucptt.com