[问卦] Amazon,M$和Google的线上容器服务方案?

楼主: ruthertw (小叶老大)   2022-07-20 21:09:12
大家都知道实验室的经费,
都用在刀口以下...
虽然Nvidia 30系列显卡目前已经有了几波大降价,
可是教授在矿场巅峰时期,
花了太多钱跟板商买了一些显卡白牌机.
显卡又常常被学生们自以为是组装高手,
胡乱抽插拔,
所以常常突然故障,
送回维修往返又非常浪费时间.
有位博班学生很白目,
看到最近大降价就高潮了,
他兴冲冲带着硕班学弟妹去跟教授讨新设备.
这只博班一开口就说阿显卡价格已经减半,
所以要讨20几张新的Nvidia 30顶卡...
阿他真TMD白痴,
他明明知道还有好几张旧显卡还在原厂维修没回来耶...
结果可想而知,
于是教授一气之下,
要求大家先都改成云端运算.
简言之,
叫兽要求每只菸酒生,
都要交出自己选择Amazon,M$和Google的线上容器服务方案.
考量如下:
训练资料量颇大,
随随便便从2万多张高分辨率图片起跳,
RAM大概需要512GB.
单一容器需要多张卡做多倍的加速,
被教授操,需要实作多种模型,
所以必会用到半精度fp16训练(AMP),
也需要单精度fp32,双精度fp64,混合精度等.
使用单张Nvidia 30顶卡,
训练需要2个礼拜多...
串两张,
也需要约1个礼拜.
之前有荣幸能使用A100顶规,
训练也需要大概1天多.
而这周,
该主机已被学弟妹们切割成只能使用1/10了!
所以变得超级难用.
关于Amazon,M$和Google的线上容器服务方案的选择.
有挂?

Links booklink

Contact Us: admin [ a t ] ucptt.com