[问卦] Amazon,M$和Google的线上容器服务方案? ruthertw PTT批踢踢实业坊

[问卦] Amazon,M$和Google的线上容器服务方案?

楼主: ruthertw (小叶老大) 2022-07-20 21:09:12

大家都知道实验室的经费,
都用在刀口以下...
虽然Nvidia 30系列显卡目前已经有了几波大降价,
可是教授在矿场巅峰时期,
花了太多钱跟板商买了一些显卡白牌机.
显卡又常常被学生们自以为是组装高手,
胡乱抽插拔,
所以常常突然故障,
送回维修往返又非常浪费时间.
有位博班学生很白目,
看到最近大降价就高潮了,
他兴冲冲带着硕班学弟妹去跟教授讨新设备.
这只博班一开口就说阿显卡价格已经减半,
所以要讨20几张新的Nvidia 30顶卡...
阿他真TMD白痴,
他明明知道还有好几张旧显卡还在原厂维修没回来耶...
结果可想而知,
于是教授一气之下,
要求大家先都改成云端运算.
简言之,
叫兽要求每只菸酒生,
都要交出自己选择Amazon,M$和Google的线上容器服务方案.
考量如下:
训练资料量颇大,
随随便便从2万多张高分辨率图片起跳,
RAM大概需要512GB.
单一容器需要多张卡做多倍的加速,
被教授操,需要实作多种模型,
所以必会用到半精度fp16训练(AMP),
也需要单精度fp32,双精度fp64,混合精度等.
使用单张Nvidia 30顶卡,
训练需要2个礼拜多...
串两张,
也需要约1个礼拜.
之前有荣幸能使用A100顶规,
训练也需要大概1天多.
而这周,
该主机已被学弟妹们切割成只能使用1/10了!
所以变得超级难用.
关于Amazon,M$和Google的线上容器服务方案的选择.
有挂?

继续阅读

Re: [问卦] 爱妮雅化妆品的业绩奖金很高吗？smallGGgirl Re: [问卦] 为什么非睡觉时间随便躺都好睡gino0717 [问卦] 猫猫是不是很痒？？？mk203125 [问卦] 一个人在广场大喊犯什么法？a15568 Re: [问卦] 请问一下拖走抗议民众的法源依据是？nicolaschen2 [问卦] 要如何成为记者？z753951zxc [新闻] 如假包换！张善政秀41年前博士论文Clarkliu [问卦] 那如果我是数学家呢elite9q Re: [新闻] 这画面真讽刺！陈时中默默“看他被架走”s910211 Re: [问卦] 配一副眼镜要8000元是何心态的八卦?wwf1310