先讲结论:
GDDR6X很烫,烫了就很不稳定
打游戏没事,但跑Deep learning训练会坏掉
Deep learning这种应用建议直上帝版,甚至水冷版
以下是debug经验分享:
之前从EVGA官网买到了一张便宜的3080
本来想拿去做模型训练,但很容易模型练没10分钟就当掉
这个问题总是100%复现,有时早点挂,有时晚点挂
一开始以为是卡坏了,但拿去打APEX又都没事
(2K144真的满爽的,直到我打了两周APEX,才想到我原本是买来做Deep learning的)
研究了一下这代卡的技术,通病就是GDDR6X很烫
所以我开始怀疑是显存问题
所以我我用了一个简单的训练脚本来观察卡的各项参数
(需要请自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
训练刚开始,显存频率会直接拉满到9200MHz上下
然后开始爆热,接着就挂掉。
于是我用Afterburner将频率下修200MHz,就不会挂了
但是跑大约10分钟后 他就会自动降频到5000MHz...
此时训练都不会出现当机的问题,但是训练速度也变成原本的2/3
有够亏
Afterburner设定如图:
https://imgur.com/aTHIPs4
降频示意图
https://imgur.com/yvawLe3
现在在研究,看有没有可以长时间让他保持高频的方法..
比如用8000MHz,至少没那么亏
或是有没有帝版的同学可以跑看看我这份code
看是不是丐版散热太烂的问题
PS. 为什么不用Ubuntu
因为不能打Apex和我只会用Afterburner(ubuntu没有)