楼主:
exeex (执行档EX)
2022-07-13 18:59:43先讲结论:
GDDR6X很烫,烫了就很不稳定
打游戏没事,但跑Deep learning训练会坏掉
Deep learning这种应用建议直上帝版,甚至水冷版
以下是debug经验分享:
之前从EVGA官网买到了一张便宜的3080
本来想拿去做模型训练,但很容易模型练没10分钟就当掉
这个问题总是100%复现,有时早点挂,有时晚点挂
一开始以为是卡坏了,但拿去打APEX又都没事
(2K144真的满爽的,直到我打了两周APEX,才想到我原本是买来做Deep learning的)
研究了一下这代卡的技术,通病就是GDDR6X很烫
所以我开始怀疑是显存问题
所以我我用了一个简单的训练脚本来观察卡的各项参数
(需要请自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
训练刚开始,显存频率会直接拉满到9200MHz上下
然后开始爆热,接着就挂掉。
于是我用Afterburner将频率下修200MHz,就不会挂了
但是跑大约10分钟后 他就会自动降频到5000MHz...
此时训练都不会出现当机的问题,但是训练速度也变成原本的2/3
有够亏
Afterburner设定如图:
https://imgur.com/aTHIPs4
降频示意图
https://imgur.com/yvawLe3
现在在研究,看有没有可以长时间让他保持高频的方法..
比如用8000MHz,至少没那么亏
或是有没有帝版的同学可以跑看看我这份code
看是不是丐版散热太烂的问题
PS. 为什么不用Ubuntu
因为不能打Apex和我只会用Afterburner(ubuntu没有)
作者:
tyl510288 (tyl510288)
2022-07-13 19:01:00因为你不是拿ROG
作者:
oppoR20 (R20)
2022-07-13 19:02:00结论:丐版散热烂问题就是丐版这就跟挖矿一样道理
作者:
annboy (BlueGun)
2022-07-13 19:04:00怀疑你买到卡皇 以前3080ti XC没碰到这问题
作者: a8312116 (折一半都比你长) 2022-07-13 19:06:00
这就是为什么不推荐3080以上拿丐版的原因
作者:
zone0016 (GUNDAM)
2022-07-13 19:10:00换散热贴,风扇转到最快散热贴用利民或是莱尔德
作者: AAAWhoAmI 2022-07-13 19:11:00
3080丐版+1 直接PL锁在250以下比较不会降频
作者:
otosaka (学生会长我老婆啦)
2022-07-13 19:17:00丐版散热烂 你可以学学上面那位仁兄改装散热贴
power limit拉105%比较不会降频,但你还是得去换散热贴,甚至是改铜片,板上之前有人分享
我猜是背板的内存过热啦,毕竟只有导热贴没接触散热器之前有看过矿老板背板也改风扇的
作者:
sdbb (帮我泡杯卡布奇诺)
2022-07-13 19:28:00楼下支语警察
都没看到错误讯息的内容,然后冒出了过热的实验跟结论这前因后果完全是鬼转耶
作者:
tropotato (tropotato)
2022-07-13 19:38:00开侧板用电风扇吹啊==不然拿卡去挖矿用colab pro训练16gb batch size 可以设大点
作者:
wahaha99 (此方不可长)
2022-07-13 19:43:00自己改散热啊
作者:
TuCH (谬客)
2022-07-13 19:45:00错误讯息是什么
楼主:
exeex (执行档EX)
2022-07-13 19:46:00错误讯息就是cuda 读资料无回应 整个挂掉萤幕黑屏 显卡自动重启
楼主:
exeex (执行档EX)
2022-07-13 19:48:00我的经验这种都是显存错误居多
楼主:
exeex (执行档EX)
2022-07-13 19:50:00显存降频跑就没事 那87%是显存问题
作者: joefaq (小瑜) 2022-07-13 19:51:00
你风扇调成100%看看
作者:
Bujo (部长)
2022-07-13 19:54:00冷气房加风扇直吹,下班继续训练通常惠关冷气,但风扇一定要开
楼主:
exeex (执行档EX)
2022-07-13 19:57:00默认100%TDP是320W-350W 拉到70-80%试试看?
深度学习(X eth学习(O 会不会你去隔壁还比较多人懂
作者:
lostkimo (累的不想呼吸)
2022-07-13 20:28:00用浸泡式散热?
也不是说不热,是因为单面配置相对3090双面配置来说比较容易散热,所以温度表现好一点
作者:
creepy (左招财 右纳福)
2022-07-13 21:27:00去买水冷套件 3000可以解决的事情
作者:
Fww (随风幻想)
2022-07-13 21:46:00不想降频跑的话,就找类似EK的水冷套件吧
作者: cs8425 (cs) 2022-07-13 22:13:00
回a某 不行喔 就算proton相容没问题 防外挂会故意挡掉的
作者:
meowgy (sky)
2022-07-13 22:28:00改铜片唯一解,有卖模组化的
EAC问题在steam deck出了后也差不多解决了啊
作者:
ko363630 (打杂路人甲)
2022-07-13 22:51:00EVGA显卡水冷kit有在卖吗
作者: s1011282 (阿凯) 2022-07-13 23:22:00
我的3080 ftw3可以帮忙试试,不过帝版也很热情
作者: currit (ufo) 2022-07-13 23:28:00
技嘉的水冷一样热情
作者:
AreLies (谎言)
2022-07-13 23:54:00我的卡也没问题一样XC3我觉得是你的壳太闷
作者: nanaha (nanaha) 2022-07-14 00:13:00
仔细看了一下你训练刚开始的图 为什么你 Test 的速度只有我的一半?背景有跑什么东西吗 我上面图的结果背景还有跑Wallpaper engine然后题外话 这种单纯比较 model 的实验建议固定 random seed 结果会更有说服力
https://i.imgur.com/p8Ogjjy.png第二次跑 把 Wallpaper engine 暂停,code 里面打开 torchAMP 一样没问题 GPU 降了三度 test accuracy 还高了一点点
作者: logus (Cosmos) 2022-07-14 01:21:00
该拍机壳了
作者:
anndy (FIFA 2006 好精彩阿)
2022-07-14 01:28:00power几瓦?
建议直接抄隔壁版同一张3080的挖矿参数显存别超就好,记得降压散热垫换一换,开冷气给它吹,搞好一点的机壳,没了降压可以有效降低温度,至于卡能降多低得自己测开冷气开侧板用电风扇直接送风再观察温度
作者:
daae (南极熊猫)
2022-07-14 08:39:00换AC扇直吹阿
作者:
wolver (超级大变态)
2022-07-14 08:56:00冷气不够冷可以用液态氮
作者: seank0113 2022-07-14 10:33:00
刚刚用evga 3080 ftw测了15分钟,没有遇到问题,也没有降频
不是呀...又不是每个实验室都有钱到翻掉哪来那么多Tesla能跑,配的PC很多都用消费级的卡就没听过有人讲消费级的卡没特别改的状况下硬件出事的过热顶多就降频跑慢一点,目前也没听到会当到重开所以才一直问错误讯息是什么,说不定根本是搞错方向如果真的是出厂硬件就有问题,就换一张新的呗这种绕法也不是什么根本上的解决之道
作者:
Lecn (Le)
2022-07-14 15:06:003090、80ti都拿丐版 lab甚至没有24小时冷气,没听过出错的
作者:
lee79114 (windflute)
2022-07-14 16:02:00整串看下来丐版玩游戏很ok啊 3080可以省个3000元
作者: nanaha (nanaha) 2022-07-15 00:31:00
看起来丐版游戏以外也没问题啊 只有原PO那张怪怪的吧
我特别装manjaro来玩Apex看看 可以玩 没被防外挂踢