[讨论] 最近挂了一票储存装置....

楼主: chang0206 (Eric Chang)   2019-05-06 11:11:22
这篇应该算是抱怨兼闲聊吧...
一年多前到目前任职的公司时,前人留下了一批segate 2T 硬盘(ST2000DM006)
数量大概有四五十颗左右,采购时间在2016年,所以都还在保固内
这一年多来,陆陆续续的把这些硬盘用了一大半出去,库存大概剩下十颗左右
可是就在最近这两个月,开始收到系统寄出的smart警告
一开始是几个月前群晖的NAS发出的,但不管怎么换硬盘,那台NAS就是一直出现警告
所以我认为是NAS机器的问题,而不是硬盘有状况
事实上也是如此,然后报群晖维修,就报了一万七千多的天价...机器也才买两万多块
当然是决定不修了,也开始着手自建NAS(FreeNAS),准备换掉手边的其他三台群晖NAS
手边有很多ASUS tower server,想说都要自己来做了
那就直接装满六颗硬盘,然后把系统灌在随身碟上
就这样做了五六台出来,陆续上线,其中包括一台10G的配置
可是上线没多久,就在群晖NAS出问题之后
这些server也都开始发出信件警告SMART有问题
不过奇怪的是,有些是直接就找不到硬盘,有的是警告C5/197/198 > 0
上礼拜跟同事盘点了一下,合计有8颗硬盘出现SMART警告,这比例也太高了吧!
总共算用了50颗硬盘好了,就有8颗出现异常,那就是16%的故障比例
这应该不能算是人品不好了...
由于我很坚持我人品没有问题(误
所以我做了几个测试,我拿一台一样的Server,只装四颗硬盘上线做一样的事
只是RAID等级不同,前面装六颗的都是RAID10
这次装四颗的,我都跑RAID5
测了一个多月下来,发现同时装机的三台机器,只有装四颗硬盘的这台没有错误
其他两台都各有一颗出现异常
嗯哼,看来问题不只是硬盘,连Server也有问题,难道是电力不够?
既然有这个疑问,当然我们就要继续实验下去
于是我改用了“据说”比较省电的SSD (其实SSD有没有比较省电似乎众说纷纭?)
用ADATA 的SU650 480G SSD六颗,一样做RAID10,然后这台做成10G的环境
把虚拟机的备份多做一份到这台来,所以这台基本上是平常都闲置
只有在半夜会频繁写入一个小时左右
没想到这样子的测试,不到两个礼拜,就挂了一颗SSD,而且死得很彻底
连SMART都还没发现错误(我每天有排smart short test,每周跑一次long test)
直接就在系统内消失,重开机之后发现连BIOS都看不到了...
拆下来送修之后,先用手边备用的创见512G SSD顶上去
不过呢,接下来又有两颗出现SMART C5/197/198 > 0 的情况
所以现在是raid degrade 然后又有两颗出现SMART异常的状态
(好孩子不要学,大叔心脏够大颗才这样玩...)
可是这样子没办法验证前面怀疑是因为电力不足所造成的问题
我也没有设备可以定时抓电力使用状况
看样子需要其他方法来确认到底是因为主机供电不足造成硬盘错误
还是真的单纯就是硬盘有问题
不晓得各位有什么建议吗?
总之呢,这两个月来就是这样每天收到各地机器寄来的SMART警告信件
https://i.imgur.com/CNEsHKl.png
然后被助理小姐念说怎么那么多硬盘要报修
小姐,我也不愿意啊...而且这批硬盘还都不是我买的耶...
看来下一次如果还要大量采购硬盘,要尽量避免只买同一个型号
只是通常这样会被采购念就是了...
好,碎念完毕,继续去机房拆硬盘....
ASUS Server还没hot swap,真的是有够OOXX ...
作者: nightwind209 (夜风)   2019-05-06 13:04:00
有几个点可以看说 一个是硬盘本身 一个是供电 一个是server内建的RAID问题(?)
作者: waynechen251 (waynechen251)   2019-05-06 15:54:00
既然都公司采购 下次就买好一点的nas碟呗 资料无价
作者: hentaiojisan   2019-05-06 18:22:00
这硬盘定位是desktop,非Nas/enterprise,就别拿去作磁盘阵列了

Links booklink

Contact Us: admin [ a t ] ucptt.com