ZDNet - SSD reliability in the real world: Google's experience
http://www.zdnet.com/article/ssd-reliability-in-the-real-world-googles-experience/
缩:http://goo.gl/jhsFhK
没有授权我就不转内容了
大致翻译一下,不保证正确,请以原文为准:
- 来自加拿大多伦多大学的 Bianca Schroeder 教授与 Google 合作,统计
大量使用于 Google 资料中心的固态硬盘可靠性。
- 这项计画总共统计了:
* 六年间数十万颗固态硬盘
* 十种不同型号
* 三种不同快闪存储器类型:MLC, eMLC, SLC
* 包含企业级及消费级固态硬盘
- 结论中的关键:
* 规格中的不可修正位元错误率完全没有意义。
* 好消息:在完全损耗前(译注:达到规格 P/E),底层位元错误率成长
速度低于预期(译注:原预期为指数性成长,但数据指出实际上为线性
成长),且与不可修正位元错误率无关。
(译注:底层位元错误多数可以被控制器处理并修正,但无法修正时便
升级为不可修正之位元错误,此不包含档案系统本身错误纠正机制)
* 高阶 SLC 固态硬盘并没有比 MLC 来的可靠。
* 坏消息:固态硬盘故障率低于普通硬盘,但不可修正位元错误率高于普
通硬盘。
* 固态硬盘的年龄影响可靠性,而非使用强度。
* 在全新固态硬盘中坏的区块十分常见,而已有大量坏区块的固态硬盘极
可能坏更多其他区块。可能源于晶粒或芯片制造失误。
(译注:区块指清除指令所清除的最小单位)
* 30~80%(译注:不同型号而有不同结果)的固态硬盘会至少出现一个坏
区块,而 2~7% 在上线后四年内会坏至少一整颗芯片。
- 结论
* MLC 固态硬盘与高价企业级 SLC 固态硬盘一样可靠。
这个结果与普通硬盘使用经验相同,企业级 SAS 及光纤通道硬盘与消
费级 SATA 硬盘一样可靠。
(译注:原报告中并无提到此段)
* 企业级固态硬盘价格较高的原因,其中之一乃是因其预留空间(over-
provisioning)较多所至。固态硬盘需要预留空间的两个主要原因是:
提供足够的可用区块以取代完全损耗的坏区块;及避免因为垃圾回收(
garbage collection)机制导致的写入效能衰退。
* 报告中的第二个结论是固态硬盘年龄与错误率成长有关,而非使用程度
。代表实际上并不需要为了避免快闪存储器完全损耗而预留空间。
(译注:这段并不是说 OP 没有用,颗粒本身会坏,所以越多的 OP 可
保障颗粒坏掉时还有足够的空间作重映射 re-map,且 OP 可避免 GC
时写入效能衰退)
受统计之固态硬盘中没有任何一颗损耗至接近其写入极限,哪怕是只有
3000 P/E 的 MLC 固态硬盘。
(译注:Google 狂操猛干都写不到 MLC 极限了)
* 但并不是只有好消息。固态硬盘不可修正位元错误率比普通硬盘更高,
代表对固态硬盘做备份的重要性高于普通硬盘。固态硬盘在其正常寿命
内较不容易故障,但较易丢失资料。
paper 在此:https://www.usenix.org/conference/fast16/technical-sessions/presentation/schroeder
缩:https://goo.gl/oUWmwL
15 页没有很多,我看了一下 Summary 其中有几点很有趣:
1. 有 20~63% 固态硬盘运作四年内曾出现至少一次不可修正错误,而运转
时间中有千分之二至六受此错误影响。
2. 底层错误率虽常用于测量固态硬盘可靠性,但较高的底层错误率并没有
与高不可修正错误率有关,故其并非一个可靠的可靠性指标。
3. 底层错误率与不可修正错误率与 P/E Cycle 数有关,但成长速度为线性
而非预期的指数性成长。在超过原厂 P/E Cycle 极限后并没有即死情况
发生。
4. 制程越小,底层错误率越高,但不代表较易发生非透明错误。
(译注:可以被控制器修正且不影响使用者的称为透明错误,无法被控
制器修正的称为非透明错误。
不可修正错误指读取时发生错误且 ECC 无法修正,会发生于内部操作
,如 GC,或使用者操作。若为使用者操作发生不可修正错误,且经多
次重试后仍无法取得正确资料,称为最终读取错误)
5. 固态硬盘要嘛坏区块很少,要嘛整组坏光光。所以可以透过目前坏区块
数预测故障。还有出厂就有大量坏区块的,很可能越死越多。
6. 此前 Facebook 公布的固态硬盘可靠性报告与此份报告有两个差异:
1) FB 将不可修正错误与使用强度作连结。FB 的报告中发现了明显的早
期死亡率,但此报告没有。探究其原因除了两家公司测试方法不同外
,FB 较强调固态硬盘早期生命,而没有提供超过数百 P/E 后的资料
,尽管他们的 P/E Cycle 限制高达数万。此份报告主要研究宏观角
度下完整的固态硬盘生命周期。
2) FB 报告指出读取干扰错误并没有明显的影响。但此份报告指出读取
干扰虽然没有产生不可修正错误,但却对底层资料错误有影响。
(译注:读取时造成邻近区块无法充电,称为读取干扰错误)
7. SLC 底层错误率较 MLC 及 eMLC 低,但可靠性并没有比较高。SLC 固态
硬盘并没有比较低的替换率与不可修正错误率。
eMLC 底层错误率较 MLC 高。这可能是因为 eMLC 多数为较小制程。