耐久性
随着 NAND 闪存单元的每个编程或擦写 (P/E) 周期,闪存设备中所有 NAND 闪存可靠存储数据位的能力会下降,直至 NAND 闪存块不再能够可靠地存储数据;此时,降级或损坏的块从用户可寻址的存储池中除去,逻辑块地址会移至 NAND 闪存阵列上的新物理地址。通过使用属于 SSD 中预留空间 (OP) 存储组成部分的备用块池,新存储块替换坏存储块。
随着单元不断编程或擦除,BER 还会线性增加,出于此方面原因,必须对企业级 SSD 控制器施行一组复杂的管理技术,以管理单元在 SSD 的预期寿命期间可靠存储数据的能力。 {{Footnote.N52083}}
指定 NAND 闪存的 P/E 耐久性可能会有很大差异,这取决于当前的光刻制造工艺以及生产的 NAND 闪存的类型。
NAND 闪存类型 | QLC | TLC | MLC | SLC |
架构 |
每个单元 4 位 |
每个单元三位 |
每个单元两位 |
每个单元一位 |
存储容量 |
最大存储容量 |
较大存储容量 |
大存储容量 |
最小存储容量 |
耐久性 (P/E) |
最低耐久性 |
较低耐久性 |
中等耐久性 |
最高耐久性 |
成本 |
$ |
$$ |
$$$ |
$$$$ |
NAND 位错误率 (BER) 约值 |
10^4 |
10^4 |
10^7 |
10^9 |
表 2 – NAND 闪存类型 {{Footnote.N52084}}{{Footnote.N52085}}
企业级 SSD 与客户端级 SSD 在负载周期方面也存在差别。企业级固态硬盘必须能够承受数据中心服务器中常见的繁重读写活动,这些服务器需要在每周每天的 24 小时内随时访问数据。与之相比,客户端固态硬盘通常一周内每天仅被充分利用 8 小时。
企业级 SSD 拥有 24x7 负载周期,客户端级 SSD 拥有 20/80 负载周期(在计算机应用方面,20% 的时间活跃,80% 的时间处于空闲或睡眠模式)。
理解任何应用或 SSD 的写入耐久性较为复杂,因此 JEDEC 委员会还建议使用写入 TB 数 (TBW) 的耐久性衡量指标,用于指示在向 SSD 写入多少原始主机数据量后,SSD 中所含的 NAND 闪存就会变成不可靠的存储介质并应将此驱动器废弃。
通过运用 JEDEC 建议的 JESD218A 测试方法和 JESD219 企业级工作量,将更易于阐述 SSD 制造商借助 TBW 进行的耐久性计算,并推断可应用到任何数据中心的更易理解的耐久性措施。
如 JESD218 和 JESD219 文件所述,不同应用类别的工作负载也可能受到比主机提交的实际写入高出一个数量级的写放大系数 (WAF) 的影响。这很容易导致 NAND 闪存磨损失控、NAND 闪存位错误率 (BER) 因长时间过度写入而升高,以及 SSD 中无效页广泛分布导致的性能下降。
虽然 TBW(总写入字节数)是企业级和客户端固态硬盘讨论中的一个重要话题,但 TBW 仅仅是一个 NAND 闪存级别的耐用性预测模型。平均无故障时间 (MTBF) 应被视为基于设备所用组件可靠性的组件级耐用性和可靠性预测模型。对企业级 SSD 组件的期望包括在 SSD 预期寿命期间管理所有 NAND 闪存的电压上更为耐久和更为得力。所有企业级 SSD 都应至少有 200 万小时的额定 MTBF,这相当于超过 230 年!Kingston SSD 规格制定地非常保守;看到更高的 SSD MTBF 规格并不罕见;应注意,200 万小时作为企业级 SSD 的起点绰绰有余。
对企业级 SSD 的 S.M.A.R.T. 监控和报告使得能够根据当前写入放大 (WAF) 因子和损耗程度对设备进行故障前预期寿命的轻松查询。通常还支持对故障事件(例如电力损失、物理接口发生的位错误或不均衡的损耗分布)进行故障前预测警告。可以从 Kingston 网站下载 Kingston SSD Manager 实用工具,并用于查看驱动器状态。
对于在标准运用期间或故障后监控 SSD 方面,客户端级 SSD 可能仅具有最低的 S.M.A.R.T. 输出量。
根据 SSD 应用级和存储容量,还可分配更高的 NAND 闪存预留存储量作为预留空间 (OP) 的备用存储量。OP 容量对用户和操作系统访问是隐藏的。它可用作临时写入缓冲以获得更高的持续性能,并在 SSD 的预期寿命期间作为有缺陷的闪存单元的替代品,以提高 SSD 的可靠性和耐久性(利用更多数量的备用块)。