ssd分类 (ssd分类与对比)

SNIA在2023年1月发布了新的NVMe分类白皮书。根据使用场景,SNIA将NVMe SSD的定位划分为:企业服务器(enterprise servers),企业存储(enterprise storage),数据中心/超大规模服务器(data center/hyperscale servers),数据中心/超大规模服务器存储(data center/hyperscale storage),以及新定义的“低时延SSD”(low latency SSD)。

对于用户而言,消费类SSD与企业/数据中心级SSD的区别是比较清晰的,单看外形就可以区分(譬如U.2接口、22110尺寸的M.2接口的SSD肯定不是用于消费级),保修承诺的写入量也有天壤之别。但是,企业类SSD和数据中心类SSD的区别,在很多人概念中就非常模糊了。厘清这个困惑,便是本文的初衷所在。

我们先看看SNIA罗列的各种特性的一个汇总表:

ssd的分类,ssd分类

然后,直接上总结:两种场景应用的SSD关注的核心价值,主要是在时延和管理方面,其次是端口数量。在写入耐久度方面,二者也会有一些区别。

时延

在时延方面,企业类SSD更关心平均时延,数据中心类更关心读操作的QoS和尾时延。所谓尾时延(tail latencies),就是极小概率、极端情况下出现的异常延迟。尾时延,也称为高百分比时延,表示响应时间超过服务或应用程序处理的所有请求的 98.xxx–99.xxx% 的请求。通俗点儿说就是数据中心更关注拖后腿的情况。这就如同统计部门告诉我们:本地平均工资xxxxxx元,家庭平均资产xxxx万元,我就知道我又被我的老板平均了。但转念一想,领导说了,“对困难群众,我们要格外关注、格外关爱、格外关心”。能得到领导的重视,我非常开心。所以说啊,企业和数据中心的格局,其实是不一样的,您自己体会体会。

为了反映概率与程度,尾时延通常伴随百分数表示。譬如业界常用的P99标准,含义是99%的请求可以在某个耗时内完成响应,相对应的,也就是有1%的请求会大于这个耗时。而这1%就可以认为是长尾延迟。譬如在D7-P5520的资料中,会专门列出99%和99.99%情况下的时延数据。

ssd的分类,ssd分类

可管理性

在可管理性方面,企业与数据中心的侧重点是不同的。譬如运维管理人员的工作习惯、工作环境是不同的,企业应用要求硬件具备更高的可用性,可靠性和可管理性。企业类SSD会加入更完整的、带外管理为主的、以IPMI为基础的管理环境。所以SNIA认为NVMe-MI是企业类SSD的基本要素。通过NVMe-MI标准,运维可以监控大量SSD的信息,包括温度、功耗、运行状态(是否assert等)等;管理行为方面,除了获取SSD的基本信息(如MN、PCIe ID、厂商名),还可以远程升级Firmware、执行格式化等操作。

而数据中心类应用更倾向于用大量的较为廉价的硬件通过软件实现冗余来实现“最终”高可用高可靠。SSD的运行环境里主要采用带内管理,主机BMC可以仅仅是最基础版,比如仅监督温度。由此,SNIA认为这种场景下的SSD能够支持NVMe CLI足矣。

端口

数据中心更多实现了基于通用硬件的软件定义基础架构。除了可管理性,数据中心级SSD追求成本相对更低的单端口。双端口SSD主要用于企业级存储,以应对控制器单点失效的情况。数据中心以软件定义基础架构为主,有更高层软件面的冗余,并不需要双端口SSD。

双端口类的产品在企业级市场还有一定的刚需。双端口SSD市场的主要参与者是保有HDD产品线的厂商,以及全闪阵列的方案提供商。市面上交付双端口SSD的供应商已经比较有限了。

耐久度

企业级应用追求以高可用性,可靠性,可管理性的基础平台来获得持续的业务支撑。对于硬件部件可以接受相对高的成本,很可能会追求高性能、高负荷,尤其重视混合读写的需求。对应的,就有高耐久度的需求,譬如3DWPD、5DWPD,甚至10DWPD。而数据中心用户的基础理念就是用相对廉价的一群机器,形成“最终高可用,高可靠”的基础平台。单机的可靠性、可用性要求低于企业用户。更进一步,数据中心用户通常有非常强的软件开发能力, 其应用软件通常也是自己开发而不是象企业用户那样地外购应用软件,对长尾时延要求更苛刻。因此数据中心也有更好的负载均衡能力,优化了SSD的工作负载。所以,数据中心并不需要高DWPD的SSD, QLC SSD也是最先从数据中心用户开始部署的。

从另一个角度看,我们知道,耐久度与OP容量紧密相关,增加OP就可以提升耐久度,说白了就是增加单位存储成本为代价。OP容量损失在数据中心的体量看来,也是个大数目。数据中心有很大的动力减少甚至消灭OP,所以会引入ZNS等。关于ZNS,可以参考以前的文章:NAND的扩容之路(六):用什么治愈SSD的“精神内耗”。

对于写入特别频繁的缓存、日志等用途,则建议归入“低时延SSD”分类,使用傲腾™、SCM等满足需求。此类产品的特点我们将来找机会单聊。

小结

从市场发展看,企业用户会趋于更多地选择成本更出色,可靠性、可用性、可服务性也还不错的数据中心SSD。随着需求的减少,企业SSD的成本、部署基础都渐渐不够优化,企业级服务器SSD的角色渐渐由数据中心级SSD来担当了。考虑到绝大多数SSD全生命周期内的写入量极有限,有的SSD大厂索性没有规划高DWPD的产品线,如果用户确实有需求,完全可以通过调整OP来应对。至于NVMe-MI之类的特性,既然已经纳入标准,对大厂就是基本操作了,即使客户用不着,也不会因为三瓜两枣的讨价还价而砍掉的。简单说就是:大多数企业用户会最终选择直接购买数据中心类SSD。

当然,从SSD的采购或销售角度看,产品线简化了,其实采-销需求的精确匹配反而更困难了。一款SSD拥有大量的特性,到底哪些特性是对当前应用场景是最有价值的?精确区分应用场景只是第一步,接下来就是要厘清SSD的特性,并抓到重点。相关的内容我们会在未来的文章中进一步展开。