企業級 SSD 與消費級 SSD 的比較

一名專業人員面向上面有兩個白色箭頭的牆壁,一個箭頭指向左側,一個箭頭指向右側。

隨著資料中心對高資料處理量和低延遲的需求日益增加,傳統上依賴伺服器中的硬碟 (HDD) 來解決這些問題,但現在卻面臨效能瓶頸。因此,許多資料中心希望透過導入固態硬碟 (SSD) 來提升效能、效率與可靠性,同時降低營運成本 (OpEx)。

在深入了解不同等級的 SSD 之前,我們可以先來看看 SSD 的兩個主要組成部分:負責控制的快閃儲存處理器 (也稱 SSD 控制器),以及用來存放資料的 NAND 快閃記憶體。

在今日的市場中,SSD 固態硬碟及 NAND 快閃記憶體被用在三大領域:
  • 消費型裝置 (平板、照相機、行動電話)、
  • 個人用戶產品 (小筆電、筆記型電腦、超薄筆電、一體成形電腦 (AIO)、桌上型個人電腦)、嵌入式/工業用 (電玩互動式多媒體資訊站)
  • 企業電腦運算平台 (HPC、資料庫中心伺服器)。

為企業資料庫中心,挑選最合適的 SSD 固態硬碟儲存裝置,可能是一個既漫長又費力的過程;在此過程中,必須對眾多 SSD 固態硬碟廠商及產品類型加以認識、評鑑,因為並不是每個 SSD 固態硬碟與 NAND 快閃記憶體都有同等的效能。

SSD 固態硬碟設計上便於部署,無論是用來取代 HDD 硬碟,還是作為補強的解決方案都相當理想。SSD 有多種外型尺寸可選 (如 2.5 吋),並支援各種通訊協定/介面,包括 SATA、SAS,以及近年來較常見的 NVMe PCIe,這些技術能有效提升與伺服器中央處理器 (CPU) 之間的資料傳輸效率。

雖然 SSD 固態硬碟配置方便,但這並不意味著所有 SSD 都適合長期應用於選定的企業用途中。如果選擇不當,可能會因過度寫入導致提早損壞、在預期壽命內持續寫入效能大幅下降,或是在儲存陣列中增加延遲,需要提早更換。這些問題帶來的成本,可能會抵消原本節省的費用和所獲得的效能優勢。

我們將討論企業端和用戶端 SSD 固態硬碟的三大區別,幫助您在伺服器需要更換或擴充儲存裝置時,做出正確的採購決策。

效能

SSD 固態硬碟透過多通道架構,以及控制器到 NAND 快閃記憶體的並行存取,能提供極高的讀寫效能,滿足 CPU 對連續及隨機資料的需求。

典型的資料中心需要處理數百萬位元組的公司隨機資料,其中包括 CAD 技術藍圖的協作、待分析的地震資料(例如巨量資料),或存取全球客戶資料以進行金融轉帳(例如 OLTP)。儲存裝置必須讓使用者以最低的延遲時間存取資料,並在不犧牲反應時間的情況下,允許大量用戶端存取相同的資料。使用者體驗的好壞取決於低延遲,低延遲能有效提升工作效率。將這個效益擴展到整個員工團隊中,就能清楚看到低延遲的好處如何迅速累加。

一個用戶端應用程式只會牽涉到單一使用者或應用程式的存取,並且對於任何使用者或系統動作的最低與最高反應時間(或延遲)的差距,具有較高的容忍度。

使用固態硬碟的複雜儲存陣列(例如網路附加存儲 (NAS)、直接附加存儲 (DAS),或存儲區域網路 (SAN)),也會因為效能不協調而有負面的影響,並且破壞儲存陣列延遲、持續效能,最終導致使用者獲得的服務品質下降。

Kingston 的企業端 SSD 固態硬碟不同於用戶端 SSD 固態硬碟,它不只是為了在存取的前幾秒內達到最高效能而最佳化,還使用更大的超容量 (OP) 區,而且它可在長期間使用時,保持更高的持續穩定效能。請於 Kingston 網站的「 企業端 SSD 固態硬碟」下方查詢特定硬碟的詳細資訊。{{Footnote.N48213}}

這可確保儲存陣列的效能在高流量時期能符合企業組織對 服務品質(QoS)的預期要求。

伺服器機房內的機架型 LED 主控台

可靠性

NAND 快閃記憶體有幾個固有的問題。最重要的兩個問題包括有限的預期壽命 (因為 NAND 快閃記憶體單元在重複寫入過程中會磨損) 以及自然發生的錯誤率。

在生產 NAND 快閃記憶體的過程中,從矽晶圓切割的每一個 NAND 快閃晶粒都經過測試,而且以原始位元錯誤率 (BER 或 RBER) 來加以區隔。

BER 代表未受惠於錯誤校正碼 (ECC) 時,NAND 快閃裡自然發生位元錯誤的速率,而且此速率是在不中斷使用者或系統存取之下,由 SSD 固態硬碟控制器利用運行中的進階 ECC (通常由不同 SSD 固態硬碟控制器製造商稱為 BCH ECC、強大 ECC 或 LDPC 錯誤校正) 加以修正。

SSD 固態硬碟控制器可校正這些位元錯誤的能力,可用「無法校正的位元錯誤比例」(UBER) 來加以解釋:「一種資料損毀率的度量值,其值等於在使用任何指定的錯誤校正法後,每次位元讀取的資料錯誤數」。{{Footnote.N48213}}

根據產業標準協會 JEDEC 於 2010 年發表的文件「JESD218A:固態硬碟 (SSD) 要求與耐用性測試方法」以及「JESD219:固態硬碟 (SSD) 耐久負荷」的定義與標準,企業端 SSD 與用戶端 SSD 在多方面有所不同,包括但不限於能夠支援較高的寫入負荷、應對更極端的環境條件,以及從更高的錯誤比率 (BER) 中恢復。{{Footnote.N52081}}{{Footnote.N52082}}

應用等級工作負載 (參閱 JESD219)運作狀態 (開機)休息狀態 (關機)無法修正之位元錯誤率
消費級 消費級 40° C
8 小時/天
30° C
1 年
≤10 -15
企業 企業 55° C
24 小時 / 天
40° C
3 個月
≤10 -16

表 1 - JESD218A:固態硬碟 (SSD) 要求與耐用性測試法
Copyright JEDEC.複印需經過 JEDEC 同意。

使用 JEDEC 提出的的企業端與用戶端 SSD 固態硬碟 UBER 要求比較,我們可知企業端 SSD 固態硬碟在每萬萬億位元(約 1.11 Pb)只能有一個無法復原的位元錯誤,而用戶端 SSD 固態硬碟則是每千萬億位元(約 0.11 PB) 只能有一個無法復原的位元錯誤。

Kingston 的企業端 SSD 會加入一些新技術,能透過其他 NAND 晶粒中的奇偶資料來恢復損壞的資料區塊(就像 RAID 磁碟一樣,這樣可以利用儲存在其他區塊的奇偶資料來重建特定的區塊)。

為了補強內建到 Kingston 企業端 SSD 固態硬碟上的區塊復原技術、定期建立檢查點及循環冗餘核對 (CRC) 及 ECC 錯誤校正也都被用來確保從主機經過快閃而來並回到主機的資料都完好無缺。端對端資料保護是指,當主機所傳送的資料存入 SSD 的內部緩存區或從 NAND 儲存區讀取時,會進行完整性檢查。

和增強位元錯誤檢查(ECC)的企業端 SSD 類似,SSD 也可能包含斷電偵測的實體電路,這些電路會管理 SSD 上的電源儲存電容器。硬體中的電源故障支援會監控進入 SSD 的電源,當發生意外斷電時,會使用電容器提供臨時電源,讓 SSD 完成任何未處理的內部或外部寫入操作,然後再關閉電源。如果某些應用中資料遺失無法恢復,則通常需採用斷電保護(PLP)電路。

也可採用SSD韌體實施斷電保護功能,透過 SSD 控制器的快取記憶體(例如快閃記憶體轉換層資料表)定期將資料傳輸到 NAND 儲存設備。這樣可以確保在停電事件中儘量減少資料遺失的風險,並降低不安全關機帶來的影響。韌體的斷電保護還能確保 SSD 不會在不安全關機後變得無法操作。

在許多情況下,使用軟體定義儲存裝置或伺服器叢集可能減少對硬體型電源中斷支持的需求,因為任何資料都會複製到不同伺服器上的單獨和獨立儲存裝置中。網路規模的資料中心通常會使用「軟體定義儲存裝置」,將電源故障支援分配到 RAID 伺服器,儲存相同資料的備援副本。

耐用性

一位專業人員在鑲嵌六角形的疊加圖形上戳出六角形,每個六角形上都有一個表示雲端運算等技術概念的符號。

任何包含在快閃儲存裝置中的 NAND 快閃記憶體,每經過一次 NAND 快閃記憶格的程式化或抹除 (P/E),其可靠地儲存資料位元的能力就會降低,直到 NAND 快閃記憶體區塊再也無法可靠地儲存資料為止。此時,降級或錯誤區塊會從使用者可定址的存放集區移走,並且將邏輯區塊 (或 LBA) 移至 NAND 快閃儲存陣列上的新實體位址。藉由使用屬於 SSD 上過度配置 (OP) 儲存設備一部分的備品區塊集區,新的儲存區塊會取代錯誤區塊。

當記憶單元持續地被寫入或抹除的同時,BER 也呈直線性的趨勢增加,因為這個原因,必須在企業端 SSD 固態硬碟控制器上執行一組複雜的管理技巧,藉以管理記憶單元在 SSD 固態硬碟產品壽命期間可靠地儲存資料的能力。{{Footnote.N52083}}

特定 NAND 快閃記憶體的程式化或抹除耐用性可能會有相當大的不同,端視當前平版印刷製造流程及所製造的 NAND 快閃記憶體類型而定。

NAND 快閃記憶體類型QLCTLCMLCSLC
架構 每格 4 位元 每格 3 位元 每格 2 位元 每格 1 位元
儲存容量 最高容量 較高容量 最大容量 最低容量
耐用性 (程式化或抹除) 最低耐用性 較低耐用性 中等耐用性 最高耐用性
成本 $ $$ $$$ $$$$
大約的 NAND 位元錯誤率 (BER) 10^4 10^4 10^7 10^9

表 2 - NAND 快閃記憶體類型 {{Footnote.N52084}}{{Footnote.N52085}}

企業端 SSD 固態硬碟和用戶端 SSD 固態硬碟可能因任務周期有所不同。企業端 SSD 固態硬碟必須能夠承受資料中心伺服器在日常環境中繁重的讀寫活動,這些伺服器需要每天 24 小時、每週 7 天不斷存取資料。與此相比,用戶端 SSD 固態硬碟通常一週內每日僅需充分運作 8 小時即可。

與具備 20/80 任務周期 (在電腦使用期間,20% 的使用中時間、80% 處於閒置或休眠模式) 的用戶端 SSD 固態硬碟相較之下,企業端 SSD 固態硬碟有 24 小時全天候任務週期。

瞭解任何應用或 SSD 固態硬碟的寫入耐用性所牽涉的層面可能相當複雜,這也是為何 JEDEC 委員會建議以「寫入兆位元組」(Terabytes Written,TBW) 值來表示在 SSD 固態硬碟中的 NAND 快取記憶體變成不可靠的儲存媒體,且在硬碟應當淘汰之前,可以寫入 SSD 固態硬碟之原始主機資料的數量。

若使用 JEDEC 所建議的 JESD218A 測試方法與 JESD219 企業端工作量,則可更輕鬆的透過 TBW 來說明 SSD 固態硬碟製造商耐用程度,並推論出一種更容易瞭解且可用於任何資料中心的耐用性度量方法。

如文件 JESD218 和 JESD219 中所述,不同的應用類別的工作量會受到寫入放大因數 (WAF) 數量級高於主機提交的實際寫入所影響。這樣的情況很容易導致 NAND 快閃記憶體的磨損變得難以管理,隨著時間推移出現過度寫入而導致較高的 NAND 快閃記憶體錯誤率 (BER),以及 SSD 固態硬碟上廣泛分布的無效頁面致效能降低。

雖然 TBW 是企業端和用戶端 SSD 固態硬碟之間討論的重要話題,然而 TBW 只是 NAND Flash 層級的耐用性預測模型。平均故障間隔 (MTBF) 的觀察標準應根據設備上使用的元件可靠性來預測元件層級的耐用性和可靠性的模型。對企業端 SSD 固態硬碟元件的要求,包括在 SSD 固態硬碟產品壽命期間內,能更持久且更努力地管理整個 NAND 快閃記憶體上的電壓。所有企業端 SSD 固態硬碟都應該被額定為至少 200 萬小時 MTBF,也可以說是超過 230 年!Kingston 會非常保守擬定 SSD 固態硬碟規格,而且提高 SSD 固態硬碟的 MTBF 規格並不罕見,重要的是以企業端 SSD 固態硬碟來說 200 萬小時非常充裕。

對企業端 SSD 固態硬碟進行 S.M.A.R.T. 監控與回報,可讓系統根據目前的寫入放大 (WAF) 因數及磨損的程度,在產品壽命結束前對裝置進行故障前查詢。通常也支援針對斷電、實體介面顯示的位元錯誤,或不平均的耗損分布等故障事件所發出的故障前預警。可從 Kingston 網站下載 Kingston SSD Manager 程式,並用來檢視硬碟的狀態。

用戶端 SSD 固態硬碟可能僅具備最少的 S.M.A.R.T. 輸出資料,以便在標準使用期間內或故障後用於監控 SSD 固態硬碟。

亦可依據應用等級與 SSD 固態硬碟的容量,分配更多的 NAND 快閃記憶體保留容量,以作為預留空間 (OP) 的備用容量。預留空間 (OP) 的容量對使用者和作業系統來說是隱藏的,無法存取。它可作為暫時的寫入緩衝以獲得更高的持續效能,並且在固態硬碟的產品壽命期間內,取代有瑕疵的快閃記憶格,藉以加強 SSD 固態硬碟 (備用區塊的數量增加) 的可靠度與耐用性。

結論

企業端與用戶端 SSD 固態硬碟之間有著截然不同的差異,其差異點從它們的 NAND 快閃記憶體的「程式化」與「抹寫」耐用性,到複雜的管理技術都有,這都是為了配合不同的應用等級的工作量。

若能瞭解應用等級的差異,即能成為在具有業務關鍵性的企業環境中減少及管理破壞性停機風險的有效工具。

如果您還有其他問題,或想瞭解有關 Kingston 企業端 SSD 固態硬碟的更多資訊,請聯絡您的 Kingston 代表、我們的諮詢專家團隊或是我們的技術支援聊天室

請問這有幫助到您嗎?

相關影片

相關文章