亚洲第一综合天堂另类专,狼人乱码无限2021芒果

01背景及動機

3D閃存架構(gòu)中的制程差異增加了壞塊管理的難度。由于不同塊之間的錯誤特征不同，現(xiàn)有的基于P/E次數(shù)的壞塊管理策略下，很難確定合適的P/E閾值。若P/E設(shè)置激進，則增加數(shù)據(jù)丟失的可能性；若P/E設(shè)置保守，則無法充分利用強可靠性閃存塊的壽命，從而降低了SSD的整體使用壽命。本文探討的壞塊管理，本質(zhì)是如何權(quán)衡可靠性和SSD使用壽命?

一個理想的壞塊管理策略是在一個塊失敗之前立即退役，關(guān)鍵是能夠準確地預(yù)測閃存塊何時接近其生命周期的末端。

在本文中，利用閃存塊之間的空間相關(guān)性劃分集群，以集群為粒度進行壞塊管理。如果在塊級存在空間相關(guān)性，那么一個塊的失效是其相鄰塊近期失效的有力指標。本文在海力士3D TLC閃存上進行可靠性實驗，分析相鄰閃存塊之間的錯誤特征，并且表明存在集群相似性，即物理接近的閃存塊具有相似的錯誤特征。

02集群相似性

實驗設(shè)置：從10塊海力士TLC閃存選取40個cluster，每個cluster的選取采用同個plane中的連續(xù)10個塊。對這些塊執(zhí)行編程隨機數(shù)據(jù)，然后執(zhí)行擦除，循環(huán)直到報廢。擦除之前數(shù)據(jù)的dwell time為10s。收集對應(yīng)P/E下的比特錯誤率。

結(jié)論：1）對于不同集群中的塊，在P/E周期中的比特錯誤率趨勢可能非常不同；2）對于同一集群中的塊，比特錯誤率趨勢更加相似，即存在集群相似性。

03基于集群的壞塊管理

基于集群相似性，提出了一種基于集群的壞塊管理策略。集群中的閃存塊可靠性及在P/E影響下錯誤率趨勢具有相似性。也就是說，在壞塊管理時，當其中一個閃存塊成為壞塊時，整個集群中的閃存塊全部標記為壞塊。通過這種集群相似性特征來管理壞塊，可以及時標記壞塊，從而在確?？煽啃缘那疤嵯?，盡可能提升閃存壽命。

提出的基于集群的壞塊管理策略有兩個關(guān)鍵設(shè)計問題。

1) 集群大小的選擇。集群大小決定了SSD壽命和可靠性之間的權(quán)衡。更大的集群大小會導(dǎo)致更低的故障率（更加保守，并不能完全耗盡每一個閃存塊的壽命），但會以更短的SSD壽命為代價。如何選擇集群相似度強的集群大小，在不犧牲SSD壽命的情況下保證可靠性，對于基于集群的壞塊管理機制的有效性至關(guān)重要。為此，本文提出了一個度量標準來量化集群的相似性，并推導(dǎo)出閃存塊故障率和集群大小之間的相關(guān)性。因此，給定集群大小的可靠性和SSD壽命之間的權(quán)衡可以被定量地評估。

2) 集群退役時對I/O性能的影響。集群退役的時候，該集群的所有有效數(shù)據(jù)需要拷貝到其他集群。由于集群退役而導(dǎo)致的讀寫突發(fā)可能會干擾用戶的I/O請求。為了解決這一問題，本文提出了一種關(guān)鍵塊優(yōu)先調(diào)度策略，當集群中某個塊標記為壞塊時，該塊的數(shù)據(jù)遷移優(yōu)先級高于用戶請求。集群中其余塊在之后SSD空閑時，執(zhí)行關(guān)聯(lián)的讀寫操作。因此，可以盡量減少集群退役時的性能影響。

04實驗測試

實驗一：對比基于集群的管理方法和基于塊的管理方法

權(quán)衡Block usage和Block failure rate。其中，?Block? usage指的是被定義為在SSD不再可用之前所承受的平均P/E。Block failure rate定義為發(fā)生塊故障的塊的比例。

當P/E次數(shù)增加時，塊的使用情況和塊的故障率都會上升?；诩旱膲K管理方法中，可以實現(xiàn)23000P/E次數(shù)，并實現(xiàn)block failure rate為0.01。對于基于塊的管理方法，當確保塊失敗率為0.01時，P/E僅為11000。如果要實現(xiàn)23000P/E，塊失敗率為0.09。這表明，所提出的基于集群相似性的方法在塊使用和塊故障率之間實現(xiàn)了更好的權(quán)衡。

為了進行更詳細的分析，從塊管理策略中選擇以下設(shè)置，以查看塊退休率和塊故障率如何隨時間變化。

不同的集群大小如何影響基于集群的管理策略？圖8展示了塊退休率和塊故障率隨時間變化趨勢。評估了五種不同的集群大小，包括1、2、5、10，以及clusterAll表示同一芯片內(nèi)的所有塊視為單個集群。注意，cluster1相當于BlockNoLimit，clusterALL代表集群很大。

當集群大小增加時，壽命降低。然而，對于集群大小為1、2、5、10，差異不顯著。這是因為當集群大小等于10時，集群相似性仍然很強。

隨著集群大小的增加，塊故障率減小。當集群大小等于10時，塊故障率已經(jīng)小于0.01。因此，沒有必要選擇一個更大的集群大小。

實驗二：測試數(shù)據(jù)重新分配的性能情況

比較了基于集群管理策略與基于塊管理策略的I/O性能。該實驗表明，通過關(guān)鍵塊優(yōu)先分配調(diào)度可以減輕基于集群管理策略的I/O影響。下圖表示塊退役前后的I/O延遲。x軸表示分析時間和塊退役之間的時間差，從塊退役前50秒到塊退役后50秒。y軸表示每1000個請求的平均I/O延遲?？梢钥吹?，基于集群的方法會引入延遲尖峰。而關(guān)鍵塊優(yōu)先分配解決了此問題。

05總結(jié)

本文發(fā)現(xiàn)物理接近的閃存塊間存在相似的誤差特征(集群相似性)，提出一種基于集群的壞塊管理方式，確保閃存可靠性的前提下，提升閃存壽命?？紤]到基于集群的管理下，集群退役引起的I/O性能問題，本文還提供了一種針對壞塊重新分配的關(guān)鍵塊優(yōu)先調(diào)度方法。實驗表明所提出的方法可以延長閃存壽命2倍，而不會有任何I/O性能下降。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

SSD

SSD

+關(guān)注

關(guān)注
20

文章
2812

瀏覽量
116996
TLC

TLC

+關(guān)注

關(guān)注
0

文章
136

瀏覽量
51426
延遲器

延遲器

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
6681

原文標題：如何解決閃存制程差異下的壞塊管理問題？

文章出處：【微信號：SSDFans，微信公眾號：SSDFans】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深度解讀企業(yè)級SSD的可靠性意義

本文主要簡單介紹一下這些SSD可靠性指標的概念及其意義，方便大家更深入的了解和認識SSD的可靠性。

發(fā)表于 08-18 11:16 ?6655次閱讀

深度解讀企業(yè)級<b class='flag-5'>SSD</b>的<b class='flag-5'>可靠性</b>意義

#硬聲創(chuàng)作季 #可靠性電子封裝可靠性評價中的實驗力學方法-3

可靠性設(shè)計可靠性元器件可靠性

水管工

發(fā)布于 :2022年09月29日 22:10:30

#硬聲創(chuàng)作季 #可靠性電子封裝可靠性評價中的實驗力學方法-5

可靠性設(shè)計可靠性元器件可靠性

水管工

發(fā)布于 :2022年09月29日 22:11:21

#硬聲創(chuàng)作季 #可靠性電子封裝可靠性評價中的實驗力學方法-6

可靠性設(shè)計可靠性元器件可靠性

水管工

發(fā)布于 :2022年09月29日 22:11:46

可靠性是什么？

可靠性是什么？充實一下這方面的知識　產(chǎn)品、系統(tǒng)在規(guī)定的條件下，規(guī)定的時間內(nèi)，完成規(guī)定功能的能力稱為可靠性?！　∵@里的產(chǎn)品可以泛指任何系統(tǒng)、設(shè)備和元器件。產(chǎn)品可靠性定義的要素是三個“規(guī)定”：“規(guī)定

發(fā)表于 08-04 11:04

LED加速壽命和可靠性試驗

1、概述　　隨著近年來LED光效的不斷提升，LED的壽命和可靠性越來越受到業(yè)界的重視，它是LED產(chǎn)品最重要的性能之一。壽命是可靠性的終極表現(xiàn)，然而LED的理論

發(fā)表于 08-04 17:42

可靠性設(shè)計分析系統(tǒng)

（故障樹分析）、容差分析（含最壞情況仿真分析，SPICE模型）、降額設(shè)計分析（兼容ECSS標準和GJB35)、可靠性分配、疲勞壽命分析（具備應(yīng)力壽命分析、拉伸壽命分析、焊接結(jié)構(gòu)疲勞分析

發(fā)表于 12-08 10:47

采用nvSRAM確保企業(yè)級SSD故障時電源可靠性

能夠顯著提高能量密度的電容，并且可作為電池備份應(yīng)用中可靠的電池替代產(chǎn)品?！　〉牵夒娙萜鞔嬖?b class='flag-5'>可靠性問題，已知其在長期可靠性方面存在不足，這一點跟鋁電解電容器比較相像。超級電容器的使用壽命

發(fā)表于 09-26 09:44

六類可靠性試驗的異同，終于搞懂了！

、可靠性驗收試驗、壽命試驗。可靠性六大實驗的分工與職責不同，各有所能，為人們服務(wù)的目的、對象、適用時機都不同（見下表）。名字職責目的適用對象適用時機環(huán)境應(yīng)力篩選ESS發(fā)現(xiàn)和排除不良元器件、制造工藝

發(fā)表于 07-23 18:29

什么是高可靠性？

”的發(fā)展趨勢，對可靠性的要求會越來越高。高可靠性PCB可以發(fā)揮穩(wěn)健的載體作用，實現(xiàn)PCBA的長期、穩(wěn)定運作，從而保證終端產(chǎn)品的安全性、穩(wěn)定性和使用壽命，企業(yè)進而得以增強競爭力、提升信譽

發(fā)表于 07-03 11:18

C&K高可靠性鍵盤開關(guān) 面向需要長使用壽命的應(yīng)用

智能卡互聯(lián)器件和高可靠性連接器制造商C&K Components新型高可靠性工效學鍵盤開關(guān)，面向需要長使用壽命的應(yīng)用，包括游戲、工業(yè)、專業(yè)和工作站鍵盤。KBD系列開關(guān)的使用壽命很長，達

發(fā)表于 04-13 11:03 ?1237次閱讀

壽命試驗的可靠性測試詳解

本文首先介紹了可靠性測試的概念與分類，其次介紹了壽命測試屬于可靠性測試及其作用，最后介紹了有效的壽命測試項目及壽命試驗相關(guān)標準。

發(fā)表于 05-14 09:40 ?1.7w次閱讀

西數(shù)推出企業(yè)級TLC SSD 壽命和可靠性都是頂級的存在

西部數(shù)據(jù)今天發(fā)布了新款企業(yè)級SSD UltraStar DCSS540，雖然使用的是TLC NAND閃存，但是壽命和可靠性都是頂級的存在，被外媒贊為“坦克級”。

發(fā)表于 11-28 16:57 ?1728次閱讀

SSD的可靠性可靠性量化指標MTBF

企業(yè)環(huán)境復(fù)雜多變，快速增長的業(yè)務(wù)需求使得企業(yè)在數(shù)據(jù)存儲規(guī)模、存儲性能和可靠性等多方面提出了越來越高的要求。SSD固態(tài)硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業(yè)的首選解決方案，并在數(shù)據(jù)庫、虛擬化

發(fā)表于 10-11 09:50 ?9503次閱讀

可靠性證明測試：高度加速壽命測試

壽命測試是一種重要的可靠性測試方法，用于評估組件、子系統(tǒng)或系統(tǒng)在預(yù)期或指定的使用壽命條件下的性能和可靠性。壽命測試旨在模擬實際應(yīng)用環(huán)境中物品

發(fā)表于 08-01 16:31 ?895次閱讀

搜索歷史

如何權(quán)衡可靠性和SSD使用壽命？

評論

深度解讀企業(yè)級SSD的可靠性意義

#硬聲創(chuàng)作季 #可靠性電子封裝可靠性評價中的實驗力學方法-3

#硬聲創(chuàng)作季 #可靠性電子封裝可靠性評價中的實驗力學方法-5

#硬聲創(chuàng)作季 #可靠性電子封裝可靠性評價中的實驗力學方法-6

可靠性是什么？

LED加速壽命和可靠性試驗

可靠性設(shè)計分析系統(tǒng)

采用nvSRAM確保企業(yè)級SSD故障時電源可靠性

六類可靠性試驗的異同，終于搞懂了！

什么是高可靠性？

C&K高可靠性鍵盤開關(guān) 面向需要長使用壽命的應(yīng)用

壽命試驗的可靠性測試詳解

西數(shù)推出企業(yè)級TLC SSD 壽命和可靠性都是頂級的存在

SSD的可靠性可靠性量化指標MTBF

可靠性證明測試：高度加速壽命測試

搜索歷史

如何權(quán)衡可靠性和SSD使用壽命？

評論

如何權(quán)衡可靠性和SSD使用壽命？