1.前言
大家對SSD的第一印象就是性能高、速度快,然而隨著SSD在數(shù)據(jù)中心、高性能計(jì)算、高端存儲、邊緣計(jì)算等各種企業(yè)級應(yīng)用場景的逐步普及,近年來企業(yè)級SSD產(chǎn)品的發(fā)貨量逐年快速上升,而隨著實(shí)際在網(wǎng)運(yùn)行數(shù)量的逐步增加,一些可靠性問題也逐漸體現(xiàn),而SSD的可靠性也企業(yè)級用戶重點(diǎn)關(guān)注的方向。
講到SSD的可靠性,我們通常能聽到的術(shù)語有:Failure Rate(故障率或者失效率)、MTBF、AFR、Retention、Endurance、 UBER、FFR等,在實(shí)際工作中經(jīng)常有些不是可靠性領(lǐng)域的工程師來詢問這些指標(biāo)的含義,所以本文主要簡單介紹一下這些SSD可靠性指標(biāo)的概念及其意義,方便大家更深入的了解和認(rèn)識SSD的可靠性。?? ? ? ? ? ?
2.?故障率/MTBF/AFR
2.1?故障率
2.2?浴盆曲線模型
提到可靠性,必須要講下最經(jīng)典的浴盆曲線(Bathtub Curve)可視化模型,浴盆曲線模型是指導(dǎo)產(chǎn)品或者系統(tǒng)進(jìn)行可靠性設(shè)計(jì)、驗(yàn)證、優(yōu)化的最常用的模型,也是可靠性工程師甚至質(zhì)量工程師都非常關(guān)注的理論。
浴盆曲線簡單來說將產(chǎn)品的生命周期分為三個(gè)階段:
1)早期失效期(Infant Morality Period):此階段失效率較高,大多是生產(chǎn)制造帶來的失效,但是這段時(shí)間比較短,而且失效率隨著時(shí)間推移會迅速降低并趨于穩(wěn)定。
2)穩(wěn)定期(Steady Period):或者叫隨機(jī)失效期,有時(shí)也叫正常生命期,這個(gè)階段產(chǎn)品的失效率是恒定的常數(shù),通常發(fā)貨給客戶的產(chǎn)品都工作于這個(gè)階段。
3)壽命耗盡期(Wear-out Period):?這個(gè)階段產(chǎn)品由于壽命的耗盡,失效率逐漸增高。浴盆曲線在可靠性的設(shè)計(jì)和優(yōu)化上有非常多的應(yīng)用,本文中所討論的可靠性指標(biāo)MTBF/AFR等,都是指的正常生命期也就是穩(wěn)定期。
2.3?MTBF
MTBF 全稱為Mean Time Between Failure即平均失效間隔時(shí)間,其定義為給定的樣本數(shù)量,工作小時(shí)后,出現(xiàn)次故障,每個(gè)樣本失效時(shí)已正常工作的時(shí)間記為?, 單位為小時(shí):
MTBF通常用于一個(gè)故障可恢復(fù)的系統(tǒng),相比故障率指標(biāo),MTBF的定義更加直接,也更適用于表現(xiàn)系統(tǒng)級的可靠性,更常用于預(yù)測和表征產(chǎn)品和系統(tǒng)的可靠性,而不是用故障率來進(jìn)行體現(xiàn)。
2.4?AFR
實(shí)際應(yīng)用中我們還經(jīng)常聽到AFR的概念,AFR即Annual Failure Rate,即年化的失效率,假設(shè)年度的發(fā)貨量為,故障個(gè)數(shù)為,那么可以定義:
上面等式中的表示產(chǎn)品(系統(tǒng))的時(shí)基失效率,AFR主要用于產(chǎn)品或者系統(tǒng)在發(fā)貨后進(jìn)行的故障率統(tǒng)計(jì),這點(diǎn)和DPPM有類似之處,只不過DPPM更多用于獨(dú)立的元器件。? ? ? ? ? ? ?
3?故障率/MTBF/AFR的關(guān)系和意義
上面介紹了故障率、MTBF、AFR的定義,接下來說一說它們之間的關(guān)系及實(shí)際意義
3.1?故障率和MTBF關(guān)系
因此,實(shí)際SSD產(chǎn)品的可靠性設(shè)計(jì)和評估方法是:系統(tǒng)的MTBF可以通過系統(tǒng)的失效率評估得到。而系統(tǒng)的是可以通過各個(gè)器件的失效率計(jì)算得到,器件的失效率(即FIT值)可以從各個(gè)元器件廠家獲取。
需要強(qiáng)調(diào)的是系統(tǒng)失效率評估并非簡單的所有獨(dú)立元器件FIT值相加,而是需要根據(jù)元器件在系統(tǒng)中具體的使用方法和系統(tǒng)的適用場景計(jì)算,可以參考BellCore等專業(yè)文檔。
3.2 MTBF的驗(yàn)證方法RDT
MTBF相對故障率來說,更易于在研發(fā)過程中進(jìn)行驗(yàn)證。MTBF的測試驗(yàn)證方法也就是通常講的RDT(Reliability Demonstration Test)即可靠性驗(yàn)證測試,通過RDT驗(yàn)證MTBF的原理如下:
上述等式中各參數(shù)的意義:
1)SS表示樣本量;
2)AF表示溫度加速因子,通常采用高溫加速的方式進(jìn)行;
3)TestHours 表示總測試時(shí)間,單位:小時(shí);
4)A表示置信度因子,
5)CL表示置信度水平,r表示允許的失效個(gè)數(shù),表示卡方分布;
3.3 MTBF?和 AFR的關(guān)系
根據(jù)MTBF和故障率的關(guān)系我們可以很容易得到AFR和MTBF的關(guān)系如下:
那么既然已經(jīng)有MTBF為什么還要增加AFR這個(gè)指標(biāo)呢,個(gè)人認(rèn)為有以下兩點(diǎn)區(qū)別:
1)MTBF主要用于研發(fā)設(shè)計(jì)時(shí)對產(chǎn)品可靠性指標(biāo)進(jìn)行預(yù)測和測試驗(yàn)證,不易于實(shí)際統(tǒng)計(jì):MTBF 是在SSD產(chǎn)品設(shè)計(jì)時(shí),需要制定的可靠性指標(biāo),MTBF需要在產(chǎn)品研發(fā)階段通過計(jì)算可以得到,同時(shí)可以通過RDT等測試方法進(jìn)行驗(yàn)證,因此MTBF更偏向于發(fā)貨前的研發(fā)理論設(shè)計(jì)和研發(fā)階段的驗(yàn)證;
2)AFR更易于在產(chǎn)品實(shí)際發(fā)貨后進(jìn)行統(tǒng)計(jì),是對MTBF設(shè)計(jì)的實(shí)際驗(yàn)證:AFR雖然可以通過MTBF得到,但AFR更重要的是易于在SSD產(chǎn)品實(shí)際發(fā)貨后進(jìn)行統(tǒng)計(jì),是一個(gè)實(shí)際的統(tǒng)計(jì)值,而統(tǒng)計(jì)MTBF則比較難在實(shí)際產(chǎn)品發(fā)貨后統(tǒng)計(jì)。通過實(shí)際統(tǒng)計(jì)得到的AFR和設(shè)計(jì)的AFR值比較,是最終驗(yàn)證MTBF設(shè)計(jì)指標(biāo)是否達(dá)成的依據(jù),也是SSD產(chǎn)品可靠性在用戶使用階段最直接的體現(xiàn)指標(biāo)之一。
3.4?小結(jié)
實(shí)際上我們在做系統(tǒng)可靠性設(shè)計(jì)時(shí),需要將故障率、FIT值、MTBF、AFR聯(lián)系起來看,總結(jié)如下:
1)元器件的故障率是計(jì)算系統(tǒng)故障率的基本輸入?yún)?shù),通過系統(tǒng)故障率來評估系統(tǒng)MTBF;
2)系統(tǒng)級可靠性更直接的是用MTBF進(jìn)行體現(xiàn),MTBF可在批量發(fā)貨前通過RDT驗(yàn)證;
3)AFR可以用于批量發(fā)貨后的可靠性反饋驗(yàn)證;
4)可以大概總結(jié)硬件系統(tǒng)的MTBF可靠性設(shè)計(jì)預(yù)測和驗(yàn)證流程如下:? ??
? ? ??
4?Endurance/Retention /UBER/FFR
前面三部分講的失效率(Failure Rate)、MTBF和AFR都是通用的硬件產(chǎn)品可靠性指標(biāo),而不是SSD產(chǎn)品所特有的。實(shí)際上對于SSD產(chǎn)品來說,還有自己特有的特性和可靠性指標(biāo),也就是大家常見的Endurance、TBW、Data Retention、UBER、FFR這幾個(gè)概念,實(shí)際上這幾個(gè)概念的定義都來源于JESD218系列規(guī)范,我們先看看這四個(gè)概念的定義。
4.1 Endurance 和 Data?Retention
Endurance : The ability of an SSD to withstand multiple data rewrites,字面含義 SSD能夠承受反復(fù)重寫的能力,即SSD能夠承受的寫入數(shù)據(jù)量總和,有時(shí)也叫Endurance Rating。如果以TB為單位表示總寫入數(shù)據(jù)量,在規(guī)范中也被叫做TBW,Endurance/Endurance Rating/TBW都代表的相同的意思。
講到Endurance還有一個(gè)常見的規(guī)格被叫做DWPD,即Drive?Write?Per?Day, 表示的是盤片每天能夠?qū)懭氲目倲?shù)據(jù)量和盤片自身容量的比值:
因此DWPD和Endurance(TBW)的關(guān)系為:
上面等式中表示該盤片的壽命是5年,這是企業(yè)SSD通常標(biāo)稱的壽命。
Data Retention :The ability of the SSD to retain data over time,即SSD保存數(shù)據(jù)時(shí)間的能力,有也簡化為叫Retention¥¥那么為何SSD要有Endurance和Data Retention的概念呢?
因?yàn)镾SD使用NAND Flash作為存儲數(shù)據(jù)的介質(zhì),NAND Flash 是一種數(shù)據(jù)非易失的介質(zhì),但不是永久不丟失數(shù)據(jù)的介質(zhì)。NAND Flash有兩個(gè)明顯的特點(diǎn):
第一,每個(gè)NAND Flash內(nèi)部單元存在磨損壽命,也就是通常講的Erase-Program?次數(shù)(擦除編程次數(shù),簡稱EP),當(dāng)EP達(dá)到一定程度,NAND?Flash?上數(shù)據(jù)的誤碼率將變大,也就無法實(shí)現(xiàn)對數(shù)據(jù)的可靠保存,因此NAND?Flash存在磨損壽命(Endurance)的概念;
第二,存放在NAND Flash內(nèi)部單元的數(shù)據(jù),只能保存一定長度的時(shí)間,當(dāng)超過該時(shí)間,數(shù)據(jù)會逐漸丟失,因此NAND Flash存在Data Retention的概念。
由于NAND Flash存在Endurance和 Data Retention概念,因此SSD產(chǎn)品也繼承了NAND的這兩個(gè)特性和概念。
不過,嚴(yán)格來說 Endurance和Data Retention并不是可靠性的指標(biāo),是屬于功能指標(biāo),UBER和FFR才是可靠性的指標(biāo),但是UBER和FFR是需要在Endurance和Data Retention的前提條件下來定義,并進(jìn)行測試驗(yàn)證。
4.2?UBER?和FFR
SSD是一種用于保存數(shù)據(jù)的部件,因此對行業(yè)規(guī)范中制定了關(guān)于SSD保存數(shù)據(jù)方面的可靠性指標(biāo),也就是常見的UBER和FFR。
UBER : Uncorrectable Bit Error Rate, or ratio, 字面意思即不可糾正的誤比特率,計(jì)算方法如下:
FFR : The allowed cumulative functional failures over the TBW rating, 即SSD在整個(gè)磨損壽命時(shí)間范圍內(nèi)累積的功能失效率。
4.3?UBER/FFR的測試方法
UBER和FFR的字面含義相對來說比較容易理解,但是跟Endurance 和 Retention的關(guān)系,可以從下圖中JESD218B.01標(biāo)準(zhǔn)中UBER和FFR的測試方法進(jìn)行了解:
1)需要將整個(gè)測試樣本量分為兩部分各50%;
2)第一步部分(Part:1)在常溫下進(jìn)行數(shù)據(jù)讀寫測試(JESD219?模型),也叫磨損Endurance測試,要求總寫入數(shù)據(jù)量要達(dá)到SSD標(biāo)稱的Endurance(或者TBW)數(shù)據(jù)量;
3)第二步部分(Part:2)在高溫下進(jìn)行數(shù)據(jù)讀寫測試(JESD219模型),也叫磨損Endurance測試,總寫入數(shù)據(jù)量要達(dá)到SSD標(biāo)稱的Endurance(或者TBW)數(shù)據(jù)量;
4)第二部分的Endurance測試完成后,需要進(jìn)行一次對數(shù)據(jù)保存時(shí)間的測試即Retention測試;
5)最后統(tǒng)計(jì)UBER/FFR時(shí)需要統(tǒng)計(jì)上面2),3),4)步驟中所有的功能失效,錯(cuò)誤IO個(gè)數(shù),用于計(jì)算UBER/FFR。
? ? ? ? ? ?
5?總結(jié)
本文的主要目的還是對SSD可靠性涉及到的概念進(jìn)行簡單梳理,幫助大家理解SSD的可靠性。由于每個(gè)指標(biāo)詳細(xì)的設(shè)計(jì)、預(yù)測以及驗(yàn)證方法都有比較多的內(nèi)容,后續(xù)有機(jī)會再進(jìn)行專題分享。?? ? ? ? ? ?
參考文獻(xiàn)
1.?Telcordia Technologies Special Report,?SR-332,?Reliability Prediction Procedure for?Electronic Equipment
2.?JESD218B.01 Solid-State Drive (SSD) Requirements?and Endurance Test Method?? ? ?? ? ??
評論
查看更多