1 軟件定義“抗造”
我們知道軟件定義存儲SDS有很多優(yōu)勢,比如:
高擴展性,在線按需擴容,無需中斷業(yè)務。
標準控制API接口,秒級操作,無縫對接其他系統(tǒng)。
標準數(shù)據(jù)訪問接口,支持塊、文件、對象存儲等。
性能和容量可配置,滿足當前和未來場景的需求。
除此之外,SDS還可以靈活定義可靠性、可用性,因此SDS特別抗造。
我們先了解可靠性和可用性的含義,再對故障進行分類,最后對比各種抗造技術(shù),方便大家在做SDS選型和架構(gòu)設計時進行“軟件定義”。
2可靠性與可用性
可靠性(durability):表示數(shù)據(jù)是否丟失。比如硬盤發(fā)生介質(zhì)故障,導致硬盤里面的數(shù)據(jù)丟失。
可用性(availability):表示數(shù)據(jù)是否可以訪問。比如因為服務器掉電原因,導致暫時不能訪問服務器硬盤中的數(shù)據(jù)。
3故障分類
總體分類為:硬件、軟件、天災、人禍。具體分類如下表所示。
其中硬盤發(fā)生故障非常頻繁,下面云備份服務商blackblaze的硬盤年平均故障率統(tǒng)計,一共統(tǒng)計了82516塊硬盤在2013年~2017年間的故障率。
在實際經(jīng)驗中,我們也會經(jīng)常碰到服務器、機柜、交換機、站點的故障。那么多故障,我們需要不同的技術(shù)來應對,下面我們來看不同技術(shù)的優(yōu)缺點。
4抗造技術(shù)
4.1 單機RAID
一般服務器上都會自帶RAID卡,支持RAID1、10、5、6等。RAID技術(shù)通過數(shù)據(jù)冗余保證在1~N塊硬盤故障時,數(shù)據(jù)不丟失,并且同時可以訪問到數(shù)據(jù)。
比如RAID5支持同時壞1塊硬盤,RAID6支持同時壞2塊硬盤。
但是RAID的缺點是:
●僅支持單機。假如服務器宕機,RAID技術(shù)也無力回天。
●數(shù)據(jù)恢復速度慢,受限于單個硬盤的寫速度,導致RAID組要恢復健康狀態(tài)需要10個小時以上,特別在越來越大的硬盤容量的情況下。在數(shù)據(jù)恢復過程中,容易發(fā)生二次故障,導致數(shù)據(jù)丟失。
● RAID組所包含的硬盤數(shù)量太少,不能并行發(fā)揮所有硬盤的性能。
●需要單獨的Spare熱備盤,平時會造成資源浪費。
4.2 多機網(wǎng)絡多副本
因為單機RAID的缺點,隨著萬兆以太網(wǎng)的普及,多機網(wǎng)絡多副本技術(shù)隨之產(chǎn)生,廣泛被各種分布式存儲軟件使用。
多機網(wǎng)絡多副本的優(yōu)點是恢復速度快,并行發(fā)揮所有硬盤的性能,另外當單臺服務器宕機了,不影響數(shù)據(jù)的可用性和可靠性,其他服務器繼續(xù)提供服務。缺點是存儲容量利用率低,可用容量和裸容量比例是1:3。
4.3 多機網(wǎng)絡EC糾刪碼
為了解決多副本的存儲容量利用率低的問題,大家開發(fā)了網(wǎng)絡EC糾刪碼,也被廣泛應用在分布式存儲上,比如HDFS的EC糾刪碼。
它優(yōu)點是可用容量和裸容量比例是1:1.3~1.5,大文件寫吞吐量高,缺點是寫操作延遲高。
4.4 機架柜列故障域隔離
SDS還可以定義數(shù)據(jù)分布策略,這樣可以防止機架柜列掉電造成的影響。
假如多副本分布在不同的機架上,則任一機架掉電,不影響數(shù)據(jù)可靠性和可用性。
假如多副本分布在不同的柜列上,則任一柜列掉電,不影響數(shù)據(jù)可靠性和可用性。
4.5 網(wǎng)絡冗余
SDS通過網(wǎng)口鏈路聚合和交換機堆疊技術(shù),提供網(wǎng)絡冗余度,避免單個網(wǎng)口和交換機的故障造成數(shù)據(jù)不可訪問的影響,提高數(shù)據(jù)可用性。
4.6 多站點多副本
為了滿足存儲系統(tǒng)兩地三中心、多站點多活的需求,目前部分SDS產(chǎn)品的對象存儲服務支持多站點多副本技術(shù),數(shù)據(jù)三個副本同時存儲在三個站點上,可以多站點同時訪問,支持多活技術(shù)。當任意一個站點發(fā)生故障時,不影響其他站點的數(shù)據(jù)訪問和寫入。
4.7 多站點EC糾刪碼
多站點EC糾刪碼技術(shù)可以提高存儲容量利用率,支持在1個站點故障的情況下,數(shù)據(jù)能夠正常訪問和讀寫,適用于冷數(shù)據(jù)和歸檔場景。
4.8 Cloud Sync(云備份)
不是所有場景都有條件建設多站點,因此SDS的Cloud Sync(云備份)功能應運而生,可以把數(shù)據(jù)異步復制到公有云和異地私有云上,避免額外建設,降低成本。當本地存儲集群發(fā)生故障時,數(shù)據(jù)可以快速恢復和訪問。
具體應用場景如下所示:
4.9 智能故障自愈
SDS可以采用先進的數(shù)據(jù)分布算法,在出現(xiàn)硬盤故障和服務器故障時可以進行數(shù)據(jù)遷移和重平衡,故障硬盤會被踢出存儲集群,不再工作。數(shù)據(jù)遷移完成后,SDS存儲集群恢復正常,無須人工干預。因當出現(xiàn)硬盤故障時,可以不用處理,后期再批量更換硬盤,減少運維成本。
4.10 對象存儲超時刪除
對于特定場景,數(shù)據(jù)保存一定周期之后需要刪除,以便釋放空間,SDS的對象存儲服務具有超時刪除功能。下圖是10天后刪除數(shù)據(jù)的設置。
4.11 監(jiān)控告警平臺
通過監(jiān)控告警平臺,可以把不同級別的告警信息通過郵件和短信發(fā)送給管理員,讓管理員快速知曉存儲集群的健康狀態(tài),并采取適當?shù)男袆印?/p>
5 技術(shù)對比
下表對比了不同技術(shù)的抗造指標,我們要根據(jù)實際場景進行選擇和組合,權(quán)衡數(shù)據(jù)可靠性和成本。
-
服務器
+關(guān)注
關(guān)注
12文章
8880瀏覽量
84990 -
SDS
+關(guān)注
關(guān)注
0文章
48瀏覽量
15660 -
軟件定義
+關(guān)注
關(guān)注
0文章
76瀏覽量
13662
發(fā)布評論請先 登錄
相關(guān)推薦
評論