OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)技術(shù)白皮書_第1頁
OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)技術(shù)白皮書_第2頁
OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)技術(shù)白皮書_第3頁
OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)技術(shù)白皮書_第4頁
OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)技術(shù)白皮書_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name 華為OceanStor Dorado 全閃存存儲(chǔ)系統(tǒng) DOCPROPERTY DocumentName 產(chǎn)品技術(shù)白皮書目 錄 TOC h z t 標(biāo)題 1,1,標(biāo)題 2,2,標(biāo)題 3,3, 標(biāo)題 4,4, 標(biāo)題 5,5, 標(biāo)題 7,1, 標(biāo)題 8,2, 標(biāo)題 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,App

2、endix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc520453331 1 摘要 PAGEREF _Toc520453331 h 1 HYPERLINK l _Toc520453332 2 簡(jiǎn)介 PAGEREF _Toc520453332 h 2 HYPERLINK l _Toc520453333 2.1 產(chǎn)品系列 PAGEREF _Toc520453333 h 2 HYPERLI

3、NK l _Toc520453334 2.2 客戶價(jià)值 PAGEREF _Toc520453334 h 3 HYPERLINK l _Toc520453335 3 系統(tǒng)架構(gòu) PAGEREF _Toc520453335 h 5 HYPERLINK l _Toc520453336 3.1 相關(guān)概念 PAGEREF _Toc520453336 h 5 HYPERLINK l _Toc520453337 3.1.1 控制框 PAGEREF _Toc520453337 h 5 HYPERLINK l _Toc520453338 3.1.2 控制器 PAGEREF _Toc520453338 h 7 HY

4、PERLINK l _Toc520453339 3.1.3 硬盤框 PAGEREF _Toc520453339 h 7 HYPERLINK l _Toc520453340 3.1.4 硬盤域 PAGEREF _Toc520453340 h 7 HYPERLINK l _Toc520453341 3.1.5 存儲(chǔ)池 PAGEREF _Toc520453341 h 9 HYPERLINK l _Toc520453342 3.1.6 RAID技術(shù) PAGEREF _Toc520453342 h 10 HYPERLINK l _Toc520453343 3.2 硬件架構(gòu) PAGEREF _Toc520

5、453343 h 14 HYPERLINK l _Toc520453344 3.2.1 設(shè)備形態(tài) PAGEREF _Toc520453344 h 14 HYPERLINK l _Toc520453345 3.2.2 自研HSSD PAGEREF _Toc520453345 h 16 HYPERLINK l _Toc520453346 盤內(nèi)磨損均衡 PAGEREF _Toc520453346 h 16 HYPERLINK l _Toc520453347 壞塊管理 PAGEREF _Toc520453347 h 16 HYPERLINK l _Toc520453348 數(shù)據(jù)冗余保護(hù) PAGEREF

6、 _Toc520453348 h 16 HYPERLINK l _Toc520453349 .1 后臺(tái)巡檢 PAGEREF _Toc520453349 h 17 HYPERLINK l _Toc520453350 .2 支持SAS和NVMe協(xié)議 PAGEREF _Toc520453350 h 17 HYPERLINK l _Toc520453351 3.2.3 自研芯片 PAGEREF _Toc520453351 h 18 HYPERLINK l _Toc520453352 3.2.4 硬件擴(kuò)展能力 PAGEREF _Toc520453352 h 19 HYPERLINK l _Toc5204

7、53353 3.2.5 硬件架構(gòu)特征 PAGEREF _Toc520453353 h 23 HYPERLINK l _Toc520453354 3.3 軟件架構(gòu) PAGEREF _Toc520453354 h 23 HYPERLINK l _Toc520453355 3.3.1 FlashLinkTM PAGEREF _Toc520453355 h 24 HYPERLINK l _Toc520453356 冷熱數(shù)據(jù)分流 PAGEREF _Toc520453356 h 24 HYPERLINK l _Toc520453357 端到端IO優(yōu)先級(jí) PAGEREF _Toc520453357 h 25

8、 HYPERLINK l _Toc520453358 ROW滿分條寫 PAGEREF _Toc520453358 h 25 HYPERLINK l _Toc520453359 全局垃圾回收 PAGEREF _Toc520453359 h 26 HYPERLINK l _Toc520453360 全局磨損均衡/反磨損均衡 PAGEREF _Toc520453360 h 27 HYPERLINK l _Toc520453361 3.3.2 IO流程 PAGEREF _Toc520453361 h 28 HYPERLINK l _Toc520453362 寫流程 PAGEREF _Toc520453

9、362 h 28 HYPERLINK l _Toc520453363 讀流程 PAGEREF _Toc520453363 h 30 HYPERLINK l _Toc520453364 3.3.3 豐富軟件特性 PAGEREF _Toc520453364 h 31 HYPERLINK l _Toc520453365 3.3.4 軟件架構(gòu)特征 PAGEREF _Toc520453365 h 32 HYPERLINK l _Toc520453366 4 精簡(jiǎn)高效Smart系列特性 PAGEREF _Toc520453366 h 33 HYPERLINK l _Toc520453367 4.1 在線重

10、刪(SmartDedupe) PAGEREF _Toc520453367 h 33 HYPERLINK l _Toc520453368 4.2 在線壓縮(SmartCompression) PAGEREF _Toc520453368 h 34 HYPERLINK l _Toc520453369 4.3 智能精簡(jiǎn)配置(SmartThin) PAGEREF _Toc520453369 h 35 HYPERLINK l _Toc520453370 4.4 智能服務(wù)質(zhì)量控制(SmartQoS) PAGEREF _Toc520453370 h 36 HYPERLINK l _Toc520453371 4

11、.5 異構(gòu)虛擬化(SmartVirtualization) PAGEREF _Toc520453371 h 37 HYPERLINK l _Toc520453372 4.6 智能數(shù)據(jù)遷移(SmartMigration) PAGEREF _Toc520453372 h 38 HYPERLINK l _Toc520453373 5 數(shù)據(jù)保護(hù)Hyper特性 PAGEREF _Toc520453373 h 41 HYPERLINK l _Toc520453374 5.1 快照(HyperSnap) PAGEREF _Toc520453374 h 41 HYPERLINK l _Toc520453375

12、 5.2 克隆(HyperClone) PAGEREF _Toc520453375 h 43 HYPERLINK l _Toc520453376 5.3 遠(yuǎn)程復(fù)制(HyperReplication) PAGEREF _Toc520453376 h 45 HYPERLINK l _Toc520453377 5.3.1 同步遠(yuǎn)程復(fù)制 (HyperReplication/S) PAGEREF _Toc520453377 h 45 HYPERLINK l _Toc520453378 5.3.2 異步遠(yuǎn)程復(fù)制 (HyperReplication/A) PAGEREF _Toc520453378 h 48

13、 HYPERLINK l _Toc520453379 5.4 陣列雙活(HyperMetro) PAGEREF _Toc520453379 h 50 HYPERLINK l _Toc520453380 5.5 兩地三中心(3DC) PAGEREF _Toc520453380 h 51 HYPERLINK l _Toc520453381 6 系統(tǒng)安全和數(shù)據(jù)加密 PAGEREF _Toc520453381 h 52 HYPERLINK l _Toc520453382 6.1 系統(tǒng)數(shù)據(jù)加密(Data Encryption) PAGEREF _Toc520453382 h 52 HYPERLINK l

14、 _Toc520453383 6.2 基于角色的訪問控制管理 PAGEREF _Toc520453383 h 54 HYPERLINK l _Toc520453384 7 系統(tǒng)管理及兼容性 PAGEREF _Toc520453384 h 56 HYPERLINK l _Toc520453385 7.1 系統(tǒng)管理 PAGEREF _Toc520453385 h 56 HYPERLINK l _Toc520453386 7.1.1 Device Manager PAGEREF _Toc520453386 h 56 HYPERLINK l _Toc520453387 7.1.2 CLI PAGERE

15、F _Toc520453387 h 56 HYPERLINK l _Toc520453388 7.1.3 Call Home服務(wù) PAGEREF _Toc520453388 h 56 HYPERLINK l _Toc520453389 7.1.4 Restful API PAGEREF _Toc520453389 h 57 HYPERLINK l _Toc520453390 7.1.5 SNMP PAGEREF _Toc520453390 h 57 HYPERLINK l _Toc520453391 7.1.6 SMI-S PAGEREF _Toc520453391 h 57 HYPERLIN

16、K l _Toc520453392 7.1.7 配套工具 PAGEREF _Toc520453392 h 57 HYPERLINK l _Toc520453393 7.2 生態(tài)集成及兼容性 PAGEREF _Toc520453393 h 57 HYPERLINK l _Toc520453394 7.2.1 VVol(Virtual Volumes) PAGEREF _Toc520453394 h 57 HYPERLINK l _Toc520453395 7.2.2 OpenStack集成 PAGEREF _Toc520453395 h 58 HYPERLINK l _Toc520453396

17、7.2.3 虛擬機(jī)環(huán)境插件 PAGEREF _Toc520453396 h 59 HYPERLINK l _Toc520453397 7.2.4 主機(jī)兼容性 PAGEREF _Toc520453397 h 59 HYPERLINK l _Toc520453398 8 最佳實(shí)踐 PAGEREF _Toc520453398 h 61 HYPERLINK l _Toc520453399 9 附錄 PAGEREF _Toc520453399 h 63 HYPERLINK l _Toc520453400 9.1 更多參考信息 PAGEREF _Toc520453400 h 63 HYPERLINK l

18、_Toc520453401 9.2 如何反饋意見 PAGEREF _Toc520453401 h 63 HYPERLINK l _Toc520453402 9.3 縮略語 PAGEREF _Toc520453402 h 64摘要華為公司OceanStor Dorado V3是面向企業(yè)關(guān)鍵業(yè)務(wù)打造的全閃存存儲(chǔ)系統(tǒng),采用專為閃存設(shè)計(jì)的FlashLinkTM 技術(shù),實(shí)現(xiàn)0.5ms穩(wěn)定低時(shí)延;免網(wǎng)關(guān)雙活技術(shù),為客戶提供端到端雙活數(shù)據(jù)中心解決方案,并可平滑升級(jí)到兩地三中心容災(zāi)方案,實(shí)現(xiàn)方案級(jí)99.9999%的可靠性;在線重刪和壓縮技術(shù),提供更多的客戶可用容量,減少TCO。OceanStor Dorado

19、 V3能夠滿足數(shù)據(jù)庫、虛擬桌面 (VDI)、虛擬服務(wù)器架構(gòu) (VSI) 和 SAP HANA等企業(yè)級(jí)應(yīng)用的關(guān)鍵需求,助力金融、制造、運(yùn)營(yíng)商等行業(yè)向全閃存時(shí)代平滑演進(jìn)。本文從產(chǎn)品定位、硬件架構(gòu)、軟件架構(gòu)、特性方面詳細(xì)介紹了OceanStor Dorado V3全閃存存儲(chǔ)系統(tǒng)的關(guān)健技術(shù),以及為客戶帶來的獨(dú)特價(jià)值。簡(jiǎn)介產(chǎn)品系列OceanStor Dorado V3包括Dorado5000 V3 (包括 NVMe和SAS版本)、Dorado6000 V3幾款產(chǎn)品。OceanStor Dorado5000 V3OceanStor Dorado6000 V3詳細(xì)產(chǎn)品規(guī)格信息請(qǐng)參見: HYPERLINK /

20、cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3 /cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3客戶價(jià)值OceanStor Dorado V3 在軟件架構(gòu)上針對(duì)Flash介質(zhì)做了深度優(yōu)化,同時(shí)又集成了華為存儲(chǔ)十幾年的技術(shù)積累和OceanStor OS存儲(chǔ)操作系統(tǒng)的豐富特性,如:快照、克隆、同步/異步復(fù)制,雙活,3DC、QoS、遷移,Thin等,給客戶提供極致性能體驗(yàn)的同時(shí),又提供無與倫比的數(shù)據(jù)保護(hù)能力。OceanStor Dorad

21、o V3通過技術(shù)創(chuàng)新,在以下方面為客戶創(chuàng)造價(jià)值。極致性能在銀行、海關(guān)、證券等極致性能要求場(chǎng)景,Dorado V3能夠提供小于0.5ms的穩(wěn)定時(shí)延和高吞吐量,極大提高客戶的業(yè)務(wù)處理效率以及減少批處理業(yè)務(wù)需要的時(shí)間窗。靈活擴(kuò)展Dorado V3支持Scale-out和Scale-up靈活擴(kuò)展,以滿足客戶對(duì)極致性能和大容量的訴求。針對(duì)極致性能場(chǎng)景,可以采用Scale-out方式增加控制器,IOPS和帶寬能夠隨控制器增加線性增加,低時(shí)延保持不變。針對(duì)大容量需求,可以通過擴(kuò)展磁盤框的方式進(jìn)行Scale-up。穩(wěn)定可靠通過部件、系統(tǒng)、解決方案三級(jí)可靠性設(shè)計(jì)和實(shí)現(xiàn),保證系統(tǒng)的可靠性。作為核心部件的華為自研S

22、SD(HSSD)盤片內(nèi)部實(shí)現(xiàn)了閃存顆粒內(nèi)部(LDPC糾錯(cuò)算法)、閃存顆粒間(閃存顆粒間RAID)的兩級(jí)可靠性方案,實(shí)現(xiàn)芯片級(jí)的失效數(shù)據(jù)保護(hù);智能矩陣式多控架構(gòu)、創(chuàng)新的RAID2.0+及RAID-TP技術(shù)和針對(duì)閃存設(shè)計(jì)的FlashLinkTM等技術(shù),使得系統(tǒng)無單點(diǎn)故障、能夠容忍3盤同時(shí)失效和提升閃存壽命;無網(wǎng)關(guān)雙活,實(shí)現(xiàn)站點(diǎn)發(fā)生事故或者災(zāi)難情況下業(yè)務(wù)RTO=0和RPO=0,業(yè)務(wù)連續(xù)性不受影響。融合高效采用在線全局重刪和壓縮技術(shù),同等可用容量,全閃存節(jié)省75% CAPEX;支持與華為OceanStor V3融合存儲(chǔ)通過遠(yuǎn)程復(fù)制組成容災(zāi)網(wǎng)絡(luò),實(shí)現(xiàn)全閃存陣列與傳統(tǒng)存儲(chǔ)的融合;通過異構(gòu)虛擬化和遠(yuǎn)程復(fù)制,

23、實(shí)現(xiàn)與華為傳統(tǒng)存儲(chǔ)以及第三方陣列的融合。系統(tǒng)架構(gòu)相關(guān)概念控制框OceanStor Dorado V3的控制框(Controller Enclosure,簡(jiǎn)稱CTE)是指包含存儲(chǔ)控制器在內(nèi)的硬件框,負(fù)責(zé)所有存儲(chǔ)業(yè)務(wù)邏輯的處理,提供主機(jī)訪問、設(shè)備管理、數(shù)據(jù)服務(wù)等核心功能。包括:系統(tǒng)插框、控制器、接口模塊、電源、BBU、管理模塊等。Dorado V3系列支持2U、3U、6U三種控制框形態(tài),分別支持盤控一體和盤控分離設(shè)計(jì)。OceanStor Dorado 2U控制框1系統(tǒng)插框2硬盤模塊3電源-BBU模塊4控制器(含接口板)OceanStor Dorado V3 3U控制框1系統(tǒng)插框2BBU模塊3控制器

24、4電源模塊5管理模塊6接口模塊OceanStor Dorado V3 6U控制框1系統(tǒng)插框2控制器3BBU模塊4電源模塊5管理模塊6接口模塊控制器OceanStor Dorado V3控制器是包含CPU、內(nèi)存、主板等硬件的計(jì)算模塊,主要負(fù)責(zé)處理存儲(chǔ)業(yè)務(wù)、接收用戶的配置管理命令、保存配置信息、接入硬盤和保存關(guān)鍵信息到保險(xiǎn)箱硬盤。保險(xiǎn)箱盤分為內(nèi)置和外置兩種保險(xiǎn)箱盤,用于保存存儲(chǔ)系統(tǒng)的數(shù)據(jù)和系統(tǒng)掉電后Cache中的數(shù)據(jù)。每個(gè)控制器內(nèi)置一個(gè)或多個(gè)硬盤,稱為內(nèi)置保險(xiǎn)箱盤。外置保險(xiǎn)箱盤位于控制器外,對(duì)于Dorado5000 V3系列,控制框自帶硬盤模塊中的前4塊硬盤作為保險(xiǎn)箱盤;對(duì)于Dorado6000

25、V3系列,存儲(chǔ)系統(tǒng)中第一個(gè)硬盤框的前4塊硬盤規(guī)劃為保險(xiǎn)箱盤。(具體各型號(hào)保險(xiǎn)箱盤規(guī)格及分區(qū)參考: HYPERLINK /hedex/hdx.do?docid=EDOC1000141860&lang=zh OceanStor Dorado5000 V3, Dorado6000 V3 產(chǎn)品文檔)一個(gè)控制框支持2個(gè)控制器或4個(gè)控制器,兩兩配對(duì)成一個(gè)高可用控制器對(duì)。在單控制器故障的時(shí)候,可以由其配對(duì)的另一個(gè)控制器接管存儲(chǔ)處理業(yè)務(wù),保證系統(tǒng)的高可用性。控制器前端通過IO模塊提供主機(jī)業(yè)務(wù)接入的訪問接口,支持8G/16GFC/10GE/FCoE/56G IB主機(jī)接口。硬盤框OceanStor Dorado

26、V3硬盤框支持25盤位的2.5英寸SAS SSD,包括:系統(tǒng)插框、級(jí)聯(lián)模塊、電源模塊和硬盤模塊,提供2個(gè)SAS3.0級(jí)聯(lián)接口,是系統(tǒng)容量Scale-up的基本單位。硬盤框硬件架構(gòu)1系統(tǒng)插框2硬盤模塊3電源模塊4級(jí)聯(lián)模塊硬盤域硬盤域是由多塊硬盤組合而成,RAID組在硬盤域的范圍內(nèi)選擇成員盤。OceanStor Dorado V3支持創(chuàng)建一個(gè)或者多個(gè)硬盤域,支持跨控制框創(chuàng)建硬盤域(硬盤域最大只能跨2個(gè)控制框創(chuàng)建)。硬盤域跨控制框上圖示例為一個(gè)Dorado V3雙控制框系統(tǒng),可以對(duì)系統(tǒng)的所有硬盤創(chuàng)建一個(gè)硬盤域,也可以對(duì)每個(gè)控制框分別創(chuàng)建一個(gè)硬盤域。硬盤域有熱備策略和加密類型兩個(gè)屬性。熱備策略提供高、

27、低、無三種策略,熱備策略可以在線修改。高:高熱備空間比例,硬盤域會(huì)預(yù)留更多的熱備空間用于硬盤故障時(shí)存儲(chǔ)系統(tǒng)重構(gòu)數(shù)據(jù)。熱備空間的容量隨著硬盤數(shù)量的增加呈非線性增長(zhǎng)。低(默認(rèn)值):低熱備空間比例,硬盤域會(huì)預(yù)留較少(至少保障重構(gòu)一塊硬盤的空間)的熱備空間用于硬盤故障時(shí)存儲(chǔ)系統(tǒng)重構(gòu)數(shù)據(jù)。熱備空間的容量呈非線性增加。無:系統(tǒng)不提供熱備空間。硬盤域熱備空間容量隨硬盤數(shù)量的變化情況(表中列出了200盤以內(nèi)的情況)硬盤數(shù)高熱備策略熱備空間(塊)低熱備策略熱備空間(塊)8121113252265032517547612553126175617620074硬盤域支持普通硬盤域和加密硬盤域兩個(gè)選項(xiàng),此屬性在創(chuàng)建硬盤

28、域時(shí)配置,一旦配置無法更改。普通硬盤域:非加密的普通硬盤可以創(chuàng)建普通硬盤域,加密硬盤也可以創(chuàng)建普通硬盤域作為非加密硬盤,但無法啟用加密功能;加密硬盤域:只能使用加密硬盤創(chuàng)建,并需要配置密管服務(wù)。硬盤域創(chuàng)建示例存儲(chǔ)池存儲(chǔ)池創(chuàng)建于硬盤域中,是存放存儲(chǔ)空間資源的容器,所有應(yīng)用服務(wù)器使用的存儲(chǔ)空間都來自于存儲(chǔ)池。一個(gè)硬盤域中包含一個(gè)存儲(chǔ)池。創(chuàng)建存儲(chǔ)池的時(shí)候,需要指定RAID級(jí)別。存儲(chǔ)池的容量會(huì)默認(rèn)包括選定的硬盤域的所有可用容量。存儲(chǔ)池默認(rèn)RAID策略配置為RAID 6, RAID 6可以滿足絕大部分場(chǎng)景的可靠性要求,同時(shí)可以提供較好的性能和容量利用率。在單盤容量較大的場(chǎng)景下(如8T盤),單盤重構(gòu)時(shí)間很

29、長(zhǎng)會(huì)降低可靠性,此時(shí)使用RAID-TP可以彌補(bǔ)可靠性的降低。創(chuàng)建存儲(chǔ)池RAID技術(shù)OceanStor Dorado V3 RAID技術(shù)采用華為專利EC(Erase-Code)算法,能夠同時(shí)支持RAID 5,RAID 6,RAID-TP,RAID10*。RAID-TP能夠容忍三盤失效,提供更高的可靠性。如有*號(hào)標(biāo)注處規(guī)格要求,請(qǐng)聯(lián)系華為銷售人員。OceanStor Dorado V3 數(shù)據(jù)冗余機(jī)制RAID采用RAID2.0+塊級(jí)虛擬化技術(shù):多個(gè)SSD組成一個(gè)硬盤域;每個(gè)SSD盤被切分成固定大小的Chunk(簡(jiǎn)稱CK,大小為4MB)進(jìn)行邏輯空間管理;來自不同SSD盤的CK按照客戶配置RAID冗余級(jí)

30、別組成Chunk組(CKG)。CKG冗余算法支持3種冗余度配置:RAID 5,采用EC-1算法,每個(gè)校驗(yàn)條帶生成1個(gè)校驗(yàn)數(shù)據(jù);RAID 6,采用EC-2算法,每個(gè)校驗(yàn)條帶生成2個(gè)校驗(yàn)數(shù)據(jù);RAID-TP,采用EC-3算法,每個(gè)校驗(yàn)條帶生成3個(gè)校驗(yàn)數(shù)據(jù);CKG再被劃分為更細(xì)粒度的Grain,通常為8K,為滿分條寫盤的最小粒度,OceanStor Dorado V3 寫盤采用滿分條寫,避免傳統(tǒng)RAID的大小寫導(dǎo)致系統(tǒng)額外開銷。RAID映射流程如下所示:OceanStor Dorado V3 RAID冗余映射圖OceanStor Dorado V3 通過EC算法,RAID組能夠支持更多的成員盤數(shù),能

31、夠獲取更高的空間利用率。EC算法支持的RAID利用率RAID級(jí)別EC算法推薦的成員盤數(shù)RAID利用率傳統(tǒng)算法推薦成員盤數(shù)RAID利用率RAID 522+195.6%7+187.5%RAID 621+291.3%14+287.5%RAID-TP20+386.9%不支持NA當(dāng)發(fā)生硬盤故障或者長(zhǎng)時(shí)間拔出時(shí),該硬盤上的Chunk將通過所在的CKG進(jìn)行RAID重構(gòu)。具體描述如下:硬盤故障,導(dǎo)致該硬盤上的Chunk不可用;故障Chunk所在的CKG處于RAID降級(jí)狀態(tài);系統(tǒng)從存儲(chǔ)池中分配空余的CK用于數(shù)據(jù)修復(fù);系統(tǒng)根據(jù)存儲(chǔ)池的RAID級(jí)別,利用校驗(yàn)列和未損壞的數(shù)據(jù)列,計(jì)算出損壞的數(shù)據(jù)塊寫到空閑的CK中;由

32、于故障硬盤導(dǎo)致多個(gè)Chunk不可用,多個(gè)chuck又分布在多個(gè)CKG中,多個(gè)CKG將同時(shí)啟動(dòng)重構(gòu),而新分配的Chunk也是分布在多個(gè)硬盤中,所以重構(gòu)過程是故障硬盤所在的硬盤域內(nèi)所有硬盤都可能參與重構(gòu),充分利用了系統(tǒng)所有硬盤的IO能力,可以極大的提升數(shù)據(jù)重構(gòu)速度,縮短數(shù)據(jù)恢復(fù)時(shí)間。Dorado V3 RAID重構(gòu)采用動(dòng)態(tài)RAID重構(gòu),并支持兩種重構(gòu)方式:普通重構(gòu)和縮列重構(gòu),系統(tǒng)自動(dòng)選擇重構(gòu)方式,保證各種場(chǎng)景下RAID冗余度不降低,維持高可靠。普通重構(gòu)通過將恢復(fù)數(shù)據(jù)寫入新分配CK的重構(gòu)稱為普通重構(gòu),重構(gòu)前后RAID成員列數(shù)保持不變。RAID成員列數(shù)為M+N(M為數(shù)據(jù)列數(shù),N為校驗(yàn)列數(shù)),如果硬盤域

33、中狀態(tài)正常的成員盤數(shù)大于等于M+N,則執(zhí)行普通重構(gòu)。重構(gòu)過程中,對(duì)故障的CKG,系統(tǒng)選擇空閑的CK替換故障的CK,然后進(jìn)行數(shù)據(jù)重構(gòu)。如下圖所示,D0、D1、D2、P、Q組成CKG,當(dāng)disk2發(fā)生故障,那么從disk5中選擇一個(gè)CK(D2_new)替換disk2中的D2,把D0、D1、D2_new、P、Q一起組成CKG,把D2中的數(shù)據(jù)重構(gòu)到D2_new中;普通重構(gòu)完成后,所有的數(shù)據(jù)保持RAID成員盤數(shù)不變,冗余級(jí)別不變。普通重構(gòu)示意圖縮列重構(gòu)當(dāng)硬盤域可用成員盤數(shù)小于RAID成員盤數(shù)時(shí),系統(tǒng)將采用縮列重構(gòu)。縮列重構(gòu)和普通重構(gòu)不同的地方是,由于硬盤域總的可用硬盤小于RAID成員盤數(shù),縮列重構(gòu)時(shí)保持

34、N(校驗(yàn)列)不變,減少M(fèi)(數(shù)據(jù)列)的方式進(jìn)行重構(gòu),重構(gòu)前后RAID校驗(yàn)列數(shù)不變,數(shù)據(jù)列數(shù)變少。發(fā)生縮列重構(gòu)時(shí)候,故障CK的數(shù)據(jù),會(huì)重新寫入到新的CKG上,RAID列數(shù)將減少(如果系統(tǒng)只有M+N-1塊盤,那么新的CKG就是M-1+N)。未故障的數(shù)據(jù)列(M-1),加上新選擇的P、Q列,組成新的CKG,數(shù)據(jù)列保持不變,重新計(jì)算P、Q。如下圖所示,以6塊可用盤(4+2)為例,disk2發(fā)生故障,那么CKG0中的數(shù)據(jù)D2會(huì)當(dāng)做新數(shù)據(jù)寫到新的CKG1上(圖中D2),RAID列數(shù)則為3+2;原CKG0上的數(shù)據(jù)D0、D1、D3則重新計(jì)算P、Q組成3+2的新CKG0。縮列重構(gòu)完成后,RAID組成員盤數(shù)減少,但是

35、RAID冗余級(jí)別不變。縮列重構(gòu)示意圖RAID列數(shù)是根據(jù)硬盤域的硬盤數(shù)由系統(tǒng)自動(dòng)調(diào)整。OceanStor Dorado V3在選擇RAID列數(shù)時(shí)是綜合考慮了容量的利用率,RAID可靠性和重構(gòu)速率等因素。硬盤域中硬盤數(shù)與RAID列數(shù)的對(duì)應(yīng)關(guān)系如下表:RAID列數(shù)與硬盤域硬盤數(shù)對(duì)應(yīng)表硬盤域硬盤數(shù)RAID列數(shù)高熱備策略熱備空間X(812)X-11X(1325)X-22X(2627)X-33X(X27)25大于等于3RAID列數(shù)M+N遵循如下原則:當(dāng)硬盤域內(nèi)故障的硬盤數(shù)小于等于高熱備策略熱備空間內(nèi)的盤數(shù),系統(tǒng)均不應(yīng)引起縮列重構(gòu)。盡量保證較高的容量利用率。M+N不大于25。當(dāng)盤數(shù)小于13盤時(shí),熱備空間為1

36、個(gè)盤的容量,RAID列數(shù)M+N為X-1,優(yōu)先保證了系統(tǒng)容量利用率。當(dāng)盤數(shù)大于等于13盤小于25盤時(shí),高熱備空間2個(gè)盤的容量,RAID列數(shù)M+N為X-2,優(yōu)先保證系統(tǒng)在損壞多塊硬盤時(shí)盡量避免產(chǎn)生縮列重構(gòu)。當(dāng)盤數(shù)在2627盤之間時(shí),此時(shí)參照表3-1,高熱備策略的情況下,系統(tǒng)是有3塊盤的空間作為熱備空間。由于熱備空間是系統(tǒng)設(shè)計(jì)的允許的壞盤數(shù),在這個(gè)范圍內(nèi)的壞盤(這里指的不是同時(shí)損壞的情況)均應(yīng)視為正常故障場(chǎng)景。此時(shí)RAID列數(shù)選擇為X-3,是為了保證客戶當(dāng)系統(tǒng)先后故障達(dá)3塊盤時(shí),系統(tǒng)不啟動(dòng)縮列重構(gòu)。當(dāng)盤數(shù)大于27盤后,系統(tǒng)采用最大M+N為25,既保證了較好的容量利用率又避免M+N數(shù)值太大時(shí)RAID重

37、構(gòu)而引起的讀放大過程。比如采用30+2的RAID算法,那么損壞一塊盤時(shí),故障CKG中每重構(gòu)一個(gè)CK都需要讀取另外30個(gè)盤的CK,產(chǎn)生了較大的讀放大,因此系統(tǒng)設(shè)計(jì)最大M+N為25。系統(tǒng)擴(kuò)容時(shí),RAID策略中的M+N將隨著盤數(shù)的增加而增加。所有新寫入的數(shù)據(jù)(包括垃圾回收產(chǎn)生的寫入數(shù)據(jù)),都將采用新的M+N的方式來寫入。原有數(shù)據(jù)保持原來的RAID列數(shù)不變。比如,系統(tǒng)硬盤域內(nèi)原有15塊硬盤,采用的RAID策略為RAID6,對(duì)照表3-3那么M+N為11+2,如果客戶擴(kuò)容至25塊盤,那么新數(shù)據(jù)寫入為21+2,而原來的數(shù)據(jù)保持11+2不變。當(dāng)系統(tǒng)啟動(dòng)垃圾回收時(shí),會(huì)把11+2中的有效CK寫入到21+2中,原先

38、11+2的CKG將會(huì)被存儲(chǔ)池回收。OceanStor Dorado V3數(shù)據(jù)冗余和恢復(fù)機(jī)制優(yōu)勢(shì)如下:快速重構(gòu):硬盤域所有盤參與重構(gòu)。根據(jù)實(shí)測(cè)數(shù)據(jù)OceanStor Dorado V3 1TB數(shù)據(jù)不帶業(yè)務(wù)重構(gòu)只需要30min可以完成,而傳統(tǒng)RAID重構(gòu)1TB數(shù)據(jù)的時(shí)間超過2小時(shí)。RAID保護(hù)機(jī)制靈活,可靠性高:OceanStor Dorado V3支持3種不同級(jí)別的RAID冗余機(jī)制,用戶可以根據(jù)不同業(yè)務(wù)場(chǎng)景靈活選擇,對(duì)于可靠性要求高場(chǎng)景,RAID-TP可以提供同時(shí)故障3盤可靠性保障。支持智能選擇RAID成員盤策略:在系統(tǒng)發(fā)生單盤持續(xù)故障場(chǎng)景,通過智能縮減RAID成員盤機(jī)制以及縮列重構(gòu),保證新寫入

39、的數(shù)據(jù)還是可以保持原來的冗余度級(jí)別,不會(huì)因此導(dǎo)致數(shù)據(jù)降級(jí)寫,降低數(shù)據(jù)數(shù)據(jù)保護(hù)可靠性。避免傳統(tǒng)RAID的Write Hole導(dǎo)致數(shù)據(jù)不一致:OceanStor Dorado V3采用滿分條追加寫的方式,避免傳統(tǒng)RAID 由于Write Hole問題而引入的數(shù)據(jù)不一致問題。硬件架構(gòu)OceanStor Dorado V3系列存儲(chǔ)系統(tǒng)采用智能矩陣式多控架構(gòu),以控制框?yàn)閱挝粰M向擴(kuò)擴(kuò)展,達(dá)到性能和容量的線性增長(zhǎng)。單個(gè)控制框采用雙控冗余架構(gòu),雙控間采用板載PCIE3.0實(shí)現(xiàn)雙控緩存鏡像通道,多控制框之間通過PCIe3.0交換機(jī)實(shí)現(xiàn)Scale-out。后端硬盤框擴(kuò)展采用SAS3.0實(shí)現(xiàn)硬盤框的Scale-up

40、。控制框內(nèi)硬盤通過雙端口連接到兩個(gè)控制器,支持SAS接口的SSD和NVMe接口的SSD兩種類型硬盤。通過BBU(Backup Battery Unit),在系統(tǒng)掉電時(shí)把cache中的緩存數(shù)據(jù)持久化到保險(xiǎn)箱盤上實(shí)現(xiàn)緩存數(shù)據(jù)的保護(hù)和系統(tǒng)掉電后的數(shù)據(jù)一致性。主機(jī)接口采用華為自主研發(fā)的SmartIO卡支持16GFC、10GE/FCoE接口的融合,同時(shí)支持56G的IB接口。存儲(chǔ)智能矩陣式多控架構(gòu)設(shè)備形態(tài)OceanStor Dorado V3系列包含OceanStor Dorado5000 V3和OceanStor Dorado6000 V3二種產(chǎn)品形態(tài)。OceanStor Dorado V3產(chǎn)品形態(tài)產(chǎn)品

41、型號(hào)控制框形態(tài)控制器數(shù)/控制框硬盤類型Dorado5000 V3盤控一體(2U)2NVMe/SASDorado6000 V3控制框和硬盤框獨(dú)立架構(gòu)(3U)2SASOceanStor Dorado5000 V3采用盤控一體,實(shí)現(xiàn)高密度的性能和容量。控制框?yàn)?U背板互聯(lián)的雙控架構(gòu),硬盤有NVMe接口和SAS接口兩種類型。NVMe版本后端通過PCIe交換芯片擴(kuò)展,連接到25個(gè)2.5英寸雙端口NVMe SSD;SAS版本后端通過SAS交換芯片擴(kuò)展,連接到25個(gè)2.5英寸雙端口SAS SSD。OceanStor Dorado5000 V3 NVMe 設(shè)備架構(gòu)圖OceanStor Dorado5000 V

42、3 SAS 設(shè)備架構(gòu)圖OceanStor Dorado6000 V3均采用控制框和硬盤框分離的架構(gòu),控制框?yàn)?U背板互聯(lián)的雙控架構(gòu),可實(shí)現(xiàn)靈活的Scale-out和Scale-up的擴(kuò)展。控制框內(nèi)的控制器通過背板上的PCIE3.0通道互聯(lián),跨控制框通過PCIE3.0交換機(jī)實(shí)現(xiàn)Scale-out。通過SAS3.0支持硬盤框的擴(kuò)展以實(shí)現(xiàn)容量的Scale-up。自研HSSDOceanStor Dorado V3采用自主研發(fā)的SSD(HSSD),通過存儲(chǔ)軟件和HSSD盤的深度配合,可以發(fā)揮Dorado V3全閃存系統(tǒng)的極致性能。SSD主要由控制單元和存儲(chǔ)單元(當(dāng)前主要是FLASH閃存顆粒)組成,控制單

43、元包括SSD控制器、主機(jī)接口、DRAM等,存儲(chǔ)單元主要是NAND FLASH顆粒。NAND FLASH內(nèi)部存儲(chǔ)讀寫的基本單元為Block和Page。Block:能夠執(zhí)行擦除操作的最小單元,通常由多個(gè)Page組成;Page:能夠執(zhí)行編程和讀操作的最小單元,通常大小為4KB/8KB/16KB等。對(duì)NAND FLASH讀寫數(shù)據(jù)的操作主要涉及擦除(Erase)、編程(Program)和讀(Read),其中編程和讀的基本操作單位是Page,擦除的基本操作單位是Block。在寫入一個(gè)Page之前,必須要擦除這個(gè)Page所在的整個(gè)Block。因此在寫入某個(gè)Page時(shí),需要把Block中其他有效的數(shù)據(jù)拷貝到新

44、的存儲(chǔ)空間,從而把原先的整個(gè)Block擦除,這一過程稱為垃圾回收(Garbage Collection,簡(jiǎn)稱GC)。每一次對(duì)Block的編程寫入和擦除稱為一次P/E(Program/Erase)。不同于機(jī)械硬盤HDD,SSD盤中對(duì)每個(gè)Block的擦寫次數(shù)是有限制的。如果某些Block的擦寫次數(shù)太多,將會(huì)導(dǎo)致該Block不可用。針對(duì)SSD的這些特點(diǎn),華為自研的HSSD盤采用了多項(xiàng)關(guān)鍵技術(shù)來保證SSD的可靠性和性能。盤內(nèi)磨損均衡磨損均衡是指SSD控制器通過對(duì)NAND Flash中Block的P/E次數(shù)進(jìn)行監(jiān)控,通過一定的軟件算法使所有Block的P/E次數(shù)比較平均,防止單個(gè)Block因過度擦寫而導(dǎo)

45、致失效,延長(zhǎng)NAND FLASH整體的使用壽命。華為HSSD采用的磨損均衡分為動(dòng)態(tài)磨損均衡和靜態(tài)磨損均衡。動(dòng)態(tài)磨損均衡是指在主機(jī)數(shù)據(jù)寫入的時(shí)候,優(yōu)先挑選磨損較小的Block使用,這樣保證P/E消耗平均分布;靜態(tài)磨損均衡是指盤片定期在整個(gè)盤片的范圍內(nèi)尋找P/E消耗較少的Block并回收其上的有效數(shù)據(jù),從而使得保存冷數(shù)據(jù)的Block也參與到磨損均衡的循環(huán)中。HSSD通過這2種方案的結(jié)合來保證全盤磨損均衡。壞塊管理NAND FLASH芯片在制造和使用過程中會(huì)逐漸出現(xiàn)一些不符合要求的存儲(chǔ)單元,此類Block將被標(biāo)志為壞塊。HSSD根據(jù)大量的實(shí)驗(yàn)數(shù)據(jù)和應(yīng)用場(chǎng)景確定了壞塊的判斷標(biāo)準(zhǔn),該標(biāo)準(zhǔn)會(huì)根據(jù)NAND

46、FLASH的擦寫次數(shù),錯(cuò)誤類型,發(fā)生的頻率等因素來判斷Block是否為壞塊。如果出現(xiàn)壞塊,則通過NAND FLASH間XOR冗余校驗(yàn)數(shù)據(jù)來計(jì)算出壞塊上的數(shù)據(jù),并將數(shù)據(jù)恢復(fù)到新的可用Block上。在一個(gè)SSD生命周期內(nèi),盤片大概會(huì)出現(xiàn)1.5%左右的壞塊,HSSD在盤片內(nèi)部預(yù)留了空間用作壞塊替換,確保在生命周期內(nèi)可能出現(xiàn)的壞塊可以及時(shí)被替換,保障SSD上的數(shù)據(jù)安全可靠。數(shù)據(jù)冗余保護(hù)由于SSD在使用過程中可能會(huì)出現(xiàn)數(shù)據(jù)位翻轉(zhuǎn)和跳變,HSSD采用冗余校驗(yàn)對(duì)用戶數(shù)據(jù)進(jìn)行多維度的保護(hù)。數(shù)據(jù)在SSD的DRAM中使用了ECC和CRC校驗(yàn)來防止數(shù)據(jù)跳變和篡改;數(shù)據(jù)在NAND FLASH中使用了LDPC和CRC校

47、驗(yàn)來保護(hù)Page上的數(shù)據(jù);而在不同的NAND FLASH之間則采用了XOR冗余進(jìn)行保護(hù)以防止顆粒失效導(dǎo)致的數(shù)據(jù)丟失。多維度數(shù)據(jù)冗余保護(hù)LDPC即低密度奇偶校驗(yàn)碼(Low Density Parity Check Code),是通過校驗(yàn)矩陣定義的一類線性碼,主要用于數(shù)據(jù)校驗(yàn)和糾錯(cuò),廣泛應(yīng)用于無線通信、衛(wèi)星數(shù)字傳輸?shù)阮I(lǐng)域。在數(shù)據(jù)寫入NAND FLASH的Page時(shí),計(jì)算出數(shù)據(jù)的LDPC校驗(yàn)信息一起寫入到Page中;在從Page中讀取數(shù)據(jù)的時(shí)候通過LDPC進(jìn)行校驗(yàn)和糾錯(cuò)。HSSD盤片還通過閃存顆粒間內(nèi)置XOR異或引擎對(duì)用戶數(shù)據(jù)進(jìn)行冗余保護(hù),當(dāng)Flash顆粒出現(xiàn)物理故障(頁失效、塊失效、DIE失效甚至

48、顆粒失效)時(shí),采用校驗(yàn)數(shù)據(jù)塊對(duì)故障塊上的用戶數(shù)據(jù)進(jìn)行恢復(fù),確保用戶數(shù)據(jù)不丟失。后臺(tái)巡檢NAND FLASH上的數(shù)據(jù)會(huì)由于存放時(shí)間過長(zhǎng),讀干擾、寫干擾、隨機(jī)失效等原因?qū)е聰?shù)據(jù)發(fā)生錯(cuò)誤。HSSD會(huì)周期性的讀取NAND FLASH上的數(shù)據(jù),識(shí)別數(shù)據(jù)跳變情況,對(duì)于出現(xiàn)高比特位跳變的數(shù)據(jù)及時(shí)讀取并寫入到新的Page。通過這一后臺(tái)巡檢過程可以提前識(shí)別出現(xiàn)的風(fēng)險(xiǎn)并進(jìn)行處理,能有效防止這些錯(cuò)誤導(dǎo)致的數(shù)據(jù)丟失,提高數(shù)據(jù)的安全性和可靠性。支持SAS和NVMe協(xié)議華為自主研發(fā)的HSSD支持SAS和NVMe(Non-Volatile Memory Express)接口。NVMe協(xié)議相對(duì)傳統(tǒng)的SAS協(xié)議更為簡(jiǎn)潔高效:從

49、軟件棧來看,去掉了SCSI層,協(xié)議交互次數(shù)減少;從硬件傳輸路徑來看,無需SAS控制器、SAS Expander,直接與CPU通過PCIe總線連接,實(shí)現(xiàn)更低的時(shí)延。同時(shí)NVMe可以支持更大的并發(fā)和隊(duì)列深度(64K個(gè)隊(duì)列,每隊(duì)列深度可達(dá)64K),充分發(fā)掘SSD的性能。華為自研的NVMe接口的SSD通過多年在閃存技術(shù)方面的積累,能夠支持雙端口,熱插拔能力,有效的提升了系統(tǒng)的性能、可靠性和可維護(hù)性。NVMe盤片與SAS盤片傳輸路徑對(duì)比NVMe SSD寫請(qǐng)求數(shù)據(jù)間通信次數(shù)相比SAS SSD從4次減少到2次。如下圖所示:SAS:在SCSI(SAS后端)協(xié)議會(huì)通過4次協(xié)議交互的步驟才能完成一次寫操作;NVM

50、e:在NVMe協(xié)議只需要2次協(xié)議交互就能完成一次寫操作。NVMe協(xié)議與SAS協(xié)議交互流程對(duì)比 自研芯片華為通過在芯片領(lǐng)域不斷的積累和持續(xù)投入,自主開發(fā)了SSD盤片控制器芯片、前端接口芯片(SmartIO芯片)、板級(jí)管理 BMC 芯片等存儲(chǔ)系統(tǒng)的一些關(guān)鍵芯片,并應(yīng)用在OceanStor Dorado V3上。SSD控制器芯片:HSSD使用華為自研的新一代控制器,該控制器是一款面向企業(yè)級(jí)應(yīng)用,提供目前業(yè)界標(biāo)準(zhǔn)SAS 3.0X2和PCIe 3.0X4接口,該控制器具備高性能、低功耗特點(diǎn)。針對(duì)介質(zhì)磨損壽命下降的問題,通過增強(qiáng)ECC、內(nèi)置RAID等技術(shù)延長(zhǎng)SSD壽命,滿足企業(yè)級(jí)可靠性應(yīng)用要求;該控制器使

51、用28nm工藝并支持最新的DDR4、SAS 12Gb/s、PCIe 8Gb/s接口速率以及硬件加速FTL等技術(shù),為企業(yè)級(jí)應(yīng)用提供穩(wěn)定、低時(shí)延的性能。SmartIO芯片:Hi182x(IOC)芯片是華為公司在存儲(chǔ)接口芯片領(lǐng)域的第一顆獨(dú)立開發(fā)的芯片,自研并集成10GE/8GFC/16GFC/FCoE多種協(xié)議接口,性能卓越、接口密度高,協(xié)議種類多、端口靈活可變,為存儲(chǔ)量身打造,構(gòu)建獨(dú)特的不可替代的價(jià)值。BMC芯片:Hi1710是一款針對(duì) X86 CPU 平臺(tái)的板級(jí)管理 BMC 芯片,包括A9 CPU,協(xié)處理 8051、傳感器電路、控制電路、接口電路等組件。支持IPMI(Intelligent Pla

52、tform Management Interface)即智能平臺(tái)管理接口標(biāo)準(zhǔn),實(shí)現(xiàn)了對(duì)存儲(chǔ)系統(tǒng)硬件部件的監(jiān)測(cè)和控制,包括:系統(tǒng)上下電控制,控制板監(jiān)控,接口卡監(jiān)控,電源/BBU管理,風(fēng)扇監(jiān)控等主要功能。硬件擴(kuò)展能力OceanStor Dorado V3架構(gòu)設(shè)計(jì)同時(shí)支持Scale-up和Scale-out兩種能力,給用戶提供靈活的擴(kuò)展方式。Dorado V3支持Scale-out和Scale-upScale-upOceanStor Dorado V3 Scale-up能力,控制框和硬盤框之間通過冗余SAS3.0鏈路直連。Dorado6000 V3硬盤框級(jí)聯(lián)采用雙上行組網(wǎng),Dorado5000 V3

53、 SAS級(jí)聯(lián)的硬盤框采用單上行組網(wǎng)方式。雙上行是指硬盤框的兩個(gè)級(jí)聯(lián)口都作為上行口與控制器連接,每個(gè)硬盤框與控制框通過4條SAS線纜進(jìn)行連接。OceanStor Dorado V3 雙上行組網(wǎng)SSD盤片相比傳統(tǒng)磁盤,單盤性能大幅提升。相比傳統(tǒng)的磁盤存儲(chǔ)系統(tǒng),全SSD存儲(chǔ)系統(tǒng)的性能瓶頸點(diǎn)從盤轉(zhuǎn)移到了SAS級(jí)聯(lián)鏈路及控制器CPU處理能力等方面。通過采用雙上行組網(wǎng),消除鏈路瓶頸,提升系統(tǒng)后端帶寬,降低時(shí)延。單上行組網(wǎng),是指硬盤框的一個(gè)級(jí)聯(lián)口作為上行口與控制器連接,每個(gè)硬盤框與控制框通過2條SAS線纜進(jìn)行連接。OceanStor Dorado V3單上行組網(wǎng)Dorado5000 V3 SAS是盤控一體架

54、構(gòu),控制框中的25盤采用雙上行方式,外接的硬盤框采用單上行級(jí)聯(lián)組網(wǎng)實(shí)現(xiàn)容量的擴(kuò)展。在首次部署的時(shí)候,推薦使用相同容量的硬盤。在后續(xù)擴(kuò)容時(shí),新擴(kuò)的硬盤可以是相同容量的盤,也可以擴(kuò)展為更大容量的盤。SSD盤容量會(huì)越來越大,通過支持?jǐn)U展更大容量的盤,客戶后期擴(kuò)容時(shí)可以選擇當(dāng)時(shí)最主流的盤片,降低TCO。Scale-outOceanStor Dorado V3 支持Scale-out能力,一個(gè)控制框內(nèi)部的2個(gè)或者4個(gè)控制器,采用控制框背板上的鏡像通道互聯(lián);控制框之間采用PCIe3.0交換機(jī)進(jìn)行互聯(lián)。每個(gè)控制器通過雙端口的PCIe接口卡,分別接到兩臺(tái)PCIe交換機(jī)上,形成冗余鏈路。任何一個(gè)交換機(jī)、控制器、

55、接口卡、鏈路故障,系統(tǒng)都有冗余能力,保證系統(tǒng)的高可用性。詳細(xì)的組網(wǎng)如下圖所示:OceanStor Dorado V3 Scale-out數(shù)據(jù)網(wǎng)絡(luò)互聯(lián)組網(wǎng)示意圖Scale-out互聯(lián)的管理網(wǎng)絡(luò)采用菊花鏈的方式連接。菊花鏈把控制器和PCIe交換機(jī)一起納入管理,節(jié)省管理網(wǎng)絡(luò)的交換機(jī)端口,為客戶節(jié)省網(wǎng)絡(luò)資源。Scale-out管理網(wǎng)絡(luò)互聯(lián)組網(wǎng)示意圖硬件架構(gòu)特征極致性能:端到端高速架構(gòu),PCIe 3.0總線;SAS 3.0硬盤接口/PCIe 3.0 * 4硬盤接口;16G FC/10GE/FCoE/56G IB主機(jī)接口;高性能自研硬盤NVMe SSD的應(yīng)用,實(shí)現(xiàn)更高的性能,更低的時(shí)延;穩(wěn)定可靠:采用成熟

56、硬件,全冗余硬件架構(gòu)經(jīng)過現(xiàn)網(wǎng)上萬套系統(tǒng)驗(yàn)證,穩(wěn)定可靠。穩(wěn)定可靠的PCIe暴力熱拔插技術(shù),確保系統(tǒng)支持NVMe SSD在線維護(hù)和更換;極致高效:同時(shí)支持Scale-out和Scale-up,控制器和硬盤均可在線擴(kuò)展。模塊化設(shè)計(jì),IO模塊采用可熱插拔設(shè)計(jì),前端、后端接口支持靈活按需配置。軟件架構(gòu)OceanStor DoradoV3采用華為自研的面向SSD設(shè)計(jì)的OceanStor OS存儲(chǔ)軟件,通過特有的FlashLinkTM技術(shù)和豐富的特性為用戶提供高性能、高可靠、高效率的存儲(chǔ)產(chǎn)品。OceanStor Dorado V3軟件架構(gòu)框圖存儲(chǔ)控制器軟件架構(gòu)整體分為管控面(Cluster & Manage

57、ment)和業(yè)務(wù)面。管控面提供系統(tǒng)運(yùn)行的基本環(huán)境,多控Scale-out的管理控制邏輯,以及告警、性能監(jiān)控和用戶操作管理。業(yè)務(wù)面負(fù)責(zé)存儲(chǔ)業(yè)務(wù)IO調(diào)度,實(shí)現(xiàn)數(shù)據(jù)Scale-out能力以及FlashLinkTM技術(shù)中控制器軟件相關(guān)的功能,諸如重刪壓縮、ROW滿分條寫、冷熱數(shù)據(jù)分流、垃圾回收、全局磨損均衡與反磨損均衡等功能。FlashLinkTMFlashLinkTM技術(shù)的核心是通過一系列針對(duì)閃存介質(zhì)的優(yōu)化技術(shù),實(shí)現(xiàn)了存儲(chǔ)控制器和SSD之間的的協(xié)同和聯(lián)動(dòng),在保證可靠性的同時(shí),最大限度的發(fā)揮閃存的性能。FlashLinkTM針對(duì)閃存介質(zhì)特點(diǎn)設(shè)計(jì)的關(guān)鍵技術(shù)主要有:冷熱數(shù)據(jù)分流技術(shù)、端到端IO優(yōu)先級(jí)、RO

58、W滿分條寫,全局垃圾回收以及全局磨損均衡/反均衡等有效的解決了閃存系統(tǒng)中寫放大、垃圾回收給系統(tǒng)帶來的性能抖動(dòng)等問題,保障了OceanStor Dorado V3穩(wěn)定的低時(shí)延和高IOPS。冷熱數(shù)據(jù)分流在SSD的垃圾回收過程中,對(duì)于每次擦除的Block,SSD硬盤期望該Block中所有數(shù)據(jù)都是無效數(shù)據(jù),這樣就可以直接擦除整個(gè)Block,而不用搬移有效數(shù)據(jù),可以減少系統(tǒng)的寫放大。而存儲(chǔ)系統(tǒng)中不同數(shù)據(jù)具備不同的冷熱程度。比如:系統(tǒng)的元數(shù)據(jù)更新頻繁,屬于熱數(shù)據(jù),產(chǎn)生垃圾的概率更高;而用戶數(shù)據(jù)一般修改的頻率要低,屬于冷數(shù)據(jù),產(chǎn)生垃圾的概率要低。FlashLinkTM技術(shù)通過硬盤驅(qū)動(dòng)和控制器軟件配合,在控制

59、器軟件中將修改頻率不同的數(shù)據(jù)(元數(shù)據(jù)、用戶數(shù)據(jù))帶上不同的標(biāo)示發(fā)給SSD,使得冷熱數(shù)據(jù)存放在不同的Block中,從而增加Block中數(shù)據(jù)同時(shí)無效的概率,達(dá)到減少GC過程中搬移有效數(shù)據(jù)的數(shù)據(jù)量,提升SSD的性能及可靠性。冷熱數(shù)據(jù)分流技術(shù)示意圖下圖中紅色代表元數(shù)據(jù),灰色代表用戶數(shù)據(jù)。使用冷熱數(shù)據(jù)分流技術(shù)前,用戶數(shù)據(jù)和元數(shù)據(jù)混合分布在SSD盤片的相同Block上。由于元數(shù)據(jù)變化快,很快成為垃圾數(shù)據(jù),盤片進(jìn)行Block擦除的時(shí)候,就需要把有效的用戶數(shù)據(jù)搬移到新的Block上。使用冷熱數(shù)據(jù)分流技術(shù)后,元數(shù)據(jù)和數(shù)據(jù)分布到不同的Block上。對(duì)元數(shù)據(jù)所在的Block,該Block上的數(shù)據(jù)很快都會(huì)成為垃圾,B

60、lock擦除需要搬移的有效數(shù)據(jù)就很少。冷熱數(shù)據(jù)分流技術(shù)效果示意圖端到端IO優(yōu)先級(jí)OceanStor Dorado V3為保證穩(wěn)定時(shí)延,控制器對(duì)各類IO進(jìn)行了優(yōu)先級(jí)標(biāo)識(shí)。根據(jù)這些標(biāo)識(shí),系統(tǒng)在CPU調(diào)度、資源調(diào)度、排隊(duì)等方面進(jìn)行控制,實(shí)現(xiàn)端到端的優(yōu)先級(jí)保障。如SSD在接收IO時(shí),會(huì)檢查IO的優(yōu)先級(jí)標(biāo)識(shí),并優(yōu)先處理高優(yōu)先級(jí)IO,實(shí)現(xiàn)SSD盤對(duì)高優(yōu)先級(jí)IO的快速響應(yīng)。OceanStor Dorado V3系統(tǒng)把IO分為5類:數(shù)據(jù)讀寫IO,高級(jí)特性IO,重構(gòu)IO,Cache刷盤寫IO,垃圾回收IO,并為這5類IO分別賦予從高到低的優(yōu)先級(jí)(如下圖所示)。通過對(duì)這些IO的優(yōu)先級(jí)控制,從整體上獲得最均衡的內(nèi)外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論