FusionCube 6技術白皮書 (數據庫)_第1頁
FusionCube 6技術白皮書 (數據庫)_第2頁
FusionCube 6技術白皮書 (數據庫)_第3頁
FusionCube 6技術白皮書 (數據庫)_第4頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name FusionCube DOCPROPERTY ProductVersion 6.0 DOCPROPERTY DocumentName 技術白皮書 (數據庫)前言概述本文檔華為FusionCube 6.0版本數據庫基礎設施的產品價值、產品架構、高性能、線性擴展、系統安全以及系統可靠性。讀者對象本文檔主要適用于以下工程師:營銷工程師技術支持工程師維護工程師符號約定在本文中可能出現下列標志,它們所代表的含義如下。符號說明表示如不避免則將會導致死亡或嚴重傷害的具有高等級風險的危害。表示如不

2、避免則可能導致死亡或嚴重傷害的具有中等級風險的危害。表示如不避免則可能導致輕微或中度傷害的具有低等級風險的危害。用于傳遞設備或環境安全警示信息。如不避免則可能會導致設備損壞、數據丟失、設備性能降低或其它不可預知的結果。“須知”不涉及人身傷害。對正文中重點信息的補充說明。“說明”不是安全警示信息,不涉及人身、設備及環境傷害信息。目 錄 TOC h z t 標題 1,1,標題 2,2,標題 3,3, 標題 4,4, 標題 5,5, 標題 7,1, 標題 8,2, 標題 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2

3、,2,Appendix heading 3,3,Appendix heading 4,4,Appendix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc83362492 前言 PAGEREF _Toc83362492 h ii HYPERLINK l _Toc83362493 1 產品概述 PAGEREF _Toc83362493 h 1 HYPERLINK l _Toc8336249

4、4 2 產品價值 PAGEREF _Toc83362494 h 2 HYPERLINK l _Toc83362495 3 產品架構 PAGEREF _Toc83362495 h 3 HYPERLINK l _Toc83362496 3.1 節點架構 PAGEREF _Toc83362496 h 4 HYPERLINK l _Toc83362497 3.2 典型配置 PAGEREF _Toc83362497 h 5 HYPERLINK l _Toc83362498 3.3 組網 PAGEREF _Toc83362498 h 7 HYPERLINK l _Toc83362499 4 分布式存儲 P

5、AGEREF _Toc83362499 h 8 HYPERLINK l _Toc83362500 4.1 架構概述 PAGEREF _Toc83362500 h 9 HYPERLINK l _Toc83362501 4.2 關鍵業務流程 PAGEREF _Toc83362501 h 12 HYPERLINK l _Toc83362502 4.2.1 數據路由 PAGEREF _Toc83362502 h 12 HYPERLINK l _Toc83362503 4.2.2 IO路徑 PAGEREF _Toc83362503 h 13 HYPERLINK l _Toc83362504 4.2.3

6、Cache機制 PAGEREF _Toc83362504 h 15 HYPERLINK l _Toc83362505 4.3 存儲管理 PAGEREF _Toc83362505 h 17 HYPERLINK l _Toc83362506 4.3.1 存儲集群管理 PAGEREF _Toc83362506 h 17 HYPERLINK l _Toc83362507 4.3.2 存儲服務化 PAGEREF _Toc83362507 h 17 HYPERLINK l _Toc83362508 4.4 數據冗余 PAGEREF _Toc83362508 h 18 HYPERLINK l _Toc833

7、62509 4.4.1 多副本 PAGEREF _Toc83362509 h 18 HYPERLINK l _Toc83362510 4.4.2 Erasure Code PAGEREF _Toc83362510 h 18 HYPERLINK l _Toc83362511 4.5 特性介紹 PAGEREF _Toc83362511 h 19 HYPERLINK l _Toc83362512 4.5.1 SCSI/iSCSI塊接口 PAGEREF _Toc83362512 h 19 HYPERLINK l _Toc83362513 4.5.2 精簡配置 PAGEREF _Toc83362513

8、h 21 HYPERLINK l _Toc83362514 4.5.3 重刪壓縮 PAGEREF _Toc83362514 h 22 HYPERLINK l _Toc83362515 4.5.4 快照 PAGEREF _Toc83362515 h 24 HYPERLINK l _Toc83362516 4.5.5 鏈接克隆 PAGEREF _Toc83362516 h 26 HYPERLINK l _Toc83362517 4.5.6 多資源池 PAGEREF _Toc83362517 h 26 HYPERLINK l _Toc83362518 4.5.7 QoS PAGEREF _Toc83

9、362518 h 27 HYPERLINK l _Toc83362519 5 硬件設備平臺 PAGEREF _Toc83362519 h 28 HYPERLINK l _Toc83362520 5.1 機架服務器平臺 PAGEREF _Toc83362520 h 28 HYPERLINK l _Toc83362521 5.1.1 1288H V5機架服務器 PAGEREF _Toc83362521 h 28 HYPERLINK l _Toc83362522 5.1.2 2288H V5機架服務器 PAGEREF _Toc83362522 h 29 HYPERLINK l _Toc8336252

10、3 5.1.3 2488H V5機架服務器 PAGEREF _Toc83362523 h 30 HYPERLINK l _Toc83362524 5.1.4 ARM機架服務器 PAGEREF _Toc83362524 h 31 HYPERLINK l _Toc83362525 5.2 E9000刀片服務器平臺 PAGEREF _Toc83362525 h 32 HYPERLINK l _Toc83362526 5.2.1 E9000機框 PAGEREF _Toc83362526 h 32 HYPERLINK l _Toc83362527 5.2.2 E9000刀片 PAGEREF _Toc83

11、362527 h 33 HYPERLINK l _Toc83362528 5.2.3 高性能交換板 PAGEREF _Toc83362528 h 35 HYPERLINK l _Toc83362529 6 安裝部署和運維管理 PAGEREF _Toc83362529 h 37 HYPERLINK l _Toc83362530 6.1 自動化部署 PAGEREF _Toc83362530 h 37 HYPERLINK l _Toc83362531 6.1.1 FusionCube Builder PAGEREF _Toc83362531 h 37 HYPERLINK l _Toc83362532

12、 6.1.2 系統初始化 PAGEREF _Toc83362532 h 39 HYPERLINK l _Toc83362533 6.1.3 設備自動發現 PAGEREF _Toc83362533 h 40 HYPERLINK l _Toc83362534 6.2 統一運維管理 PAGEREF _Toc83362534 h 41 HYPERLINK l _Toc83362535 6.2.1 一鍵式運維 PAGEREF _Toc83362535 h 42 HYPERLINK l _Toc83362536 6.2.2 Call Home PAGEREF _Toc83362536 h 45 HYPER

13、LINK l _Toc83362537 7 性能和可擴展性 PAGEREF _Toc83362537 h 46 HYPERLINK l _Toc83362538 7.1 系統高性能 PAGEREF _Toc83362538 h 46 HYPERLINK l _Toc83362539 7.1.1 分布式I/O環 PAGEREF _Toc83362539 h 46 HYPERLINK l _Toc83362540 7.1.2 分布式SSD Cache加速 PAGEREF _Toc83362540 h 47 HYPERLINK l _Toc83362541 Read/Write Cache PAGE

14、REF _Toc83362541 h 48 HYPERLINK l _Toc83362542 大塊Pass Throught PAGEREF _Toc83362542 h 50 HYPERLINK l _Toc83362543 7.1.3 硬件加速 PAGEREF _Toc83362543 h 51 HYPERLINK l _Toc83362544 7.2 線性擴展 PAGEREF _Toc83362544 h 52 HYPERLINK l _Toc83362545 7.2.1 存儲平滑擴容 PAGEREF _Toc83362545 h 52 HYPERLINK l _Toc83362546

15、7.2.2 性能線性擴展 PAGEREF _Toc83362546 h 53 HYPERLINK l _Toc83362547 7.2.3 一鍵式擴容 PAGEREF _Toc83362547 h 54 HYPERLINK l _Toc83362548 7.3 FusionCube分布式存儲相對于傳統SAN的性能優勢 PAGEREF _Toc83362548 h 55 HYPERLINK l _Toc83362549 7.3.1 更高的性能 PAGEREF _Toc83362549 h 55 HYPERLINK l _Toc83362550 7.3.2 線性Scale-up/Scale-out

16、 PAGEREF _Toc83362550 h 56 HYPERLINK l _Toc83362551 7.3.3 大池POOL PAGEREF _Toc83362551 h 58 HYPERLINK l _Toc83362552 7.3.4 SSD Cache vs SSD Tier PAGEREF _Toc83362552 h 59 HYPERLINK l _Toc83362553 8 系統可靠性 PAGEREF _Toc83362553 h 61 HYPERLINK l _Toc83362554 8.1 數據可靠性 PAGEREF _Toc83362554 h 61 HYPERLINK

17、l _Toc83362555 8.1.1 塊存儲集群可靠性 PAGEREF _Toc83362555 h 61 HYPERLINK l _Toc83362556 8.1.2 數據一致性 PAGEREF _Toc83362556 h 62 HYPERLINK l _Toc83362557 8.1.3 數據冗余保護 PAGEREF _Toc83362557 h 62 HYPERLINK l _Toc83362558 8.1.4 快速數據重建 PAGEREF _Toc83362558 h 63 HYPERLINK l _Toc83362559 8.2 硬件可靠性 PAGEREF _Toc833625

18、59 h 64 HYPERLINK l _Toc83362560 8.3 管理可靠性 PAGEREF _Toc83362560 h 64 HYPERLINK l _Toc83362561 8.4 系統亞健康增強 PAGEREF _Toc83362561 h 64 HYPERLINK l _Toc83362562 9 系統安全 PAGEREF _Toc83362562 h 69 HYPERLINK l _Toc83362563 9.1 系統安全威脅 PAGEREF _Toc83362563 h 69 HYPERLINK l _Toc83362564 9.2 總體安全框架 PAGEREF _Toc

19、83362564 h 70 HYPERLINK l _Toc83362565 9.2.1 網絡安全 PAGEREF _Toc83362565 h 71 HYPERLINK l _Toc83362566 9.2.2 應用安全 PAGEREF _Toc83362566 h 72 HYPERLINK l _Toc83362567 權限管理 PAGEREF _Toc83362567 h 72 HYPERLINK l _Toc83362568 Web安全 PAGEREF _Toc83362568 h 72 HYPERLINK l _Toc83362569 數據庫加固 PAGEREF _Toc833625

20、69 h 73 HYPERLINK l _Toc83362570 日志管理 PAGEREF _Toc83362570 h 73 HYPERLINK l _Toc83362571 9.2.3 主機安全 PAGEREF _Toc83362571 h 74 HYPERLINK l _Toc83362572 操作系統加固 PAGEREF _Toc83362572 h 74 HYPERLINK l _Toc83362573 9.2.4 數據安全 PAGEREF _Toc83362573 h 74 HYPERLINK l _Toc83362574 數據加密 PAGEREF _Toc83362574 h 7

21、4 HYPERLINK l _Toc83362575 10 兼容性 PAGEREF _Toc83362575 h 76 HYPERLINK l _Toc83362576 10.1 數據庫兼容性 PAGEREF _Toc83362576 h 76產品概述隨著數據不斷增長以及互聯網業務的興起,新興業務的激增、業務數據呈現幾何倍數增加,傳統服務器+存儲的架構已經無法很好滿足業務發展需求,分布式、云化技術應運而生。越來越多的企業采用虛擬化與云計算技術來構建IT系統,提升IT系統的資源利用率以及縮短業務上線周期。但在應用過程中,企業面臨如下挑戰:管理復雜,運維費用仍然維持增長趨勢。安裝部署復雜,硬件來自

22、多廠商,規劃、部署、調優需要豐富的經驗支撐。多廠商設備,售后支持界面多,解決問題慢。系統龐大(不同廠商硬件設備維護、虛擬平臺管理),維護難度大。企業越來越關注成本控制、業務敏捷、風險管控,希望能擁有總成本低、新業務的上線時間快、資源可彈性伸縮、安全可靠、高性能的IT系統。華為FusionCube是一個開放的、可擴展的系統,具有計算/存儲/網絡融合、預集成、高性能、高可靠、高安全、業務自動化快捷部署、統一管理、資源智能彈性伸縮、運維簡單的特點,可幫助客戶業務快速上線,快速實現不同云應用的部署,同時降低維護管理的難度。產品價值FusionCube遵循開放架構標準,集成服務器、分布式存儲及網絡交換機

23、為一體,無需外置存儲設備,并預集成了分布式存儲引擎及管理軟件,資源可按需調配、線性擴展。主要價值如下:融合FusionCube實現了計算、存儲和網絡資源的融合:硬件融合:計算存儲網絡高度集成,線性擴容。管理融合:統一運維管理,提高資源利用率,降低OPEX費用。應用融合:針對應用業務模型,軟硬件深度調優,實現性能提升。簡單FusionCube實現了預集成和預驗證、上電后的設備自動發現、統一的維護管理,端到端的簡化了業務交付:簡化安裝:提供快速安裝工具,一鍵完成系統軟件安裝。簡捷交付:設備上電自動發現,參數自動配置,實現業務快速上線。簡單維護:統一界面管理,故障主動排查,簡化日常運維。優化Fusi

24、onCube通過采用業界領先硬件,以及分布式存儲軟件,為應用提供最優的業務體驗:存儲優化:通過內置分布式存儲,為數據庫應用提供了高并發、高吞吐量的存儲服務。網絡優化:支持100Gbps InfiniBand,提供業界最快的交換網絡開放FusionCube DB是開放的數據庫基礎設施平臺,不綁定特定的上層應用,可以為業界主流數據庫等提供計算、存儲和網絡資源:開放高效的平臺,兼容Oracle RAC、IBM DB2、GuassDB、人大金倉、Mysql、IBM informix等各種主流商用數據庫。產品架構華為FusionCube DB總體架構主要由:硬件平臺、分布式存儲軟件、安裝部署和運維管理平

25、臺構成,可提供Oracle RAC、DB2、GuassDB、人大金倉、Mysql、Informix等數據庫相應的運行資源。華為FusionCube DB總體架構詳細構成如下圖所示:華為FusionCube DB總體架構華為FusionCube DB總體架構組件說明名稱說明FusionCube CenterFusionCube的管理軟件,管理其中的虛擬化資源、硬件資源,提供系統監控管理和運維管理等功能。FusionCube Builder提供現場快速安裝部署FusionCube系統軟件,可用于現場更換虛擬化平臺軟件或者更新版本。FusionStorage使用分布式存儲技術,通過合理有序組織服務器

26、的本地硬盤,提供高性能高可靠的塊存儲業務。硬件平臺服務器使用E9000/X6800/X6000/機架服務器,支持計算、存儲、交換、電源模塊化設計,計算和存儲節點按需混配,計算、存儲都在服務器內部署完成,支持GPU,SSD PCIe等IO加速擴展,支持豐富的交換模塊IB,根據業務要求靈活配置。華為FusionCube DB是華為公司IT產品線的旗艦產品。FusionCube遵循開放架構標準,融合服務器、分布式存儲及網絡交換機為一體,無需外置存儲設備,并預集成了分布式存儲引擎及管理軟件,資源可按需調配、線性擴展。 HYPERLINK l _ZH-CN_TOPIC_0207594089 o 3.1

27、節點架構 HYPERLINK l _ZH-CN_TOPIC_0207594082 o 3.2 典型配置 HYPERLINK l _ZH-CN_TOPIC_0207593979 o 3.3 組網節點架構在FusionCube DB場景下,分布式存儲與數據業務分離部署在不同的節點上,根據節點提供的功能特性差異,又分為管理節點、存儲節點、計算節點和物理數據庫節點。存儲軟件部署在存儲節點OS內,節點的HDD和SSD Cache存儲介質通過FusionCube分布式存儲軟件構造成系統共享的存儲池資源;計算節點上部署存儲軟件塊設備機頭,提供數據庫存儲資源;管理節點上部署FusionCube Center管

28、理平臺,提供系統的管理運維能力,詳細的節點架構如下圖:FusionCube DB場景節點架構FusionCube場景各類節點說明名稱說明部署原則MCNA(管理節點)具有管理功能的節點,其上部署了FusionCube Center管理平臺。必須部署1個。SNA(存儲節點)具有存儲功能的節點。提供FusionCube分布式存儲HDD磁盤以及SSD Cache存儲資源。根據需要部署3個多個。DBN(數據庫節點)物理部署節點,可提供系統數據庫計算資源根據需要部署1個多個。典型配置FusionCube 6.0版本可支持大容量的HDD+SSD Cache混合部署場景以及高性能的全SSD部署場景。具體的場景

29、配置具體如下:混合部署場景節點典型配置:配置項典型配置說明服務器類型V5機架服務器/E9000 V5刀片服務器(停止銷售)根據客戶對機柜空間、磁盤大小、密度、PCIE網卡數量等選擇合適的服務器類型;機架服務器:最靈活,支持各類硬盤類型,預留多個PCIE槽位。但空間占用大;E9000刀片:集成度高,可支持計算、存儲、網絡集成在一個E9000機柜內,但只支持2.5寸HDD以及NVME SSD盤,單節點容量偏小,節點網卡配置固定;CPU/內存配置2*Intel Xeon Gold 5120 Processor8*32GB RDIMM DDR4 2666MHzCPU/內存配置根據客戶的業務規格和配置可

30、以動態調整配置,提供更多的計算資源磁盤2T/4T/6T/8T SATA盤,1.2T/1.8T/2.4T SAS盤操作系統盤默認為2*600GB SAS盤FusionCube分布式存儲要求SATA盤必須要采用3副本或者EC配比為N+2以上的冗余策略,SAS盤可采用2副本、三副本或者EC配比為N+2以上的冗余策略。Cache華為自研NVME SSD V5盤或卡;華為自研SAS SSD V5盤;系統的cache大小可根據客戶業務壓力靈活配置,一般默認配置為2*3200GB NVME SSD V5盤/卡;Cache類型出華為自研的NVME SSD和SAS SSD外,還可支持Intel、三星、鎂光等完成

31、兼容性驗證的SAS/SATA SSD盤。網卡2*GE/10GE+2*10GE+4*100Gb IB(計算)2*GE/10GE+2*100Gb IB(存儲)計算和存儲節點存儲網絡平面默認采用IB網卡;管理平面默認采用GE/10GE網卡;計算節點業務平面根據實際的業務網絡需求配置一張或多張10GE網卡。全閃存部署場景節點典型配置:配置項典型配置說明服務器類型V5機架服務器/E9000 V5刀片服務器(停止銷售)根據客戶對機柜空間、磁盤大小、密度、PCIE網卡數量等選擇合適的服務器類型;機架服務器:最靈活,支持各類硬盤類型,預留多個PCIE槽位,但空間占用大;E9000刀片:集成度高,可支持計算、存

32、儲、網絡集成在一個E9000機柜內,但只支持2.5寸HDD以及NVME SSD盤,單節點容量偏小,節點網卡配置固定;CPU/內存配置2*Intel Xeon Gold 5120 Processor8*32GB RDIMM DDR4 2666MHzCPU/內存配置根據客戶的業務規格和配置可以動態調整配置,提供更多的計算資源磁盤ES3000 NVME SSD V5盤; ES3000 SAS SSD V5盤操作系統盤為2*480GB SATA SSD盤或2*600GB SAS盤FusionCube分布式存儲默認全閃存場景采用2副本或者EC配比為N+2以上的冗余策略,客戶如果要求更高的可靠性也可采用三

33、副本()。全閃存磁盤默認采用華為自研盤,推薦采用3DWPD磁盤,業務寫入數據量不大場景下,可采用1DWPD磁盤。網卡2*GE/10GE+2*10GE+4*100Gb IB(計算)2*GE/10GE+2*100Gb IB(存儲)計算和存儲節點存儲網絡平面默認采用IB網卡;管理平面默認采用GE/10GE網卡;計算節點業務平面根據實際的業務網絡需求配置一張或多張10GE網卡。組網華為FusionCube 6.0版本的系統組網包含:管理平面、存儲平面、業務平面、BMC平面。詳細的組網情況如下:FusionCube DB 場景系統組網圖通信平面類型說明介紹:管理平面:FusionCube系統的管理網絡平

34、面,用于系統的業務操作和運維管理,支持TCP/IP協議,支持GE/10GE組網;存儲平面:FusionCube分布式存儲節點間數據讀寫操作網絡平面,支持IRDMA協議,支持IB組網,獨占IB網卡;數據庫心跳默認復用存儲IB網絡平面,支持IPOIB,默認為UDP方式,支持RDS協議(華為自編譯,且驅動版本有一定約束,不推薦使用);業務平面:客戶業務通信網絡平面,支持TCP/IP協議,支持GE/10GE組網,根據業務帶寬要求,配置一張或多上10GE網卡;BMC平面:服務器設備管理IP平面,訪問FusionCube系統服務器設備的運維管理;分布式存儲FusionCube內置分布式存儲為業務提供存儲服

35、務,FusionCube分布式存儲提供是塊存儲設備,采用獨特的并行架構、創新的緩存算法、自適應的數據分布算法,既消除了熱點也提高了性能,并且能夠以超快的重建時間實現自動化自修復,提供卓越的可用性和可靠性。線性擴展和彈性FusionCube分布式存儲采用全分布式DHT架構,將所有元數據按規則分布在各節點,避免了元數據瓶頸,支持線性擴展。FusionCube分布式存儲采用了獨特的數據分塊切片技術,以及基于DHT Hash的數據路由算法,可以將卷的數據均勻的分散到較大的資源池故障域范圍內,使得每個卷可以獲得更大的IOPS和MBPS性能,也使得每個硬件資源的負載相對均衡。高性能FusionCube分布

36、式存儲免鎖化調度的IO軟件子系統,徹底解決了分布式鎖沖突,使得IO路徑上無需進行任何鎖操作和元數據查詢,IO路徑短、時延低;分布式的無狀態機頭,可以充分發揮各個硬件節點的能力,大大提升了系統的并發IOPS和并發MBPS。同時FusionCube分布式存儲采用分布式的SSD cache技術,配合大容量的SAS/SATA盤做主存,使得系統的性能可以具備SSD的性能和SAS/SATA的容量。高可靠性FusionCube分布式存儲支持多種數據冗余保護機制,如2副本、3副本、EC等;在此基礎上,FusionCube分布式存儲支持設置靈活的數據可靠性策略,允許將不同的副本放在不同的服務器上,保證在服務器故

37、障的情況下,數據仍然不丟失、仍然可訪問。同時采用對有效數據分片進行數據的冗余保護,在硬盤、服務器故障的時候,能夠對有效數據進行并行重建,1TB硬盤的重建時間小于30分鐘,大大增強系統的可靠性。豐富的存儲高級功能精簡配置,當用戶對卷進行寫操作時才分配實際物理空間,來為用戶提供比物理存儲資源更多的虛擬存儲資源。卷快照,將用戶的邏輯卷數據在某個時間點的狀態保存下來,作為快照點;快照不限次數且性能不下降。鏈接克隆,基于增量快照提供鏈接克隆,一個快照可以創建出多個克隆卷,各個克隆卷剛創建出來時的數據內容與快照中的數據內容一致,后續對于克隆卷的修改不會影響到原始的快照和其他克隆卷。卷的靈活劃分,可以根據整

38、個業務實際需求,靈活創建卷,且卷的大小不受物理磁盤空間的限制,單卷最大支持256TB。 HYPERLINK l _ZH-CN_TOPIC_0207593985 o 4.1 架構概述 HYPERLINK l _ZH-CN_TOPIC_0207594063 o 4.2 關鍵業務流程 HYPERLINK l _ZH-CN_TOPIC_0207594039 o 4.3 存儲管理 HYPERLINK l _ZH-CN_TOPIC_0207594099 o 4.4 數據冗余 HYPERLINK l _ZH-CN_TOPIC_0207594103 o 4.5 特性介紹架構概述FusionCube分布式存儲采

39、用分布式集群控制技術和DHT路由技術,提供分布式存儲功能特性。FusionCube分布式存儲功能架構如REF _fig64797827 r h圖4-1所示。FusionCube分布式存儲功能框架圖系統描述類型描述業務系統訪問接入用于應用訪問存儲系統的標準訪問接口,支持SCSI/iSCSI標準訪問接口協議卷特性層卷提供各種特性,如快照,克隆,遷移,異步復制,雙活等企業級特性,均在此層實現索引層用于數據邏輯空間和物理空間的轉換,重刪壓縮等在該層實現持久化層采用Plog接口訪問(一種Append Only的ROW寫機制)用于數據的存放,包括多副本,EC,數據均衡與重構等,并通過OSD/VDB對盤進行

40、管理和數據讀寫管理系統業務管理子系統FusionStorage Manager資源管理存儲資源池進行管理和分配,提供數據冗余保護,包括多副本保護和糾錯碼保護業務管理支持按存儲資源池發放塊存儲服務系統管理支持對系統進行初始化配置和必要的業務功能配置,設備拓撲管理,可提供系統設備拓撲關系圖,方便查看和管理設備間的拓撲關系。用戶管理支持對用戶的增刪改查,包括用戶的等級,權限等安裝部署完成系統的初始安裝,部署升級支持對系統的升級,包括軟件升級,操作系統升級,固件升級擴容完成系統的在線擴容縮容巡檢/信息收集設備詳情管理,可提供設備詳細配置和運行狀態信息收集,方便了解設備配置信息和健康狀態。FusionC

41、ube分布式存儲邏輯架構如REF _fig1425420459165 r h圖4-2所示。FusionCube分布式存儲邏輯架構圖FusionCube分布式存儲邏輯組件名稱說明FSMFusionStorage Manager縮寫,FusionStorage管理模塊,提供告警、監控、日志、配置等操作維護功能。與FusionCube Center共部署在一起,工作在主備模式下FSAFusiostorage Agent縮寫,代理進程,部署在各節點上,實現各節點與FusionStorage Manager通信,可收集各節點的監控與告警信息或在升級本節點軟件組件時接收升級包與執行升級。ZKZookeep

42、er縮寫。一個系統需部署3、5、7等奇數個Zookeeper組成。Zookeeper集群,為MDC集群提供選主仲裁,Zookeeper至少3個,必須保證大于總數一半的Zookeeper處在活躍可訪問狀態。MDC元數據控制組件,實現對分布式集群的狀態控制,以及控制數據分布規則、數據重建規則等。一個系統至少部署3個MDC,形成MDC集群,系統啟動時由Zookeeper集群在多個MDC中選舉主MDC,主MDC對其它MDC進行監控,主MDC故障時產生新的主MDC。每個資源池有一個歸屬MDC,當某池的歸屬MDC故障時,主MDC指定另外的MDC托管這個資源池,一個MDC最多管理兩個資源池。MDC作為一個進

43、程可以在每個存儲節點啟動,增加資源池會自動啟動MDC,一個系統最多啟動96個MDC。VBS虛擬塊存儲管理組件,執行卷元數據管理,VBS通過SCSI或iSCSI接口提供分布式存儲接入點服務,使計算資源能夠通過VBS訪問分布式存儲資源。VBS與其所能訪問的資源池的所有OSD點對點通信,使VBS能并發訪問這些資源池的所有硬盤。每個節點上默認部署一個VBS進程,多個節點上的VBS形成VBS集群,VBS啟動時與主MDC連接并協調主VBS。節點上也可以通過部署多個VBS來提升IO性能。OSDKV設備服務,執行具體的I/O操作。在每個節點上部署多個OSD進程,一塊磁盤默認對應部署一個OSD進程。在SSD卡作

44、主存時,為了充分發揮SSD卡的性能,可以在1張SSD卡上部署多個OSD進程進行管理,例如2.4TB的SSD卡可以部署6個OSD進程,每個OSD進程負責管理400GB。EDSEEnterprise Data Service組件,接收到來自VBS的I/O業務之后,執行具體的I/O操作。在EDS服務里面,會執行有關快照、克隆等與塊相關的特性,同時還對存儲空間的做管理,將塊的數據與存儲空間建立索引關系,確保每塊數據通過索引都能找到對應的存儲位置;同時在數據存儲到物理空間之前,可以進行重刪壓縮處理。CMCluster Manager,集群管理軟件,用于管理整個存儲集群的狀態信息,包括各組件的狀態信息,實

45、時監控各組件的狀態,當組件出現故障時,根據組件狀態觸發相關措施來恢復錯誤。CCDBCluster Configuration Database,集群配置數據庫,用于保存用戶配置信息的數據庫,當前在EDS組件中會采用CCDB存放配置信息。關鍵業務流程數據路由FusionCube分布式存儲數據路由采取分層處理方式:VBS通過計算確定數據存放在哪個節點的哪塊硬盤上。OSD通過計算確定數據存放在硬盤的具體位置。具體流程如下圖所示:FusionCube分布式存儲數據路由示意圖第一層DHT hash環的目的是通過hash算法將數據分發到計算出來的存儲服務器節點處理該數據,通過該hash算法,確保每個數據都

46、有對應的服務器節點來處理,保證了業務處理的均衡。系統根據LUNID和LBA定位到服務器節點,然后再定位到該服務器上的vnode上,由該vnode邏輯處理單元來處理該數據;vnode是一種邏輯處理單元,將物理服務器節點分為4個邏輯處理單元,即4個vnode,例如:一個由6個物理服務器組成的一個存儲集群,當其中1個物理服務器故障時,該服務器上的4個vnode處理的業務,可以分別被該集群中另外的4個物理服務器去接管,這樣剩下的5個物理服務器中,有4個物理服務器運行有5個vnode,1個物理服務器運行4個vnode,通過vnode機制,可以確保故障節點的業務可以分散到不同的服務器節點上去接管,就可以防

47、止只用一個物理服務器接管帶來的業務處理瓶頸問題。該DHT hash環打散粒度是按64MB對齊打散。第二層DHT hash環的目的是通過hash算法將數據轉到對應存儲空間去保存,完成數據的持久化。通過該hash算法,確保數據存儲空間的均衡性。系統根據PlogID和Offset定位到硬盤應該存放的具體位置,避免在海量數據中進行查找和計算,該DHT路由技術,采用華為自研算法,不僅能保證數據在各個硬盤的均衡性,而且在硬件增減(故障或擴容)時,自動快速調整,并保證數據遷移的有效性,確保自動快速自愈,自動資源均衡。存儲空間根據可靠性有機柜級、節點級、硬盤級,默認是跨節點組織副本/EC。IO路徑讀IO流程F

48、usionCube分布式存儲系統中的讀IO(EC)流程如REF _fig74362371173 r h圖4-4所示。FusionCube分布式存儲讀IO流程 上層應用下發讀IO請求到存儲服務,存儲服務的VBS(Virtual Block Service)模塊收到該IO請求,根據第一層的DHT hash算法將數據轉到指定服務器; 服務器上的EDS(Index+Dedup)模塊處理該數據。EDS接收到讀IO請求后,優先在內存的寫緩存中查找,如果找到就返回給VBS。 如果內存寫緩存中沒有命中,則再在內存讀緩存中去查找,如果仍然沒有找到,則到存儲介質中去讀,先在SSD Cache中去讀,如果還不命中,

49、則到存儲介質)中去讀(詳細見Read Cache章節說明)。寫IO流程FusionCube分布式存儲系統中的寫IO(EC)流程如REF _fig223055615173 r h圖4-5所示。FusionCube分布式存儲寫IO(EC)流程上層應用下發寫IO請求到存儲服務,存儲服務的VBS(Virtual Block Service)模塊收到該IO請求(圖中),根據第一層的DHT hash算法將數據轉到指定服務器;由這個服務器上的EDS(Index+Dedup)模塊處理該數據(圖中上);EDS接收到寫IO請求后,以小比例EC形式寫入Cache Layer層的SSD緩存盤上(圖中下),同時該EDS

50、所在服務器的內存中仍然保持一份該數據,EDS返回寫IO成功給VBS(圖中),再由VBS返回給上層應用。待內存中的數據聚合到更大的塊,走刷盤流程異步刷入(圖中)到Capacity Layer的存儲介質中。Cache機制FusionCube分布式存儲采用多級Cache機制提升存儲IO性能,讀、寫Cache機制采用不同流程。Write CacheVBS發送的寫IO操作(圖中Write IO From Host)時,會將Write IO在Memory Write Cache內存中保存一份,同時同步以日志的方式(采用固定的2+2小分片EC)記錄到SSD WAL Cache中并返回成功完成本次寫操作,這個

51、流程通常稱為Host Write IO流程。通常SSD Disk Cache分為兩個部分:SSD Write Cache和SSD Read Cache。Memory Write Cache中的數據會進行IO排序重整并等待滿分條以副本或EC的方式直接寫入到SSD Write Cache中并返回;對于大塊IO則直接由Memory Write Cache直通寫到HDD中,而不駐留在SSD Write Cache里;當SSD Write Cache中的保存數據水位達到40%時,則由SSD Write Cache往HDD中搬遷。隨著Memory Write Cache中的數據逐步刷盤到SSD Write

52、 Cache時,SSD WAL Cache中的數據將逐步淘汰掉,我們通常會進行異步的垃圾回收。FusionCube分布式存儲寫Cache機制示意圖相比較傳統的副本方式寫入SSD Cache,然后異步的再從SSD Cache中讀出滿分條到持久化存儲層HDD,FusionCube分布式存儲的SSD WAL Cache方案帶來4大優勢:FusionCube分布式存儲的SSD WAL Cache的寫放大比較小,2+2的EC的Overhead為2;而副本方式的SSD Cache,OverHead最低必須為2。由于寫放大較小,FusionCube分布式存儲對網絡的帶寬消耗也較低FusionCube分布式存

53、儲的SSD WAL Cache可靠性高,是+2的冗余保護。FusionCube分布式存儲的數據往主存上刷盤通常是由RAM中觸發完成的,比傳統的后臺異步先從SSD Cache讀出再寫到主存中的效率高。Read CacheFusionCube分布式存儲的讀緩存采用分層機制。第一層為內存Cache,內存Cache采用LRU機制緩存數據; 第二層為SSD Cache,SSD Cache采用熱點讀機制,系統會統計每個讀取的數據,并統計熱點訪問因子,當達到閾值時,系統會自動緩存數據到SSD中,同時會將長時間未被訪問的數據移出SSD。OSD在收到VBS發送的讀I/O操作時,會進行如下步驟處理:從內存“Mem

54、ory Write Cache”中查找是否存在所需I/O數據,如果存在,則直接返回,同時調整該IO數據到“讀Cache”LRU隊首,否則執行 HYPERLINK l li1787011516337 o 步驟2;從內存“Memory Read Cache”中查找是否存在所需IO數據,如果存在,則直接返回,同時增加該IO數據的熱點訪問因子,否則執行 HYPERLINK l li12678853193310 o 步驟3;從SSD的“SSD Write Cache”中查找是否存在所需IO數據,如果存在,則直接返回,如果不存在,執行 HYPERLINK l li1750018559338 o 步驟4;從

55、SSD的“SSD Read Cache”中查找是否存在所需IO數據,如果存在,則直接返回,同時增加該IO數據的熱點訪問因子;如果熱點訪問因子達到閾值,則會被緩存在SSD的“SSD Read Cache”中,如果不存在,執行 HYPERLINK l li13172757103319 o 步驟5;從硬盤中查找到所需IO數據并返回,同時增加該IO數據的熱點訪問因子,如果熱點訪問因子達到閾值,則會被緩存在SSD的“SSD Read Cache”中。結束FusionCube分布式存儲讀Cache機制示意圖存儲管理存儲集群管理FusionCube分布式存儲通過集群管理軟件完成集群的管理工作,功能包括集群基

56、本信息監控、性能監控、告警管理、用戶管理、license管理、硬件管理。集群基本信息監控:查看集群的基本信息,包括集群名稱、健康狀態、運行狀態、節點信息、節點進程信息、卷的掛載點查詢、存儲使用空間等。性能監控:查看CPU利用率、內存利用率、帶寬、IOPS、時延、磁盤利用率、存儲池利用率統計。告警管理:提供查看告警信息、清除告警、屏蔽告警的功能。用戶管理:系統管理員可以創建新的管理員,為該管理員賦予一定的管理權限,以便多個管理員按照所授權限進行系統或資源管理。對用戶的操作包括:查詢、刪除、創建、解鎖、凍結用戶等。支持設置密碼策略以提升系統安全。License管理:提供查看已激活的license和

57、導入新license功能。硬件管理硬件管理包括服務器管理個磁盤管理。服務器管理對系統中的所有服務器集中管理,可查看服務器的軟件安裝狀態、軟件版本號、是否加入集群,可查看在服務器上創建的存儲池狀態以及存儲池在該服務器的拓撲信息,支持將服務器設置為維護模式以方便對服務器進行故障恢復處理,支持對服務器的CPU、內存進行性能監控。磁盤管理將系統中所有的磁盤集中管理,支持查看磁盤的狀態、槽位號、序列號、磁盤使用率、類型等,支持磁盤包括IOPS、時延、帶寬、利用率等監控性能統計。存儲服務化FusionCube分布式存儲的管理平臺用戶按角色分為“系統管理員”、“系統操作員”和“系統查看員”,提供的管理功能可

58、分為資源接入和配置、資源管理和維護、系統管理和維護三類。資源管理維護包括系統概覽匯總信息、存儲池管理、塊客戶端管理、卷管理、虛擬文件系統管理、硬件管理等。存儲池管理存儲池管理可查看選定存儲池的統計信息,查看選定存儲池的硬盤拓撲,為選定存儲池擴容、減容,以及刪除存儲池。還提供創建新存儲池功能。塊客戶端管理塊客戶端管理提供創建、刪除客戶端功能。也提供查看塊客戶端的掛載信息與CPU 及內存的監控統計信息,為塊客戶端進行掛載和卸載卷等操作。卷管理卷管理提供卷的創建和刪除功能。創建卷需指定資源池、卷名、卷大小等信息。對于創建后的卷若按SCSI協議使用需要掛載卷,若按iSCSI協議使用需要做iSCSI 映

59、射。還提供iSCSI卷映射界面完成創建主機/主機組、配置啟動器、配置CHAP認證、為主機/主機組映射/解映射卷等操作。注:默認情況下iSCSI功能是關閉的,若要使用iSCSI功能需要先開啟iSCSI功能并添加iSCSI監聽的IP地址和端口。QoS策略管理QoS策略管理支持創建、刪除QoS策略,及分頁查看QoS策略信息。快照管理快照管理支持分頁出查看快照列表,列表信息包括快照名稱、容量、所屬存儲池和創建時間;支持創建鏈接克隆卷、設置QoS策略和刪除快照。數據冗余FusionCube分布式存儲支持兩種數據冗余保護機制,一種是多副本方式,一種是Erasure Code(EC,糾錯碼)方式。多副本Fu

60、sionCube分布式存儲采用數據多副本備份機制來保證數據的可靠性,即同一份數據可以復制保存為23個副本。針對系統中的每1個卷,默認按照1MB進行分片,分片后的數據按照DHT算法保存集群節點上。如REF _fig1450518463392 r h圖4-8所示,對于節點Server1的磁盤Disk1上的數據塊P1,它的數據備份為節點Server2的磁盤Disk2上P1,P1和P1構成了同一個數據塊的兩個副本。例如,當P1所在的硬盤故障時,P1可以繼續提供存儲服務。FusionCube分布式存儲多副本示意圖Erasure CodeFusionCube分布式存儲也可以采用Erasure Code(E

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論