FusionStorage大數據存儲技術白皮書_第1頁
FusionStorage大數據存儲技術白皮書_第2頁
FusionStorage大數據存儲技術白皮書_第3頁
FusionStorage大數據存儲技術白皮書_第4頁
FusionStorage大數據存儲技術白皮書_第5頁
已閱讀5頁,還剩38頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、FusionStorage 大數據存儲技術白皮書目錄 HYPERLINK l _bookmark0 概述1 HYPERLINK l _bookmark1 產品價值2 HYPERLINK l _bookmark2 產品架構3 HYPERLINK l _bookmark3 軟件架構3 HYPERLINK l _bookmark4 數據服務4 HYPERLINK l _bookmark5 統一資源池4 HYPERLINK l _bookmark6 分布式 Hash 路由6 HYPERLINK l _bookmark7 Cache 機制7 HYPERLINK l _bookmark11 關鍵業務流程8

2、 HYPERLINK l _bookmark12 特性介紹10 HYPERLINK l _bookmark13 數據冗余策略10 HYPERLINK l _bookmark14 小文件在線聚合10 HYPERLINK l _bookmark15 配額和資源統計11 HYPERLINK l _bookmark16 QoS12 HYPERLINK l _bookmark17 訪問權限控制13 HYPERLINK l _bookmark18 存儲管理13 HYPERLINK l _bookmark19 存儲服務化13 HYPERLINK l _bookmark20 存儲集群管理14 HYPERLIN

3、K l _bookmark21 集群擴容14 HYPERLINK l _bookmark22 推薦硬件14 HYPERLINK l _bookmark23 系統組網15 HYPERLINK l _bookmark24 組網方案16 HYPERLINK l _bookmark25 組網設計原則16 HYPERLINK l _bookmark26 集群內組網方案16 HYPERLINK l _bookmark27 軟件部署18 HYPERLINK l _bookmark28 局域網部署方案18 HYPERLINK l _bookmark29 廣域網部署 DNS 方案18 HYPERLINK l _

4、bookmark30 高性能和彈性擴展20 HYPERLINK l _bookmark31 單 namespace 高性能20 HYPERLINK l _bookmark32 元數據多級緩存21 HYPERLINK l _bookmark33 全局負載均衡22 HYPERLINK l _bookmark34 數據在線聚合22 HYPERLINK l _bookmark35 無狀態集群23 HYPERLINK l _bookmark36 彈性擴展23 HYPERLINK l _bookmark37 高可靠24 HYPERLINK l _bookmark38 數據冗余保護機制24 HYPERLIN

5、K l _bookmark39 數據條帶化24 HYPERLINK l _bookmark40 N+M 數據保護25 HYPERLINK l _bookmark41 節點級安全級別26 HYPERLINK l _bookmark42 快速數據重建27 HYPERLINK l _bookmark43 集群可靠性28 HYPERLINK l _bookmark44 硬件可靠性28 HYPERLINK l _bookmark45 鏈路可靠性29 HYPERLINK l _bookmark46 系統安全30 HYPERLINK l _bookmark47 總體安全框架31 HYPERLINK l _b

6、ookmark48 管理系統安全31 HYPERLINK l _bookmark49 用戶安全31 HYPERLINK l _bookmark50 密碼安全32鑒權認證錯誤!未定義書簽。 HYPERLINK l _bookmark51 日志和告警管理33 HYPERLINK l _bookmark52 存儲業務安全33 HYPERLINK l _bookmark53 訪問的認證和鑒權33 HYPERLINK l _bookmark55 namespace 的訪問控制34 HYPERLINK l _bookmark56 訪問審計34 HYPERLINK l _bookmark57 存儲網絡安全3

7、4 HYPERLINK l _bookmark58 平面隔離34 HYPERLINK l _bookmark61 存儲設備安全36 HYPERLINK l _bookmark62 操作系統加固36安全補丁錯誤!未定義書簽。 HYPERLINK l _bookmark63 Web 安全36 HYPERLINK l _bookmark64 開放兼容性38 HYPERLINK l _bookmark65 與主流協議的兼容38 HYPERLINK l _bookmark66 與大數據平臺的兼容38 HYPERLINK l _bookmark67 與集中管理平臺的兼容39 HYPERLINK l _bo

8、okmark68 縮略語和術語40 1 概 述當前從科學研究到醫療保險,從銀行政府到互聯網,從智慧城市到運營商,各個不同領域的信息都在爆炸式增長出數據量。互聯網、物聯網、AI 等科技日新月異,都離不開對海量數據的存儲和分析。數據已經滲透到當今各個行業和領域,成為重要的生產因素。大量的數據等待挖掘和分析,來支撐新一波的業務增長。而通過我們跟大數據客戶的交流,發現當前在大數據集群的使用中,有很多的痛點需要解決,隨著數據和業務越來越龐大,痛點越來越明顯。新的挑戰必然催生新的需 求,基于此,華為 FusionStorage 大數據存儲應運而生。圖1-1 行業應用痛點華為 FusionStorage 大

9、數據存儲靈活、彈性,讓大數據集群擴展像堆積木一樣簡單,讓計算和存儲都能得到充分的利用,是一款可大規模橫向擴展的全分布式大數據存儲產品,并提供企業級的可靠性和可用性。 2產品價值FusionStorage 大數據存儲采用高擴展的分布式架構提供高效的大數據底座,在大數據需求不斷增長的形勢下具有如下優勢:存儲計算按需配置,保護客戶投資FusionStorage 大數據存儲將 HDD、SSD 等硬件存儲介質通過分布式技術組織成大規模存儲資源池,將存儲從計算中分離,實現存儲、計算比例隨意配置,按需靈活擴容, 降低投資成本,保護客戶投資。存儲計算分離后,將數據從計算集群剝離,計算集群 可以快速縮容和擴容,

10、無需等待數據遷移,計算資源實現靈活分配。多租戶特性助力客戶構建統一存儲資源池FusionStorage 大數據存儲支持創建多個 namespace 來對接多套計算集群,支持計算集群間鑒權隔離,且跟對應的 namespace 統一鑒權。多個 namespace 之間數據邏輯隔離, 空間靈活分配,存儲能力共享,真正將存儲資源池能力發揮出來。分布式的數據和元數據管理,以彈性高效滿足未來數據存取需求FusionStorage 大數據存儲采用全分布式架構,支持通過橫向擴展硬件節點線性增加整系統容量與性能,無需復雜的資源需求規劃;系統可輕松擴展至數千節點及EB 級容量,滿足您的云業務規模增長需求。相對于原

11、生HDFS NameNode 的主備模式, FusionStorage 大數據存儲采用全分布式NameNode 機制,打破原生 HDFS 單NameNode 一億文件數的限制,單 NameSpace 支持百億文件存儲,整集群支持萬億文件存儲。完全兼容原生的 HDFS 語義的 EC 機制,助力客戶業務平滑遷移相比原生 HDFS EC 不支持 append, truncate, hflush, fsync 等諸多接口, FusionStorage 大數據存儲完全兼容原生的HDFS 語義,助力客戶業務平滑遷移,廣泛兼容華為及第三方大數據平臺。支持高達 22+2 大比例EC,利用率達到 91.7%,遠

12、高于原生 HDFS EC 和三副本機制,降低客戶投資成本。以企業級存儲可靠性保障客戶業務和數據安全FusionStorage 大數據存儲基于華為云上云下統一的 DFV 架構,跟 FusionStorage 塊、對象、文件統一架構,共同構筑企業級存儲可靠性。2TB/小時的重構速度避免 2 次故障導致數據丟失。支持全面故障盤、亞健康盤的識別和容錯處理、支持令牌的流控, 磁盤靜默損壞檢查,以企業級存儲可靠性保障客戶業務和數據安全。 3產品架構 HYPERLINK l _bookmark3 軟件架構 HYPERLINK l _bookmark4 數據服務 HYPERLINK l _bookmark18

13、 存儲管理 HYPERLINK l _bookmark22 推薦硬件 HYPERLINK l _bookmark23 系統組網 HYPERLINK l _bookmark27 軟件部署軟件架構華為 FusionStorage 大數據存儲是一款可大規模橫向擴展的大數據存儲產品,架構上遵循業界先進的 Scale-out、服務化、微服務化等設計原則。圖3-1 FusionStorage 大數據軟件架構如上圖所示,FusionStorage 大數據存儲從架構上主要分為三層:Persistence Layer(存儲持久層),Index Layer(元數據服務層)和 Service Layer(HDFS

14、語義服務層):Persistence Layer(存儲持久層)基于通用服務器和介質構建統一的存儲持久層,負責數據布局、負載均衡、數據恢復能力,提供EC 數據冗余方式,可以靈活解決性能以及成本問題。可以看出,Persistence Layer 是 FusionStorage 大數據存儲的基石,存儲系統的擴展性、性能、可靠性均基于此。Index Layer(元數據服務層)負責具體的元數據分布、索引、故障切換等,采用全分布式部署,對上層的 Service Layer 提供高速的元數據存取和查詢等能力,從上圖中可以看到 Index Layer 的數據最終也是存儲在Persistence Layer,所

15、以這些元數據一樣共享底層Persistence Layer 的數據存儲能力,從而保證整個系統的所有數據都是高擴展、高可靠的。Service Layer(語義服務層),提供 HDFS 原生協議的接口,負責業務的接入、全局統一命名空間等,同時具備完善的增值服務,比如配額、QOS 等特性,業界通用的HDFS 協議在 FusionStorage 大數據存儲都可以提供,真正做到了按需分配,用戶不用再為存儲的選擇而犯難。FusionStorage 大數據存儲架構上具有如下特點:領先的分布式架構:FusionStorage 大數據存儲采用全分布式的架構:分布式管理集群、分布式哈希數據路由算法、分布式無狀態機

16、頭和分布式智能 Cache 等,這種架構使得整個存儲系統沒有單點故障。高性能和高可靠性:FusionStorage 大數據存儲在所有磁盤中實現負載的均衡,數據打散存放,不會出現熱點,高效的路由算法和分布式Cache 技術保證了高性能。并行快速故障重建:數據分片在資源池內打散,硬盤故障后,可在全資源池范圍內自動并行重建,重建效率高。易擴展和超大容量:FusionStorage 大數據存儲的分布式無狀態機頭可橫向擴展, 存儲與計算分別按需平滑擴容,支持非煙囪式超大容量擴展。數據服務FusionStorage 大數據存儲對外提供標準的 HDFS 協議接口,完全兼容原生的 HDFS 語義,廣泛兼容華為

17、和第三方大數據平臺。FusionStorage 大數據存儲具備如下關鍵優勢:FusionStorage 大數據存儲采用業界先進的Scale-out 分布式存儲架構和DHT(Distributed Hash Table,分布式哈希表)算法,匹配海量數據存儲;對外提供兼容原生 HDFS 協議的接口,支撐多業務承載;提供基于Erasure Code 的數據保護技術,可靠性和空間占用達到了很好的平衡;支持多租戶模式,可以最大限制的滿足企業和私有云等場景的資源分配需求;大數據存儲服務具備海量擴展能力、安全可靠和高效融合的特點,適用于海量數據存儲和集中備份應用場景,可以為客戶帶來大容量,高可靠,易維護,易

18、擴展的價值。統一資源池FusionStorage 大數據存儲支持作為統一資源池同時對接多套計算集群。作為統一資源池的根本,FusionStorage 大數據存儲支持為多租戶分別創建單獨的 namespace,各個namespace 之間數據邏輯隔離,空間靈活動態分配,能力共享,真正將存儲資源池能力發揮出來。從煙囪式向統一資源池轉變租戶在大數據存儲服務時需要創建自己的 NameSpace,并在NameSpace 中創建和管理自己的數據。針對每個 NameSpace 可以設定配額和QOS,并且可以隨時靈活更改。各租戶的計算集群支持各自獨立的鑒權系統,且計算集群和所分配的 NameSpace 統一鑒

19、權。多租戶的實現方式:每個NameSpace 實例替代原 HDFS 服務集群,提供與 HDFS 完全一致的能力。分布式 Hash 路由FusionStorage 大數據存儲采用DHT(Distribute Hash Table,分布式哈希表)路由數據算法。每個存儲節點負責存儲一小部分數據,基于DHT 實現整個系統數據的尋址和存儲。相比DHT 路由算法,傳統 HDFS 存儲采用集中式元數據管理方式,每次 IO 操作都需要去查詢元數據服務,隨著系統規模逐漸變大,元數據的容量也會越來越大,系統所能提供的并發操作能力將受限于元數據服務所在服務器的能力,元數據服務將會成為系統的性能瓶頸。不同與傳統的集中

20、式元數據管理,FusionStorage 大數據存儲采用DHT(分布式一致性哈希)進行數據尋址,具體的算法如下圖:圖3-2 DHT 數據尋址DHT 環:Distributed Hash Table, 超大虛擬節點構成的環形空間Partition:將 DHT 環空間劃分為 N 等份,每一等份是一個分區物理節點:即一個 DISK, 與 Partition 分區對應FusionStorage 大數據存儲將哈希空間設置為,并將該哈希空間劃分為N 等份,每1 等份是 1 個分區(Partition),這 N 等份按照硬盤數量進行均分。例如:系統N 默認為 3600,假設當前系統有 36 塊硬盤,則每塊硬

21、盤承載 100 個分區。上述“分區-硬盤”的映射關系在系統初始化時會分配好,后續會隨著系統中硬盤數量的變化會進行調整。該映射表所需要的空間很小,FusionStorage 大數據存儲系統中的節點會在內存中保存該映射關系,用于進行快速路由,可見,FusionStorage 大數據存儲的路由機制不同于傳統 HDFS 存儲系統,并沒有集中的元數據管理,也就不存在元數據服務成為系統的性能瓶頸。FusionStorage 大數據存儲的這個 DHT 環技術具備如下特點和價值:性能高:存儲數據通過 DHT 環,“均勻”分布在所有磁盤上,所有磁盤都參考數據讀寫,消除熱點磁盤帶來的讀寫瓶頸問題;數據可靠性高:可

22、靈活配置的分區分配算法,避免相同副本數據位于同一個Disk、同一塊板、同一個機柜;水平擴展速度快: 新物理節點加入時, 只需要搬移部分數據(partition),并達到負載均衡。Cache 機制FusionStorage 大數據存儲采用多級 cache 機制提升存儲 IO 性能,讀、寫cache 機制采用不同流程。Write cache 機制:Persistence Layer 在寫 IO 操作時,會將寫 IO 緩存在 SSD cache 后完成本節點寫操作。同時,會周期將緩存在 SSD cache 中的寫 IO 數據批量寫入到硬盤(HDD),寫 Cache 有一個水位值,未到刷盤周期超過設定

23、水位值也會將 Cache 中數據寫入到硬盤中,如下圖所示:圖3-3 Write cache 機制FusionStorage 大數據存儲支持大 IO 直通,按缺省配置大于 256KB 的 IO 直接透寫 HDD 不寫Cache,這個配置可以修改。Read cache 機制:FusionStorage 大數據存儲使用 SSD 作為讀Cache 介質以加速存儲訪問。FusionStorage 大數據存儲的讀緩存采用分層機制,第一層為內存 cache,內存cache 采用 LRU 機制緩存數據,第二層為 SSD cache,SSD cache 采用熱點讀機制,系統會統計每個讀取的數據,并統計熱點訪問因

24、子,當達到閾值時,系統會自動緩存數據到SSD 中,同時會將長時間未被訪問的數據移出 SSD。同時FusionStorage 大數據存儲支持預讀機制,統計讀數據的相關性,讀取某塊數據時自動將相關性高的塊讀出并緩存到 SSD 中。如下圖所示,Persistence Layer 在收到上層發送的讀 IO 操作時,會進行如下步驟處理:從內存“讀 cache”中查找是否存在所需 IO 數據,如果存在,則直接返回, 同時調整該 IO 數據到“讀 cache”LRU 隊首,否則執行 HYPERLINK l _bookmark8 2;從 SSD 的“讀 cache”中查找是否存在所需 IO 數據,如果存在,則

25、直接返回,同時增加該 IO 數據的熱點訪問因子,否則執行; HYPERLINK l _bookmark9 3從 SSD 的“寫 cache”中查找是否存在所需 IO 數據,如果存在,則直接返回,同時增加該 IO 數據的熱點訪問因子;如果熱點訪問因子達到閾值,則會被緩存在 SSD 的“讀 cache”中。如果不存在,執行 HYPERLINK l _bookmark10 4;從硬盤中查找到所需 IO 數據并返回,同時增加該 IO 數據的熱點訪問因子, 如果熱點訪問因子達到閾值,則會被緩存在 SSD 的“讀 cache”中。圖3-4 Persistence Layer 讀 IO 操作步驟關鍵業務流程

26、數據的寫入過程,可以分為如下步驟:圖3-5 數據寫入過程請求接入:計算節點與存儲服務的節點建立連接,計算節點開始向訪問的節點發送數據;存儲策略的選擇:存儲節點根據用戶配置,決定數據的存儲策略;數據分片:存儲節點按用戶配置的存儲策略計算出分片的大小(根據系統設定的分條大小以及冗余配比計算),然后按這個大小把數據切分為相應的數據分片;數據路由:存儲節點調用存儲接口,將數據片散列存放到不同的磁盤中。數據的讀取過程,與寫入流程相反,可以分為如下步驟:圖3-6 數據讀取過程請求接入:計算節點與存儲服務的節點建立連接,計算節點向訪問的節點請求數據;數據路由:存儲節點根據散列規則尋址到數據分區,讀取相應的數

27、據片;數據修復:如果某些數據片損壞,存儲節點將根據數據的存儲策略進行相應的修復操作;數據聚合:存儲節點將數據片聚合為完整的數據,發送給計算節點。FusionStorage 大數據存儲節點的內存預留了部分緩沖區,用于在數據讀取和寫入時實現數據的分片和聚合。當寫入數據時,對于切分完成的數據片,存儲節點會緩沖其中的一部分,與此同時再向多個存儲節點寫入多個數據片,以獲得更高的寫入效率。當讀取數據時,存儲節點會預判計算機點讀取數據的范圍,同時從多個存儲節點預先讀取連續的數據片,保留在緩沖區內,以獲得更高的讀取效率。FusionStorage 大數據存儲的接入節點,會根據客戶端到接入節點的連接速度和數據的

28、大小,動態調整緩沖區的大小和并發讀寫存儲節點的數量,以最小的資源實現最優的吞吐。特性介紹數據冗余策略FusionStorage 大數據存儲采用EC(Erasure Code)算法實現數據冗余存儲,確保硬件失效時的數據可靠性和可用性。糾刪碼(EC)技術主要是對數據分片進行分組,每個分組有數據塊和校驗塊組成,其中校驗塊即為產生的部分冗余數據。如果數據的一部分損壞或丟失,存儲服務能夠利用冗余的數據重建并修復損壞數據。該策略數據不僅具有較高的可靠性,而且存儲空間利用率非常高(相比多副本模式),是可靠性和經濟性平衡的最佳選擇。對于用戶上傳的數據,FusionStorage 大數據存儲的接入集群在將數據切

29、分為數據片的過程中,會將連續的 N 個數據片劃分為一個EC 組,并利用糾刪碼技術對 EC 組進行計算,生成 M 個校驗數據片。每個 EC 組的數據片和校驗數據片,將存儲在存儲集群上一組連續的數據分區中,以保證每個數據片存儲在不同的物理節點上,確保其可靠性。只要每個EC 組損壞的數據片數量不超過 M,FusionStorage 大數據存儲的接入集群都能利用 EC 組的其它數據片將損壞數據片修復。小文件在線聚合傳統HDFS 存儲系統中小文件的挑戰:小文件按三副本存儲,空間利用率低,只有33%,即使 EC 機制下,因為文件太小沒法寫滿 Strip, 利用率也只有 33%。FusionStorage

30、大數據存儲提供了小文件在線聚合能力,有效的將空間利用率提升至80%+,具體原理如下圖:圖3-7 小文件匯聚如上圖所示,客戶端上傳的小文件 File1、File2、File3、File4、File5、File6 和 File7 優先寫入 SSD cache 進行匯聚成一個EC 分條大小,然后進行EC 計算,并自動將數據分片(Strip)和 EC 計算出的校驗片(Parity)存儲到HDD,這樣以來小文件也是按EC 存儲的,也就是 EC 的利用率,例如 EC 為 12+3,那么利用率就是 80%,是傳統的三副本的 33%利用率的 2.4 倍。配額和資源統計FusionStorage 大數據存儲支持

31、資源的統計和namespace 級、租戶級的容量配額。如下圖所示,FusionStorage 大數據存儲的使用者,可將企業內部的部門、員工等組織關系,和租戶、namespace 建立對應關系,比如財務部租戶 2,限制其容量配額為40TB;財務部下面的員工bnamespace2,限制其容量配額為 10TB,且隨時可以更改。圖3-8 配額QoSFusionStorage 大數據存儲配額的主要功能點:namespace 級配額:namespace 的容量大小上限。當namespace 容量達到所配置的namespace 配額后,無法再對該 namespace 進行寫入操作。租戶級配額:租戶的容量大小

32、上限。當租戶的 namespace 容量總數達到所配置的帳戶配額后,該租戶及其所有用戶無法再進行寫入操作。FusionStorage 大數據存儲支持使用REST 接口獲取租戶、namespace 的資源統計情況,比如統計文件數量,容量等:namespace 資源統計:namespace 資源包括 namespace 的空間大小及namespace 中的文件數量。用戶可對自己的 namespace 資源進行查詢。租戶資源統計:租戶資源包括帳戶配額、擁有的文件數量及容量總大小。FusionStorage 大數據存儲提供服務質量的控制能力-QoS,該特性可以合理分配系統資源,幫助客戶提供更好的服務能

33、力。圖3-9 基于賬戶和 namespace 的智能流控對于私有云等多租戶場景,用戶希望存儲池的 TPS 和帶寬資源能夠合理分配給不同優先級的租戶或 namespace,同時希望保障核心業務TPS 與帶寬的供給。相比傳統的HDFS 存儲系統,FusionStorage 大數據存儲提供了精細控制的 QoS 能力,很好了解決了以上 2 個訴求:提供精細化控制 IO 的能力:系統能對不同優先級的租戶、namesapce 提供差異化的服務。提供租戶、namespace 級別的 TPS 和帶寬粒度的服務質量控制。基于 FusionStorage 大數據存儲的 QoS 特性,對于不同優先級的應用,可以配置

34、不同的namespace,通過QoS 控制 namespace 的 TPS 以及帶寬資源的分配,以達到存儲池資源利用率最大化,并且避免核心業務受到其它業務的影響(應用分級應用場景);針對同一系統中的 VIP 租戶和普通租戶,可以配置不同QoS 策略,以保證高優先級租戶的服務質量(租戶分級應用場景)。訪問權限控制FusionStorage 大數據存儲提供了跟原生 HDFS 完全一致的訪問權限控制,請求用戶只能訪問自己被授權的資源,如果訪問未被授權的資源,則請求失敗,支持跟計算集群統一鑒權服務器,實現鑒權拉通。存儲管理存儲服務化FusionStorage 大數據存儲提供存儲資源池管理和存儲業務配置

35、功能,通過FusionStorage 大數據存儲的管理平臺可以完成業務開通。資源池管理資源池管理可查看選定資源池的統計信息,查看選定資源池的硬盤拓撲,為選定資源池擴容、減容,以及刪除資源池。還提供創建新資源池功能。存儲業務配置可管理存儲服務,包括如下功能:鑒權配置支持選擇POE、IAM 三種模式,并完成對接配置。當選擇POE 本地鑒權時,可支持業務賬戶的管理。Namespace 管理支持針對租戶創建namespace, 設置配額和 QOS, 支持查看 namespace 列表和配額使用情況。存儲集群管理FusionStorage 大數據存儲通過集群管理軟件完成集群的管理工作,功能包括集群基本信

36、息監控、性能監控、賬戶管理、告警管理、用戶管理、License 管理、集群管理、節點管理、交換機管理。集群基本信息監控:查看集群的基本信息,包括集群名稱、健康狀態、運行狀態、版本號、集群容量、節點數信息。性能監控:查看相關訪問的帶寬和 IOPS 信息。賬戶管理:使用POE 方式鑒權時,可以通過賬戶管理功能完成存儲服務賬戶的創建、刪除及屬性修改。告警管理:提供查看告警信息、處理告警、告警屏蔽、告警通知、轉儲告警的功能。用戶管理:提供用戶基本管理、安全策略配置功能。License 管理:提供查看已激活的 License 和導入新 License 功能。集群管理:提供啟停系統、啟停 Toolkit

37、服務、配置系統時間、配置外部 DNS 和導入導出配置文件功能。節點管理:提供停止節點、凍結節點功能。集群擴容FusionStorage 大數據存儲的分布式架構具有良好的可擴展性,支持超大容量存儲,節點規模支持 34096。隨著節點數的增加,存儲容量和計算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發數。FusionStorage 大數據存儲集群擴容具有如下優勢:支持在線擴容,擴容過程業務不受影響。支持靈活的擴容方式,新擴容節點可加入已有存儲池或創建新存儲池使用。擴容存儲節點到已有存儲池時不需要做大量的數據搬遷,系統可以快速達到負載均衡狀態。推薦硬件FusionStorage 大數據存儲基于

38、通用硬件設計,為保證系統可靠性以及最佳性能,推薦客戶采用基于如下硬件平臺的典型配置(詳細配置請咨詢您所在區域華為銷售代表),包括存儲節點、網絡設備、KVM 和調制解調器。硬件類型推薦選型說明機柜標準 IT 機柜提供 42U 內部安裝空間Huawei TaiShan 5280 典36 盤位存儲節點型配置256G 內存,華為自研 Hi1616CPU,緩存為 800G/1.6TB/3.2TB NVME SSDHuawei TaiShan 2280 典12 盤位存儲節點型配置256G 內存,華為自研 Hi1616CPU,緩存為 800G/1.6TB/3.2TB NVME SSD網絡設備Huawei C

39、E6855-48S6Q-HI10GE 以太網交換機Huawei CE6865-48S8CQ- EI10GE/25GE 交換機Huawei CE5855-48T4S2Q- EIGE 以太網交換機8 口 KVM(Keyboard,Video,and Mouse) 控制器提供 8 路鍵盤、鼠標和視頻端口系統組網FusionStorage 大數據存儲的邏輯組網平面分為:業務平面:FusionStorage 大數據存儲與用戶業務網絡對接的組網,用于計算節點接入業務,簡稱為業務平面,支持多子網。存儲平面:FusionStorage 大數據存儲內部節點間的組網,用于集群內部數據通信,簡稱為存儲平面,支持多子

40、網,但僅支持部署為 IPv4 協議組網。管理平面:FusionStorage 大數據存儲與用戶管理網絡對接的平面,簡稱管理平面,用于客戶維護終端接入 FusionStorage 大數據存儲。BMC 平面:用于接入 FusionStorage 大數據存儲節點 Mgmt 接口,簡稱BMC 平面,提供遠程硬件設備管理功能。FusionStorage 大數據存儲組網示意如下圖所示。圖3-10 組網示意圖FusionStorage 大數據存儲支持GE、10GE 和 25GE,如下表所示。表3-1 組網方案匯總表方案業務網絡接入方式存儲網絡接入方式10GE 組網方案10GE10GE25GE 組網方案25G

41、E25GEGE 組網方案GE10GE同時,FusionStorage 大數據存儲支持華為 FusionCloud 私有云整體解決方案場景,此時遵循 FusionCloud 解決方案組網原則。組網方案組網設計原則FusionStorage 大數據存儲的組網包括業務平面和存儲平面均采用 10GE 組網、業務平面采用 GE 組網同時存儲平面采用 10GE 組網以及業務和存儲平面均采用 25GE 組網三種方式。集群內組網方案集群內典型組網方案根據業務和存儲平面是否共用交換機有如下兩種:圖3-11 業務和存儲平面獨立交換機組網圖3-12 業務和存儲平面共用交換機組網上述兩個圖示均為單個子網內的節點和交換

42、機連線示意圖,單個集群由若干個這樣的子網組成。子網之間通過匯聚交換機互聯。軟件部署局域網部署方案局域網部署方案簡單便捷,以 5 個節點的集群為例,如下圖所示,node4 和node5 上面的 DNS 業務以雙活的方式運行。為清晰起見,圖中沒有顯式地畫出存儲平面網絡交換機,對外 IP 地址用 1.11.5 表示。在計算節點(個人電腦或服務器)上添加 DNS 服務器地址項,指定為FusionStorage 大數據存儲的 DNS IP 地址(圖中為 1.4 和 1.5)。用戶訪問過程:客戶請求訪問域名 ,計算節點從 2 個 DNS 服務器地址 1.4 和 1.5 中選取 1.5(也可以選擇 1.4)

43、,并請求解析 ;節點 node5 上的 DNS 服務域名 解析為 1.1,并返回給客戶端。計算節點將得到的 IP 地址緩存,然后訪問 IP 地址 1.1 對應的 node1;在緩存期內,下次訪問就不再請求域名解析,直接訪問緩存中的 IP 地址。該方案的優點是部署簡單;劣勢是無法跨網段訪問,緩存中的 IP 地址對應的節點恰好故障時,需要等待緩存自動刷新后才能再次正常訪問。圖3-13 局域網用戶訪問流程廣域網部署 DNS 方案與局域網方案相比,本方案增設了DNS 服務器,如下圖,DNS 服務器中配置 的下級 DNS 地址為 1.4 和 1.5。用戶訪問過程:客戶請求訪問域名,計算節點通過廣域網向

44、DNS 服務器請求解析域名 ;DNS 服務器從 2 個 DNS 中選取 1 個(1.5),并將解析請求轉交給它(node5); node5 根據所有節點的狀態,根據一定的策略來解析,圖 23 中將 解析為 1.1(對應 node1)并返回給DNS;DNS 接收到 DNS 的解析結果之后,并結果轉交給計算節點并在本地緩存;計算節點在本地緩存解析結果,在緩存有效期內,直接使用本緩存中的 IP 址。本方案的優勢是計算節點不用做任何設置,直接使用。圖3-14 廣域網用戶訪問流程 4高性能和彈性擴展 HYPERLINK l _bookmark31 單 namespace 高性能 HYPERLINK l

45、_bookmark32 元數據多級緩存 HYPERLINK l _bookmark33 全局負載均衡 HYPERLINK l _bookmark34 數據在線聚合 HYPERLINK l _bookmark35 無狀態集群 HYPERLINK l _bookmark36 彈性擴展單 namespace 高性能原生HDFS 存儲系統在單namespace 文件數量和性能面臨的兩大挑戰:系統擴展性支持的節點規模有限,難以滿足 100PB 級的擴展性要求;namespace 和文件的元數據管理存在瓶頸,單 namespace 文件數量有限(一億左右)。這兩大挑戰導致單 namespace 容量和性能

46、受限,不能發揮整系統的能力,而需要用戶系統去做多 namespace 的管理,增加了適配和管理存儲的復雜性。針對這兩大挑戰和用戶訴求,FusionStorage 大數據存儲通過一些關鍵技術解決了單 namespace 的性能問題:FusionStorage 大數據存儲架構的三層(Service Layer,Index Layer,Persistence Layer)都是互相解耦,可以各自橫向擴展的。單集群最大支持 4096 個節點,支持 EB 級擴展,充分滿足客戶海量數據單一資源池存儲、使用管理簡便的述求(解決單 namespace 的擴展性瓶頸)。Range 動態分區技術將元數據管理打散,每

47、個服務器管理一組分段的元數據,支持故障切換及動態均衡:圖4-1 動態分區如上圖所示,FusionStorage 大數據存儲將“namespace+文件名”進行字典序排序,組成統一的元數據空間,然后根據元數據的大小和熱度進行動態分區,分成多個Partition,若干個Partition 由一個元數據服務器管理,最終實現元數據在所有節點(Node)打散(解決單namespace 的元數據管理瓶頸)。Persistence Layer(數據持久層)基于 DHT 免布局元數據技術進行數據路由,保證數據可均勻分布到系統的所有節點和磁盤(解決單namespace 的數據分布瓶頸)。FusionStorag

48、e 大數據存儲的單 namespace 支持 100 億文件,充分滿足客戶業務應用單namespace 讀寫業務的述求,免除了分 namespace 改造的麻煩。元數據多級緩存FusionStorage 大數據存儲支持元數據的多級緩存,以提升讀性能,加速熱點數據的快速訪問。圖4-2 多級緩存機制如上圖所示,FusionStorage 大數據存儲的元數據首先在系統中進行壓縮存儲,可大幅減少元數據量:元數據以字符串為主,壓縮率比較高;選快速壓縮算法,能夠取得比較好的壓縮效果,并且 CPU 占用不高。元數據壓縮后,首先在DRAM 中做一級緩存,提供微秒級元數據讀性能,然后利用SSD 做二級緩存,提供

49、毫秒級元數據讀性能。全局負載均衡FusionStorage 大數據存儲的 DHT(Distributed Hash Table)機制以保證上層應用對數據的 IO 操作會均勻分布在不同服務器的不同硬盤上,不會出現局部的熱點,實現全局負載均衡:系統自動將每個文件的數據打散存儲在不同服務器的不同硬盤上,冷熱不均的數據會均勻分布在不同的服務器上,不會出現集中的熱點。擴容節點或者故障減容節點時,數據恢復重建算法保證了重建后系統中各節點負載的均衡性。元數據按照全局排序后,分段分區的存儲在每個節點上,根據請求量和數據總量動態調整分區大小。數據在線聚合FusionStorage 大數據存儲支持將各種不同大小的

50、文件,在線聚合為一個 EC 滿分條, 然后按每個條帶(Strip)512K 的大顆粒 IO 寫入 HDD,從而最大程度發揮 HDD 的大IO 優勢,規避 HDD 的低 IOPS 短板。圖4-3 數據在線聚合如上圖所示,不同Client 上傳的文件在同一個 Server 上會匯聚成一個個 512KB 的 IO, 然后每N 個 512K 的 IO 并發寫入N 個 HDD 上(假設 EC 的比例為N+M)。一般單個 HDD 的能力在 200 IOPS 或 100MB/s 左右,以Client 寫入 200 個 100KB 大小的 IO 為例,如果不做聚合,這 200 個 IO 已經達到了 HDD 的

51、 IOPS 瓶頸,但實際提供的帶寬 只有 200 * 100KB=20MB/s 左右;如果 Server 能做聚合,將這 200 個 IO 聚合為 40 個512K 的 IO,那么單個 HDD 的只有 40 IOPS 和 20MB/s 的壓力,兩項指標都未達到瓶頸,這個 HDD 仍然可以接入更多的 IO,可以最大程度發揮 HDD 的高帶寬優勢。無狀態集群FusionStorage 大數據存儲接入節點以集群方式組網,基于一次簡單尋址的分布式哈希算法,接入節點與存儲節點之間的松耦合關系使得接入節點成為無狀態服務節點,任何服務請求都可以通過負荷分擔機制由任一接入節點提供服務,不存在傳統存儲由于狀態同

52、步、鎖定機制導致的接入節點數目擴展瓶頸,因此接入節點集群內的節點數目理論上可以無限擴展,支撐容量線性擴展不存在架構上的瓶頸。彈性擴展FusionStorage 大數據存儲的分布式擴展性具備如下特點:快速負載均衡:擴容存儲節點后不需要做大量的數據搬遷,系統可以快速達到負載均衡狀態。靈活的擴容方式:可以獨立擴容計算節點、硬盤、存儲節點,或者同時進行擴容。性能線性增長:機頭、存儲帶寬和Cache 都均勻分布到各個節點上,系統TPS、吞吐量和Cache 隨著節點的擴容而線性增加。圖4-4 FusionStorage 大數據存儲擴容FusionStorage 大數據存儲支持節點動態擴展,推薦節點為 34

53、096 節點。隨著節點數的增加,存儲容量和計算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發 數。FusionStorage 大數據存儲提供了全局一致的緩存,緩存容量隨著節點增加而線性增長,隨著節點數目的增加,越來越多的熱點數據可以被緩存命中,大大減少硬盤隨機 I/O,提高整系統性能。傳統的存儲系統需要耗時的規劃、升級和維護活動,增加容量或者性能往往需要橫向擴展和重新配置應用程序,從而導致中斷用戶活動,并最終損失工作效率和收入;FusionStorage 大數據存儲在擴容時也保持這個特征,分鐘級的擴容能力,自動負載均衡,不需要更改配置,不更改服務器或者客戶端的設置,不需要更改應用程序,客戶

54、業務無中斷。 5高可靠FusionStorage 大數據存儲提供了數據跨節點的保護能力,在多個硬盤或者節點故障時也能夠繼續提供服務,將數據放置到同一個節點池內不同節點的不同硬盤上,數據獲得了跨節點的可靠性和故障快速恢復的能力。 HYPERLINK l _bookmark38 數據冗余保護機制 HYPERLINK l _bookmark42 數據一致性 HYPERLINK l _bookmark42 快速數據重建 HYPERLINK l _bookmark43 集群可靠性 HYPERLINK l _bookmark44 硬件可靠性 HYPERLINK l _bookmark45 鏈路可靠性數據冗

55、余保護機制FusionStorage 大數據存儲采用Erasure Code(糾刪碼,以下簡稱 EC)模式實現數據冗余保護。數據條帶化為實現數據保護和高性能讀寫,系統對數據進行按節點條帶(Strip)化處理。首先, 創建新文件時,系統會按照默認保護級別挑選符合要求的節點,然后寫數據時系統將用戶的數據平均分布在各節點上,讀數據時系統從所有節點并行讀取。FusionStorage 大數據存儲使用Erasure Code 方式存儲數據,可以針對“租戶”配置不同的數據保護方式(+2/+3/+4 等)。不同的數據保護方式,是通過不同的數據條帶化方式實現的。寫入 FusionStorage 大數據存儲系統

56、的數據,會按照固定大小(比如512KB)劃分為一個條帶,將文件的數據切分為多個原數據條帶,然后對每N 個原數據條帶,計算得到 M 個冗余數據條帶,最終這 N+M 個條帶組成一個分條(Stripe),寫入到系統中。當系統出現故障,丟失了其中的某些條帶時,只要一個分條中丟失的條帶數目不超過 M,就可進行正常的數據讀寫。通過數據恢復算法,丟失的條帶可從剩余條帶中計算得到。在這種方式下,空間的利用率約為 N/(N+M),數據的可靠性由M 值的大小決定,M 越大可靠性越高。N+M 數據保護相比于傳統的RAID 方式,FusionStorage 大數據存儲在提供高可靠性的同時也能夠提供更高的磁盤利用率。傳

57、統RAID 把數據存放在一個RAID 組內的不同硬盤上,當其中有硬盤損壞時,通過RAID 重構,恢復壞盤上的數據。這類存儲系統常用的 RAID 方式有RAID-0/1/5/6 等, 其中可靠性最高的RAID-6 最多只能支持 2 塊硬盤同時發生故障。另外一方面,這類存儲系統使用控制器執行RAID 數據存儲,為了預防控制器故障,它們通常使用雙控制器的方式來保證服務的可用性,但當 2 個控制器同時發生故障時,還是會導致服務中斷。雖然這類系統還可以通過在多個節點間進行同步/異步的數據復制,進一步提高系統可靠性,但這會導致硬盤利用率很低,讓用戶承擔較高的TCO(總體擁有成本)。如下圖。圖5-1 傳統

58、RAID 數據保護FusionStorage 大數據存儲的數據保護技術,是建立在分布式、節點間冗余的基礎上的。數據進入系統之后,首先被切分為N 個數據條帶,然后計算出 M 個冗余條帶,并最終保存在 N+M 個不同的節點中。如下圖。圖5-2 N+M 數據保護由于同一條帶的數據保存在不同節點中,所以 FusionStorage 大數據存儲中的數據不僅能支持硬盤級的故障,而且能夠支持節點級的故障,保證數據不丟失。只要系統中同時故障的節點數不超過 M,系統就可以持續提供服務。通過數據重構過程,系統可以恢復出損壞的數據,恢復整系統的數據可靠性。FusionStorage 大數據存儲的數據保護方式與傳統R

59、AID 相比,能達到類似于傳統RAID 在多節點數據復制的高可靠性,同時仍可保持N/(N+M)的高硬盤利用率。另外, 在 FusionStorage 大數據存儲系統中,任意可用空間都可以作為“熱備”空間使用,不需要像傳統 RAID 那樣預先劃分獨立的熱備盤,因此可進一步提高存儲利用率。FusionStorage 大數據存儲提供多種N+M 的冗余比配置,用戶可根據業務需求在管理界面上進行配置。這意味著用戶可以靈活多變的根據自己的實際需求來指定數據冗 余,從而設置最適合的可靠性。節點級安全級別FusionStorage 大數據存儲使用全分布式架構,文件數據和元數據在切片和 EC 后,會打散分布在每

60、臺節點上。在節點數目與數據分片的比例達到最低要求的情況下,系統支持節點級安全。如:選取 EC 的 N+M 為 4+2,則只需要最小 6 個節點即可做到節點級安全(4+2 共 6 個分片,每個節點分布 1 個分片)。每個節點會嚴格存儲 1 個數據分片(數據校驗片),這樣任意節點臨時故障,仍然能保證數據可讀。如果節點數目達到 7 個,則能支持在永久故障一個節點的情況下,EC 比例不下降,仍為 4+2。根據上述原則,節點級安全的最少節點數計算公式可以總結為(N+M)/M + 1。下圖為節點級安全的節點排布。當其中一個節點故障時,仍能從剩下的 5 個節點中讀取出 5 個分片,通過 EC 計算,得到原始

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論