云計算導論:概念 架構與應用-PPT第7章_第1頁
云計算導論:概念 架構與應用-PPT第7章_第2頁
云計算導論:概念 架構與應用-PPT第7章_第3頁
云計算導論:概念 架構與應用-PPT第7章_第4頁
云計算導論:概念 架構與應用-PPT第7章_第5頁
已閱讀5頁,還剩42頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、云計算導論:概念 架構與應用第7章 云存儲人民郵電出版社 21世紀高等院校云計算和大數據人才培養規劃教材結構模型概述云存儲架構云存儲類型及其適合的應用7.17.2內容導航CONTENTS關鍵技術典型的云存儲服務7.67.1 概述云存儲這個概念一經提出,就得到了眾多廠商的支持和關注。Amazon公司推出“簡單存儲服務”(Simple Storage Service,S3)技術支持數據持久性存儲;Google推出在線存儲服務Gdrive。云存儲(Cloud Storage)的概念與云計算類似,它是指通過集群應用、網絡技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通

2、過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。用戶使用云存儲,并不是使用某一個存儲設備,而是使用整個云存儲系統帶來的一種數據訪問服務。云存儲的核心是應用軟件與存儲設備相結合,通過應用軟件來實現存儲設備向存儲服務的轉變,是一個以數據存儲和管理為核心的云計算系統。當云計算系統運算和處理的核心是大量數據的存儲和管理時,云計算系統中就需要配置大量的存儲設備,那么云計算系統就轉變成為一個云存儲系統,所以云存儲是一個以數據存儲和管理為核心的云計算系統。7.1 概述云存儲系統的通用特征(3)低成本(4)多租戶(5)無接入限制(2)高可擴展性(1)易管理概述云存儲類型及其適合的應用

3、7.1內容導航CONTENTS結構模型云存儲架構7.2關鍵技術典型的云存儲服務7.67.2 結構模型云存儲系統與傳統存儲系統相比,具有如下不同:從功能需求來看,云存儲系統面向多種類型的網絡在線存儲服務,而傳統存儲系統則面向如高性能計算、事務處理等應用從性能需求來看,云存儲服務首先需要考慮的是數據的安全、可靠、效率等指標,而且由于用戶規模大、服務范圍廣、網絡環境復雜多變等特點,實現高質量的云存儲服務必將面臨更大的技術挑戰從數據管理來看,云存儲系統不僅要提供類似于POSIX的傳統文件訪問,還要能夠支持海量數據管理并提供公共服務支撐功能,以方便云存儲系統后臺數據的維護。7.2 結構

4、模型與傳統的存儲設備相比,云存儲不僅僅是一個硬件,而是一個由網絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網和客戶端程序等多個部分組成的復雜系統。各部分以存儲設備為核心,通過應用軟件來對外提供數據存儲和業務訪問服務。存儲層:云存儲最基礎的部分。基礎管理層:云存儲最核心的部分,也是云存儲中最難以實現的部分。應用接口層:不同的云存儲運營單位可以根據實際業務類型,開發不同的應用服務接口,提供不同的應用服務。訪問層:任何一個授權用戶都可以通過標準的公用應用接口來登錄云存儲系統,享受云存儲服務。云存儲的結構模型概述云存儲類型及其適合的應用7.1內容導航CONTENTS結構模型7.2云存儲架構關

5、鍵技術典型的云存儲服務7.67.3 云存儲架構云存儲架構可以分為兩大類:緊耦合對稱架構和松耦合非對稱架構。傳統的存儲系統利用緊耦合對稱架構,這種架構的設計旨在解決HPC(高性能計算、超級運算)問題,現在其正在向外擴展成為云存儲,從而滿足快速呈現的市場需求。新的存儲系統已經采用了松弛耦合非對稱架構,集中元數據和控制操作,這種架構并不非常適合高性能HPC,但是這種設計旨在解決云部署的大容量存儲需求。7.3 云存儲架構構建TCS系統是為了解決單一文件性能所面臨的挑戰,這種挑戰限制了傳統NAS系統的發展。HPC系統所具有的優勢迅速壓倒了存儲,因為它們需要的單一文件I/O操作要比單一設

6、備的I/O操作多得多。為了解決這一問題,業內創建了TCS架構的產品,很多節點同時伴隨著分布式鎖管理(鎖定文件不同部分的寫操作)和緩存一致性功能。緊耦合對稱(TCS)架構LCA系統采用不同的方法來向外擴展,它不是通過執行某個策略來使每個節點知道每個行動所執行的操作,而是利用一個數據路徑之外的中央元數據控制服務器。節點可以利用不同的商品硬件CPU和存儲配置,而且仍然在云存儲中發揮作用。用戶可以通過利用硬件性能或虛擬化實例來調整云存儲。消除節點之間共享的大量狀態開銷可以消除用戶計算機互聯的需要,進一步降低成本。異構硬件的混合和匹配使用戶能夠在需要的時候在當前經濟規模的基礎上擴大存儲。存儲節點可以旋轉

7、地進行深層次應用程序歸檔,而且在控制節點上,元數據經常都是可用的。松弛耦合非對稱(LCA)架構這種解決方案對于單文件吞吐量問題很有效,已經在很多HPC客戶中得到了廣泛應用,同時也很先進,需要一定程度的技術經驗才能安裝和使用。概述7.1內容導航CONTENTS結構模型7.2云存儲架構7.3云存儲類型及其適合的應用關鍵技術7.47.5典型的云存儲服務7.67.4 云存儲類型及其適合的應用云存儲是為解決傳統存儲無法解決的問題而產生的,并不是要完全取代傳統的存儲。存儲方案的選擇,要根據數據的形態、數據量及數據讀寫的方式來做規劃。每個存儲方案都有它的優點與缺點,用戶需要根據自己的應用場景選擇合適的云存儲

8、類型。我們可以把云存儲分成三類:塊存儲(Block Storage)、文件存儲(File Storage)和對象存儲(Object Storage)。7.4.1 塊存儲塊存儲會把單筆的數據寫到不同的硬盤,借以得到較大的單筆讀寫帶寬,適合用在數據庫或者需要單筆數據快速讀寫的應用。它的優點是對單筆數據讀寫很快,缺點是成本較高,并且無法解決真正海量文件的存儲。塊存儲系統主要適合于下面兩種應用場合。快速更改的單一文件系統。快速更改單一文件的例子包括數據庫、共用的電子表單。針對單一文件大量寫的高性能計算(HPC)。某些高性能計算有成百上千個使用端,同時讀寫同一個單一的文件,為了提高讀寫效能,這些文件被分

9、布到很多個節點,這些節點需要緊密地協作,才能保證數據的完整性,這些應用由集群軟件負責處理復雜的數據傳輸。例如石油探勘及財務數據模擬。7.4.1 塊存儲兩種塊存儲類型DAS是直接連接于主機服務器的一種儲存方式,每一臺主機服務器有獨立的存儲設備,每臺主機服務器的存儲設備無法互通,需要跨主機存取資料時,必須經過相對復雜的設定,是一種應用較為早的技術實現。DAS(Direct Attached Storage)SAN(Storage Area Network)SAN是一種用高速(光纖)網絡連接專業主機服務器的一種儲存方式,此系統會位于主機群的后端,它使用高速I/O 連接方式,如SCSI、ESCON 及

10、Fibre-Channels。SAN特點是代價高、性能好。7.4.2 文件存儲文件較大,總讀取帶寬要求較高。例如,網站、IPTV。多個文件同時寫入。例如,監控系統。長時間存放的文件。例如,文件備份、存放或搜尋。文件存儲系統適合的應用場合文件的并發讀取。文件及文件系統本身較大。文件使用期較長。對成本控制要求較高。存儲應用共通的特性文件存儲是基于文件級別的存儲,它是把一個文件放在一個硬盤上,即使文件太大拆分時,也放在同一個硬盤上。它的缺點是對單一文件的讀寫會受到單一硬盤效能的限制,優點是對一個多文件、多人使用的系統,總帶寬可以隨著存儲節點的增加而擴展,它的架構可以無限制地擴容,并且成本低廉。7.4

11、.3 對象存儲與文件系統不同,對象存儲系統并非將文件組織成一個目錄層次結構,而是在一個扁平化的容器組織中存儲文件(在Amazon的S3系統中被稱作“桶”),并使用唯一的ID(在S3中被稱作“關鍵字”)來檢索它們。其結果是對象存儲系統相比文件系統需要更少的元數據來存儲和訪問文件,并且它們還減少了因存儲元數據而產生的管理文件元數據的開銷。對象存儲系統是針對Linux集群對存儲系統高性能和數據共享的需求而研究的全新的存儲架構。Amazon的S3和OpenStack的Swift存儲系統就是典型的對象存儲系統。對象存儲系統的功能通常是最少的,用戶僅僅能夠存儲、檢索、復制和刪除文件,還可以控制哪些用戶可以

12、進行哪些操作。對象存儲系統的HTTP接口允許全球各地的用戶快速、方便地訪問文件。對象存儲的另一大缺點是只支持數據的最終一致性。每當用戶更新一個文件,直到這一更改被傳播到所有副本以后,用戶才能獲取到最新版本。對象存儲和文件系統在接口上的本質區別是對象存儲不支持隨機位置讀寫操作。7.4.3 對象存儲對象存儲系統的出現主要是為了滿足數據歸檔和云服務兩大需求,對象存儲的主要應用場景如下。0201040301OPTION02OPTION03OPTION04OPTION存儲資源池(空間租賃)。使用對象存儲構建類似Amazon S3的存儲空間租賃服務,向個人、企業或應用提供按需擴展的彈性存儲服務。網盤應用。

13、使用圖形用戶界面(GUI)實現對象存儲資源的封裝,向用戶提供類似百度云的網盤業務。集中備份。對象存儲通過與Comvault Simpana、Symantec NBU等主流備份軟件結合,可向用戶提供更具成本效益、更低TCO的集中備份方案。歸檔和分級存儲。對象存儲通過與歸檔軟件、分級存儲軟件結合,將在線系統中的數據無縫歸檔/分級存儲到對象存儲,釋放在線系統存儲資源。7.4.4 小結Summary云存儲是希望借由服務器便宜的成本及彈性的架構,解決傳統存儲不能滿足的問題,客戶可以根據數據的形態,選擇合適的存儲方案。對象存儲打破了原來文件系統一統天下的局面,給用戶帶來了更多的選擇,但這并不意味著對象存儲

14、系統可以取代文件系統。文件系統將來的發展趨勢更多的是專用文件系統,而不再是像以前那樣一套文件系統適用于所有場景,更有一些部分要讓位于對象存儲或者其他存儲形態。對象存儲系統更適合于互聯網和類似互聯網的應用場景。對象存儲系統適合存儲海量10KB級到GB級對象/文件的存儲。如果一個應用具有上述兩種特點,就可以考慮使用對象存儲系統。概述7.1內容導航CONTENTS結構模型7.2云存儲架構7.3云存儲類型及其適合的應用關鍵技術7.47.5典型的云存儲服務 存儲虛擬化1主要存儲虛擬化技術存儲虛擬化技術雖然在不同設備與廠商之間略有區別,但從總體來說,可以概括為以下3種:基于存儲設備虛擬化基

15、于存儲網絡虛擬化基于主機虛擬化基于主機的虛擬化存儲的實現,其核心技術是通過增加一個運行在操作系統下的邏輯卷管理軟件將磁盤上的物理塊號映射成邏輯卷號,并以此實現把多個物理磁盤陣列映射成一個統一的虛擬的邏輯存儲空間(邏輯塊),實現存儲虛擬化的控制和管理。基于存儲設備虛擬化技術依賴于提供相關功能的存儲設備的陣列控制器模塊,常見于高端存儲設備,其主要應用針對異構的SAN存儲構架。基于存儲網絡虛擬化的技術的核心是在存儲區域網中增加虛擬化引擎實現存儲資源的集中管理,其具體實施一般是通過具有虛擬化支持能力的路由器或交換機實現。在此基礎上,存儲網絡虛擬化又可以分為帶內虛擬化與帶外虛擬化兩類。7.5.1 存儲虛

16、擬化2存儲虛擬化技術對比實現層面主機網絡設備優點支持異構的存儲系統;不占用磁盤控制器資源與主機無關,不占用主機資源;能夠支持異構主機、異構存儲設備;對不同存儲設備構建統一管理平臺,可擴展性好與主機無關,不占用主機資源;數據管理功能豐富;技術成熟度高缺點占用主機資源,降低應用性能;存在操作系統和應用的兼容性問題;主機數量越多,管理成本越高占用交換機資源;面臨帶內、帶外的選擇;存儲設備兼容性需要嚴格驗證;原有的磁盤陣列的高級存儲功能將不能使用受制于存儲控制器接口資源,虛擬化能力較弱;異構廠家存儲設備的高級存儲功能將不能使用主要用途使服務器的存儲空間可以跨越多個異構磁盤陣列,常用于在不同磁盤陣列之間

17、做數據鏡像保護異構存儲系統整合和統一數據管理(災備)異構存儲系統整合和統一數據管理(災備)適用場景主機已采用SF卷管理,需要新接多臺存儲設備;存儲系統中包含異構陣列設備;業務持續能力與數據吞吐要求較高系統包括不同品牌和型號的主機與存儲設備;對數據無縫遷移及數據格式轉換有較高時間性保證系統中包括自帶虛擬化功能的高端存儲設備與若干需要利舊的中低端存儲不適用場景主機數量大,采用SF會涉及高昂的費用,待遷入系統數據量過大,如果只能采取存儲級遷移方式,數據格式轉換將耗費大量的時間和人力對業務持續能力和穩定性要求苛刻需要新購機頭時,費用較高;存在更高端的存儲設備存儲虛擬化技術對比7.5.2 分布式存儲技術

18、分布式存儲是通過網絡使用服務商提供的各個存儲設備上的存儲空間,并將這些分散的存儲資源構成一個虛擬的存儲設備,數據分散的存儲在各個存儲設備上。分布式存儲面臨的數據需求比較復雜,大致可以分為三類。1概述非結構化數據半結構化數據結構化數據一般存儲在關系數據庫中,可以用二維關系表結構來表示。介于非結構化數據和結構化數據之間,HTML文檔就屬于半結構化數據。包括所有格式的辦公文檔、文本、圖片、圖像、音頻和視頻信息。7.5.2 分布式存儲技術分布式文件系統分布式塊存儲系統分布式對象存儲系統分布式表存儲系統目前的分布式文件系統存儲的實現有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化,或者基于x86硬

19、件集群和分布式文件系統集成在一起,以實現海量非結構化數據處理能力。分布式塊存儲系統以標準的Intel/Linux 硬件組件作為基本存儲單元,組件之間通過千兆以太網采用任意點對點拓撲技術相互連接,共同工作,構成大型網格存儲,網格內采用分布式算法管理存儲資源。如IBM XIV存儲系統。對象存儲系統是針對Linux集群對存儲系統高性能和數據共享的需求而研究的全新的存儲架構。對象存儲系統架構具有高可擴展性,支持數據的并發讀寫,一般不支持數據的隨機寫操作。最典型的應用實例就是Amazon的S3。分布式表格系統以表格為單位組織數據,每個表格包括很多行,通過主鍵標識一行,支持根據主鍵的CRUD功能以及范圍查

20、找功能。分布式表格系統借鑒了很多關系數據庫的技術,典型的系統包括Google Bigtable等。2分布式存儲系統的種類不同的分布式存儲系統適合處理不同類型的數據,分布式存儲系統可以分為以下四類:7.5.2 分布式存儲技術Summary如今分布式存儲系統已經得到了快速的發展,其技術已經較為成熟。先進的分布式存儲系統必須具備下面幾個特性:高性能:對于分布式系統中的每一個用戶都要盡量減小網絡的延遲和因網絡擁塞、網絡斷開、節點退出等問題造成的影響;高可靠性:分布式環境通常都有高可靠性需求,用戶將文件保存到分布式存儲系統的基本要求是數據可靠;高可擴展性:分布式存儲系統需要能夠適應節點規模和數據規模的擴

21、大;透明性:需要讓用戶在訪問網絡中其他節點中的數據時能感到像是訪問自己本機的數據一樣;自治性:分布式存儲系統需要擁有一定的自我維護和恢復功能。小 結7.5.3 數據容錯數據容錯技術是云存儲研究領域的一項關鍵技術,良好的容錯技術不但能夠提高系統的可用性和可靠性,而且能夠提高數據的訪問效率。數據容錯技術一般都是通過增加數據冗余來實現的,以保證即使在部分數據失效以后也能夠通過訪問冗余數據滿足需求。冗余提高了容錯性,但是也增加了存儲資源的消耗。因此,在保證系統容錯性的同時,要盡可能地提高存儲資源的利用率,以降低成本。目前,常用的容錯技術主要有基于復制(Replication)的容錯技術和基于糾刪碼(E

22、rasure Code)的容錯技術兩種。基于復制的容錯技術簡單直觀,易于實現和部署,但是需要為每個數據對象創建若干同樣大小的副本存儲空間開銷很大;基于糾刪碼的容錯技術則能夠把多個數據塊的信息融合到較少的冗余信息中,因此能夠有效地節省存儲空間,但是對數據的讀寫操作要分別進行編碼和解碼操作,需要一些計算開銷。7.5.3 數據容錯通過集中式的存儲目錄來定位數據對象的存儲位置,這種方法可以利用存儲目錄中存放的存儲節點信息,將數據對象的多個副本放置在不同機架上,提高系統的數據可靠性,Google文件系統(GFS)、Hadoop 分布式文件系統(HDFS)等都采用這種數據布局方式。缺陷是隨著存儲目錄和數據

23、對象數量的增長,查找數據對象所需的開銷也會越來越大。此外,還會限制系統的擴展性。副本放置策略一即基于哈希算法的副本布局方法,它完全摒棄了記錄數據對象映射信息的做法。該方法需要滿足以下要求。均衡性:根據節點權重為存儲節點分配數據對象。動態自適應性:當系統中的節點數量發生變化時,需遷移的數據量應該盡量少。低性能開銷:盡可能提高存儲效率。高效性:確定副本位置所需的時間開銷盡可能小,理想情況下為O(1)。副本放置策略二1基于復制的容錯技術基于復制的容錯技術對一個數據對象創建多個相同的數據副本,并把得到的多個副本散布到不同的存儲節點上。當若干數據對象失效以后,可以通過訪問其他有效的副本獲取數據。基于復制

24、的容錯技術主要關注數據組織結構和數據復制策略兩方面的研究。7.5.3 數據容錯2基于糾刪碼的容錯技術基于復制的容錯技術存儲開銷巨大,要提供冗余度為k的容錯能力,就必須另外創建k個副本,存儲空間的開銷也增大了k倍。基于編碼的容錯技術通過對多個數據對象進行編碼產生編碼數據對象,進而降低完全復制帶來的巨大的存儲開銷。糾刪碼(Erasure Coding)技術是一類源于信道傳輸的編碼技術,因為能夠容忍多個數據幀的丟失,被引入到分布式存儲領域,使得基于糾刪碼的容錯技術成為能夠容忍多個數據塊同時失效的、最常用的基于編碼的容錯技術。7.5.4 數據備份在以數據為中心的時代,數據的重要性毋庸置疑,數據備份技術

25、非常重要。數據備份技術是將數據本身或者其中的部分在某一時間的狀態以特定的格式保存下來,以備原數據出現錯誤、被誤刪除、惡意加密等各種原因不可用時,可快速準確地將數據進行恢復的技術。數據備份是容災的基礎,是為防止突發事故而采取的一種數據保護措施,根本目的是數據資源重新利用和保護,核心的工作是數據恢復。典型的用戶備份流程是:每天都要在凌晨進行一次增量備份,然后每周末凌晨進行全備份。一旦出現了數據災難,用戶可以恢復到某天(注意是以天為單位的)的數據,因此在最壞的情況下,可能丟失整整一天的數據。但是,如果縮小備份時間單位,會影響用戶的正常使用。7.5.4 數據備份為了確保數據的更高安全性,用戶必須對在線

26、系統實行在線實時復制,盡可能多地采用快照等磁盤管理技術維持數據的高可用性,這樣勢必需要增加很大一部分投資。連續數據保護(CDP)是一種連續捕獲和保存數據變化,并將變化后的數據獨立于初始數據進行保存的方法,而且該方法可以實現過去任意一個時間點的數據恢復。盡管一些廠商推出了CDP產品,然而從它們的功能上分析,還做不到真正連續的數據保護,比如有的產品備份時間間隔為一小時,那么在這一小時內仍然存在數據丟失的風險CDP系統可能基于塊、文件或應用,并且為數量無限的可變恢復點提供精細的可恢復對象。CDP可以提供更快的數據檢索、更強的數據保護和更高的業務連續性能力,而與傳統的備份解決方案相比,CDP的總體成本

27、和復雜性都要低。CDP系統的特點7.5.5 數據縮減技術自動精簡配置是一種存儲管理的特性,核心原理是“欺騙”操作系統,讓操作系統認為存儲設備中有很大的存儲空間,而實際的物理存儲空間則沒有那么大。自動精簡配置技術是利用虛擬化方法減少物理存儲空間的分配,最大限度提升存儲空間利用率。這種技術節約的存儲成本可能會非常巨大,并且使存儲的利用率超90。自動精簡配置這項技術最初由3Par公司開發,目前支持自動精簡配置的廠商正在快速增加。隨著自動精簡配置的存儲越來越多,物理存儲的耗盡成為自動精簡配置環境中經常出現的風險。因此,告警、通知和存儲分析成為必要的功能,并且對比傳統環境,其在自動精簡配置的環境中扮演了

28、更主要的角色。利用云存儲中的數據縮減技術,可以滿足海量信息爆炸式增長趨勢,一定程度上節約企業存儲成本,提高效率。1自動精簡配置7.5.5 數據縮減技術2自動存儲分層自動存儲分層(Automated Storage Tier,AST)技術能夠在同一陣列的不同類型介質間遷移數據,主要用來幫助數據中心最大程度地降低成本和復雜性。 自動存儲分層管理系統的基本業務能夠將使用不頻繁的數據安全地遷移到較低的存儲層中并削減存儲成本,把頻繁使用的數據遷移到更高性能的存儲層中。自動存儲分層(AST)在于兩個目標:降低成本和提高性能。自動存儲分層技術的特點是其分層的自動化和智能化。自動存儲分層的重要性隨著固態存儲在

29、當前磁盤陣列中的采用而提升。7.5.5 數據縮減技術目前最常見的“Sub-LUN”式自動分層存儲技術,可視為是以下三個功能的綜合。(1)存儲虛擬化。將分散在不同存儲層的磁盤區塊,組合成虛擬的Volume或LUN。也就是將Volume或LUN的區塊分散到不同存儲層上。(2)存取行為的追蹤統計與分析。持續追蹤與統計每個磁盤區塊的存取頻率,并透過定期分析,識別出存取頻率高的“熱”區塊,與存取頻率低的“冷”區塊。(3)數據遷移。以存取頻率為基礎,定期執行數據搬移,將熱點區塊數據搬移到高速存儲層,較不活躍的冷區塊數據則搬移到低速存儲層。比較自動分層存儲技術時,需注意的功能與參數包括支持的存儲層級數目、針

30、對各存儲層I/O負載與效能的監控功能等,不過最重要的兩個標準分別是“精細度”與“運算周期”。 “精細度”是指系統以多大的磁盤單位,來執行存取行為收集分析與數據遷移操作,理論上越精細、越小越好,不過副作用是越精細,將會增加追蹤統計操作給控制器帶來的負擔。“運算周期”則是指系統多久執行一次存取行為統計分析與數據遷移操作,這會影響系統能多快的反映磁盤存取行為的變化,運算周期越短、越密集,系統將能更快的依照最新的磁盤存取特性,重新配置數據在不同磁盤層集中的分布。7.5.5 數據縮減技術3重復數據刪除物理存儲設備在使用一段時間后必然會出現大量重復的數據。“重復刪除”技術 (De-duplication)

31、作為一種數據縮減技術可對存儲容量進行優化。它通過刪除數據集中重復的數據,只保留其中一份,從而消除冗余數據。使用重復刪除技術可以將數據縮減到原來的1/201/50。由于大幅度減少了對物理存儲空間的信息量,進而減少傳輸過程中的網絡帶寬、節約設備成本、降低能耗。重復數據刪除技術原理是按照消重的粒度可以分為文件級和數據塊級,重復數據刪除技術主要分為兩類。Net App公司為其所有的系統提供重復數據刪除選項,并且可以針對每個卷進行激活。此外,重復數據刪除會對數據可靠性產生影響。完全文件檢測技術主要通過Hash技術進行數據挖掘;細粒度的相同數據塊主要通過固定分塊檢測技術、可變分塊檢測技術、滑動塊技術進行重

32、復數據的查找與刪除。利用數據自身的相似性特點,通過Shingle技術、Bloom Filter技術和模式匹配技術挖掘出相同數據檢測技術不能識別的重復數據。相同數據的檢測技術相似數據的檢測與編碼技術7.5.5 數據縮減技術4數據壓縮數據壓縮就是將收到的數據通過存儲算法存儲到更小的空間中去。壓縮算法分為無損壓縮和有損壓縮。相對于有損壓縮來說,無損壓縮的占用空間大,壓縮比不高,但是它有效地保存了原始信息,沒有任何信號丟失。數據壓縮中使用的LZS算法基于LZ77實現,主要由部分構成:滑窗(Sliding Window)和自適應編碼(Adaptive Coding),如下圖所示。壓縮處理時,在滑窗中查找

33、與待處理數據相同的塊,并用該塊在滑窗中的偏移值及塊長度替代待處理數據,從而實現壓縮編碼。此外,壓縮和去重是互補性的技術,提供去重的廠商通常也提供壓縮。7.5.5 數據縮減技術5內容分發網絡技術內容分發網絡(Content Distribute Network,CDN)是一種新型網絡構建模式,主要是針對現有的互聯網進行改造。基本思想是盡量避開互聯網上由于網絡帶寬小、網點分布不均、用戶訪問量大等影響數據傳輸速度和穩定性的弊端,使數據傳輸的更快、更穩定。CDN部署結構方法是通過在網絡各處放置節點服務器,在現有互聯網的基礎之上構成一層智能虛擬網絡,實時的根據網絡流量、各節點的連接和負載情況等信息將用戶

34、的請求重新導向離用戶最近的服務節點上。概述7.1內容導航CONTENTS結構模型7.2云存儲架構7.3云存儲類型及其適合的應用關鍵技術7.47.5典型的云存儲服務7.67.6 典型的云存儲服務云存儲的概念一經提出,就得到了眾多廠商的支持和關注。目前,業內企業針對云存儲推出了很多種不同種類的云服務,Microsoft、EMC、Amazon、和Google等就是代表,下面將簡要介紹這幾個企業的云服務平臺產品。7.6.1 EMC ATMOSEMC ATOMS是第一套容量高達數千兆兆字節(PetaByte,簡稱PB)的信息管理解決方案。ATMOS能通過全球云存儲環境,協助客戶將大量非結構化數據進行自動

35、管理。憑借其全球集中化管理與自動化信息配置功能,可以使Web 2.0用戶、互聯網服務提供商、媒體與娛樂公司等安全地構建和實現云端信息管理服務。EMC ATMOS的領先優勢在于信息配送與處理的能力,采用基于策略的管理系統來創建不同層級的云存儲。ATMOS可以為非付費用戶和付費用戶創建不同的服務級別,付費用戶創建副本更多,保存在全球范圍內的多個站點,并確保更高的可靠性和更快的讀取速度。EMC ATMOS內置數據壓縮、重復數據刪除功能,以及多客戶共享與網絡服務應用程序設計接口(API)功能。EMC ATOMS簡介7.6.1 EMC ATMOSEMC ATMOS將強大的存儲容量與管理策略相結合,隨時隨

36、地自動分配數據。結合功能強大的對象元數據與策略型數據管理功能,能有效進行數據配置服務。復制、版本控制、壓縮、重復數據刪除、磁盤休眠等數據管理服務。網絡服務應用程序設計接口包括REST和SOAP,幾乎所有應用程序都能輕松整合。內含自動管理和修復功能,以及統一命名空間與瀏覽器管理工具。這些功能可大幅減少管理時間,實現任何地點輕松控制和管理。多客戶共享支持功能,可讓同一基礎架構執行多種應用程序,并被安全地分隔,這項功能最適合需要云存儲解決方案的大型企業。EMC ATMOS云存儲基礎架構解決方案內含一套價格經濟的高密度存儲系統。目前ATMOS推出三個版本,系統容量分別為120TB、240TB以及360

37、TB。EMC ATMOS的主要功能與特色7.6.2 Amazon云存儲服務Amazon S3是一個公有云服務,Web開發人員能夠存儲各種數據資源(如圖片、視頻、音樂和文檔等),以便在應用程序中使用。使用S3時,它就像一個位于互聯網的機器,有一個包含數字資產的硬盤驅動。實際上,它涉及位于多個地理位置的許多機器,其中包含數據資源或者數據資源的某些部分。Amazon還處理所有復雜的服務請求,可以存儲數據并檢索數據。1Amazon S3Amazon云服務的名稱是Amazon WebServices(AWS)。除了彈性計算云(Elastic Compute Cloud,EC2)之外,Amazon還提供了

38、兩類云存儲服務,簡單存儲服務(Simple Storage Service,S3)和彈性塊存儲服務(Elastic Block Storage,EBS)。7.6.2 Amazon云存儲服務Amazon的S3服務提供了RESTful API,用戶能夠使用任何支持HTTP通信的語言訪問S3。JetS3t項目是一個開源Java庫,可以抽象出使用S3的REST API的細節,將API公開為常見的Java方法和類。JetS3t使S3和Java語言的工作變得更加簡單,從根本上提高了效率。Amazon S3主要功能介紹理論上,S3是一個全球存儲區域網絡(SAN),它表現為一個超大的硬盤,用戶可以在其中存儲和

39、檢索數據資源。但是,從技術上講,Amazon S3采用的是對象存儲架構。通過S3存儲和檢索的資源被稱為對象。對象存儲在存儲桶(Bucket)中。用戶可以用硬盤進行類比:對象就像是文件,存儲桶就像是文件夾(或目錄)。與硬盤一樣,對象和存儲桶也可以通過統一資源標識符(Uniform Resource Identifier,URI)查找。S3還提供了指定存儲桶和對象的所有者和權限的能力,就像對待硬盤的文件和文件夾一樣。在S3中定義對象或存儲桶時,用戶可以指定一個訪問控制策略。7.6.2 Amazon云存儲服務Amazon EBS 提供可用性高、可靠性強且可預測的存儲卷,并可以與一個正在運行 Amaz

40、on EC2實例相連接且在實例中顯示的為一個設備。Amazon EBS卷能獨立于實例的生命周期而存在。Amazon EBS特別適合需要建立數據庫、文件系統或可訪問原始數據塊級存儲的應用程序。存儲卷的行為就像是一個原始的、未格式化的塊設備,且具有用戶提供的設備名稱和一個塊設備接口。Amazon EBS卷可以是1GB到1TB的大小,可以被掛接到相同可用區域內的任何一個Amazon EC2上。一個卷一次只能掛載到一個實例之上,但是多個卷卻可以掛載到同一個實例上。Amazon EBS卷還可以作為Amazon EC2 實例的一個引導分區。Amazon EBS卷是設計為高可用和高可靠的。2Amazon EBSAmazon Elastic Block Store(EBS)為Amazon EC2實例提供塊級存儲容量。主要功能有:7.6.3 Googl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論