分布式存儲(chǔ)基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲(chǔ)方案_第1頁(yè)
分布式存儲(chǔ)基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲(chǔ)方案_第2頁(yè)
分布式存儲(chǔ)基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲(chǔ)方案_第3頁(yè)
分布式存儲(chǔ)基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲(chǔ)方案_第4頁(yè)
分布式存儲(chǔ)基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲(chǔ)方案_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

塊存儲(chǔ)與分布式存儲(chǔ),在Linuxlsblk可以得到當(dāng)前主機(jī)上塊設(shè)備信息列表。本文包括了單機(jī)塊存儲(chǔ)介紹、分布式存儲(chǔ)技術(shù)Ceph介紹,云中的塊存儲(chǔ)Cinder,以及華為軟件定義的存儲(chǔ)解決方案。單機(jī)塊存儲(chǔ)一個(gè)硬盤是一個(gè)塊設(shè)備,內(nèi)核檢測(cè)到硬盤然后在/dev/下會(huì)看到/dev/sda/。由于需要利用一個(gè)硬盤來(lái)得到不同的分區(qū)來(lái)做不同的事,通過(guò)fdisk工具得到/dev/sda1,/dev/sda2等,這種方式通過(guò)直接寫入分區(qū)表來(lái)規(guī)定和切分硬盤,是最死板的分區(qū)方式。分布式塊存儲(chǔ)在面對(duì)極具彈性的存儲(chǔ)需求和性能要求下,單機(jī)或者獨(dú)立的SAN越來(lái)越不能滿足企業(yè)的需要。如同數(shù)據(jù)庫(kù)系統(tǒng)一樣,塊存儲(chǔ)在scaleupscaleout的需要。分布式塊存儲(chǔ)系統(tǒng)具有以下特性:分布式塊存儲(chǔ)可以為任何物理機(jī)或者虛擬機(jī)供給長(zhǎng)久化的塊存儲(chǔ)設(shè)備;分布式塊存儲(chǔ)系統(tǒng)治理塊設(shè)備的創(chuàng)立、刪除和attach/detach;;IO性能要求的塊設(shè)備。Ceph、AMSESBsheepdog等。CephCeph概述Ceph目前是OpenStack支持的開(kāi)源塊存儲(chǔ)實(shí)現(xiàn)系統(tǒng)(即Cinder工程backenddriver之一)。Ceph是一種統(tǒng)一的、分布式的存儲(chǔ)系統(tǒng)Ceph可以一套存儲(chǔ)系統(tǒng)化部署和運(yùn)維Ceph系統(tǒng)中則意味著真正的無(wú)中心構(gòu)造和沒(méi)有理論上限的系統(tǒng)規(guī)模可擴(kuò)展性。Ceph具有很好的性能、牢靠性和可擴(kuò)展性。其核心設(shè)計(jì)思想,概括為八個(gè)字—“無(wú)需Ceph系統(tǒng)的層次構(gòu)造Ceph系統(tǒng)分為四個(gè)層次:RADOS〔Reliable,Autonomic,DistributedObjectStore,即牢靠的、自動(dòng)化的、分布式的對(duì)象存儲(chǔ);LIBRADOS;SS、〔e〕和hhe。S〔eD和clustermapRADOS供給的特定算法相協(xié)作,便實(shí)現(xiàn)Ceph“無(wú)需查表,算算就好”的核心機(jī)制以及假設(shè)干優(yōu)秀特性。OSD〔OSDdeamon〕OSD的系統(tǒng)局部本質(zhì)上就是一臺(tái)安裝了操作系統(tǒng)和文件系統(tǒng)的計(jì)算機(jī)核的處理器、肯定數(shù)量的內(nèi)存、一塊硬盤以及一張網(wǎng)卡。在上述系統(tǒng)平臺(tái)上,每個(gè)OSD擁OSDdeamondeamonOSDmonitorOSD〔OSDdeamon〕OSD共同完client通信完成各種數(shù)據(jù)對(duì)象操作等等。Ceph中的數(shù)據(jù)尋址用戶存儲(chǔ)數(shù)據(jù)時(shí)的數(shù)據(jù)路由過(guò)程如以下圖所示:首先明確幾個(gè)概念:File——用戶需要存儲(chǔ)或者訪問(wèn)的文件Ceph開(kāi)發(fā)的對(duì)象存儲(chǔ)應(yīng)用而言,這個(gè)e也就對(duì)應(yīng)于應(yīng)用中的“對(duì)象Ojbect——RADOS所看到的“對(duì)象Objectfile的區(qū)分是,object的最大e由S限定〔通常為B或,以便實(shí)現(xiàn)底層存儲(chǔ)的組織治理。因此,當(dāng)上層RADOSsizefile時(shí),需要將fileobject〔最終一個(gè)的大小可以不同〕進(jìn)展存儲(chǔ)。PG〔PlacementGroup〕——顧名思義,PGobject的存儲(chǔ)進(jìn)展組織和位置映G負(fù)責(zé)組織假設(shè)干個(gè)〔可以為數(shù)千個(gè)甚至更多t只PG中,即,PGobject之間是“一對(duì)多”映射關(guān)系。同時(shí),一個(gè)PG會(huì)被nOSDOSDPG,即,PGOSD之間是“多對(duì)多”映射關(guān)系。在實(shí)踐當(dāng)中,n23OSDPG則可到達(dá)數(shù)百個(gè)。事實(shí)上,PG數(shù)量的設(shè)置牽扯到數(shù)據(jù)分布的均勻性問(wèn)題。OSDobjectstoragedevice。數(shù)據(jù)路由的過(guò)程需要經(jīng)過(guò)幾次尋址:File->object映射。這次映射的目的是,將用戶要操作的fileRADOS能夠處理object。其映射格外簡(jiǎn)潔,本質(zhì)上就是依據(jù)objectsizefile進(jìn)展切分。這種切分filesizeRADOSobject;fileobject實(shí)施的并行化處理。Object->PGfileobjectobject獨(dú)立PGhash(oid)&mask->pgidRADOS的設(shè)計(jì),給定PGm〔m2的整數(shù)冪maskm-1的整體結(jié)果事實(shí)上是從全部m個(gè)PGobjectPG時(shí),RADOSobjectPG之間的近似均勻映射。PG->OSDobjectPG映射到數(shù)據(jù)的實(shí)OSD。如下圖,RADOSCRUSHpgid代入其中,然后得到一組共nOSD。這nOSDPGobject。前已述及,n的數(shù)值可以依據(jù)實(shí)際應(yīng)用中對(duì)于牢靠性的需求而配置,在生產(chǎn)環(huán)境下通常為3。具體OSDOSDdeamonobject在本地文件系統(tǒng)中“object->OSD”映射中承受的哈希算法不同,CRUSH算〔clustermap〕和存儲(chǔ)配置策略的影響。OSD狀態(tài)、數(shù)量發(fā)生變化時(shí),Clustermap發(fā)生變化,映射的結(jié)果也就發(fā)生了變化。寫數(shù)據(jù)的流程clientCephfile時(shí),首先需要在本地完成尋址流程,將fileobjectobjectOSD。OSD后,clientPrimaryOSD通信,發(fā)起寫入操作。PrimaryOSD收到懇求后,分別向SecondaryOSD和TertiaryOSD發(fā)起寫入操作。當(dāng)SecondaryOSDTertiaryOSD各自完成寫入操作后PrimaryOSD發(fā)送確認(rèn)信息;PrimaryOSDOSDclientobject寫入操作完成。集群維護(hù)monitorCephOSD狀態(tài)的覺(jué)察與記錄,并且共同clustermapmasterOSDclient。OSD使用clustermapclientclustermap進(jìn)展數(shù)據(jù)的尋址。monitorOSD的當(dāng)前狀態(tài)。正相反,OSDmonitor上報(bào)狀態(tài)OSD被參加集群,二是某個(gè)OSD覺(jué)察自身或者其他Dr將更rp信息并加以集中。OSD時(shí)monitor通信,monitorclustermapupoutclustermapOSDmonitorclustermap之OSDPGPGOSD。然后與這些DG〔即承載該G的D個(gè)數(shù)少于正常值,OSDPGOSDOSD被upin狀態(tài),clustermap也更。自動(dòng)化故障恢復(fù)OSDPGOSD將替換掉故障〔G內(nèi)將重選出yD,并擔(dān)當(dāng)其數(shù)據(jù)。在數(shù)據(jù)復(fù)制完成后,D被置為upinOSDPGclustermap內(nèi)容也將據(jù)此更。自動(dòng)化的故障探測(cè)過(guò)程OSDPGOSD無(wú)法聯(lián)通,則會(huì)將這一狀況monitorOSDdeamon覺(jué)察自身工作狀態(tài)特別,也將把特別狀況主動(dòng)monitor。此時(shí),monitorOSDdownin。假設(shè)超過(guò)某一預(yù)定時(shí)間期限該OSDdown且out。假設(shè)該OSD能夠恢復(fù)正常,則其狀態(tài)會(huì)恢復(fù)成upin。OpenStackcephCephRADOSLIBRADOSRADOS的庫(kù)。hD、文件系統(tǒng)〔CEPHFS〕也就是基于這個(gè)庫(kù)完成的。在OpenStack中使用CephQEMU,libvirt和OpenStack描述了OpenStack和Ceph技術(shù)層次。libvirt配置了librbd的QEMU接口,通過(guò)它可以在OpenStack中使用CephOpenStack通過(guò)libvirt中的接口調(diào)用QEMU,QEMUCephlibRBDOpenStackCeph使用。OpenStack與Ceph有三個(gè)結(jié)合點(diǎn):鏡像:OpenStackGlance治理虛擬機(jī)鏡像。鏡像是不變的。OpenStack把鏡像當(dāng)作二進(jìn)制對(duì)象并以此格式下載。卷:卷是塊設(shè)備。OpenStack使用卷來(lái)啟動(dòng)虛擬機(jī),或者綁定卷到運(yùn)行中的虛擬機(jī)。OpenStack使用Cinder效勞治理卷。統(tǒng)盤以文件的形式消滅在r系統(tǒng)上〔。在OpenStackHavana以前的版本,在Ceph中啟動(dòng)虛擬機(jī)的唯一方式是使用Cinder的boot-from-volumeCeph中直接啟動(dòng)虛擬機(jī)而不用依靠于Cinder,這是格外有利的,能夠很簡(jiǎn)潔的進(jìn)展虛擬機(jī)的熱遷移。除此之外,假設(shè)hypervisor掛掉還能夠便利地觸發(fā)novaevacute然后無(wú)縫得在其他的地方連續(xù)運(yùn)行虛擬機(jī)。Ceph的一些問(wèn)題Ceph作為塊存儲(chǔ)工程的幾個(gè)問(wèn)題需要考慮:h在讀寫上不太穩(wěn)定〔有s的緣由,目前h官方推舉S作為底層文件系統(tǒng)CephCeph,需要較長(zhǎng)時(shí)間Ceph的部署和集群不夠穩(wěn)定AMSEBSEBSAmazonEBSvolume和快照操作。AmazonEBSIAAS效勞商最引入注目的效勞之一,目前的OpenStack、CloudStackAmazonEBS對(duì)于的如此彈性和強(qiáng)大的效勞。SheepdogSheepdogCephhackSheepdogCephMulti-Disk,cluster-widesnapshot等。Sheepdog主要有兩局部,一個(gè)是集群治理,另一個(gè)是存儲(chǔ)效勞。集群治理目前使用CorosyncZookperclienthostCache的實(shí)現(xiàn)可以大大減小數(shù)據(jù)流量。SheepdogQEMUDrive,而缺少library支持,這是Sheepdog目前最主要的問(wèn)題。云計(jì)算中的塊存儲(chǔ)OpenStackCinderNova利用主機(jī)的本地存儲(chǔ)為虛擬機(jī)供給“臨時(shí)存儲(chǔ)”,假設(shè)虛擬機(jī)被刪除了,掛在這個(gè)SANNAS等不同類型的存儲(chǔ)設(shè)備,OpenStackCinder,Swift存儲(chǔ)場(chǎng)地。CinderOpenStackEBSAPI框架,為虛擬機(jī)供給長(zhǎng)久化的Cinder供給的RESTfulAPI針對(duì)規(guī)律存儲(chǔ)卷進(jìn)展治理。其架構(gòu)如下:cinderclientRestful懇求,cinder-apicinder構(gòu)造。Cinder-volume運(yùn)行在存儲(chǔ)節(jié)點(diǎn)上治理具體存儲(chǔ)設(shè)備的存儲(chǔ)空間,每個(gè)存儲(chǔ)節(jié)點(diǎn)上都會(huì)運(yùn)行一個(gè)cinder-volume效勞,多個(gè)節(jié)點(diǎn)一起構(gòu)成了一個(gè)存儲(chǔ)資源池。Cinder-Scheduler依據(jù)預(yù)定的策略選擇適宜的cinder-volume節(jié)點(diǎn)來(lái)處理客戶懇求。Cinder-backup供給存儲(chǔ)卷備份功能。CinderCinderOpenStackDAS,NAS,SAN,對(duì)象存儲(chǔ)或者分布式文件系統(tǒng)如cephCinder的Cinder過(guò)其后段支持的driverOpenStackDB中。CinderLVM作為后端存儲(chǔ)。LVM將眾多不同的物理存儲(chǔ)器資源組成卷組,從卷組上創(chuàng)立規(guī)律卷,然后將文件系統(tǒng)安裝在規(guī)律卷上。其更為細(xì)化的架構(gòu)如以下圖所示:華為軟件定義的存儲(chǔ)方案軟件定義的存儲(chǔ)傳統(tǒng)的存儲(chǔ)當(dāng)中,存儲(chǔ)不感知VM,存儲(chǔ)擴(kuò)展困難,LUNVMLUNIOblending的問(wèn)題。為解決傳統(tǒng)存儲(chǔ)的問(wèn)題,可得到軟件定義的存儲(chǔ)具有以下幾個(gè)特征:自助式的用戶接口SLA保障各種存儲(chǔ)資源統(tǒng)一池化,自動(dòng)化治理兼容任意硬件,包括通用硬件和專用存儲(chǔ)硬件。華為軟件定義的存儲(chǔ)相關(guān)技術(shù)的華為塊存儲(chǔ)為解決傳統(tǒng)存儲(chǔ)中配置困難、兼容性不好等問(wèn)題,華為承受了統(tǒng)一的、策略驅(qū)動(dòng)的存儲(chǔ)掌握平面——OpenStackCinder。CinderAPI是統(tǒng)一的卷治理接口;CinderSchuduler是基于策略的存儲(chǔ)資源調(diào)度;CinderVolumedriver,如以下圖所示:Cinderdriver之間不能互通,數(shù)據(jù)面的力量照舊參差不齊;各產(chǎn)品之間特性會(huì)重疊;整個(gè)數(shù)據(jù)面還不夠開(kāi)放。目標(biāo)架構(gòu)→左邊的圖是當(dāng)前的架構(gòu),右邊的圖為目標(biāo)架構(gòu)。→由圖可以看出,目標(biāo)架構(gòu)中增加了一層以APP為中心的數(shù)據(jù)效勞,期望供給統(tǒng)一的以APP商。APPAPPQoSAPP為中心的緩存效勞,APPApp力度的策略治理,虛appQoS要求,如帶寬,IOPS,延遲;可配置Cache需求,如介質(zhì),容量,算法,牢靠性;可配置瘦安排需求,如總?cè)萘浚A(yù)留容量。QoS效勞通過(guò)分布式流控、分布式調(diào)度和

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論