主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對比解析_第1頁
主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對比解析_第2頁
主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對比解析_第3頁
主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對比解析_第4頁
主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對比解析_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對比解析作者:IT168 李雋目錄文件級與數(shù)據(jù)塊級的重復(fù)數(shù)據(jù)刪除 2定長切割模式VS 非定長切割模式 3基于備份源與基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除 4不同重復(fù)數(shù)據(jù)刪除方案的對比 5不同條件下重復(fù)數(shù)據(jù)刪除效果對比 6重復(fù)數(shù)據(jù)刪除如今已經(jīng)不是新鮮的話題了,基本我們看到,市面上大部分備份產(chǎn)品已經(jīng)具備重復(fù)數(shù)據(jù)刪除功能,基本上已經(jīng)成為備份領(lǐng)域產(chǎn)品的一項必備的選項。但是市面上重復(fù)數(shù)據(jù)刪除的產(chǎn)品林林總總,有備份軟件類的,也有集成在虛擬帶庫中的重復(fù)數(shù)據(jù)刪除,而一些重復(fù)數(shù)據(jù)刪除的概念也讓用戶感到迷惑,比如全局重復(fù)數(shù)據(jù)刪除?比如帶內(nèi)和帶外重復(fù)數(shù)據(jù)刪除對于用戶來說,面對如此繁多的產(chǎn)品究竟該如何選

2、擇呢?本文將梳理市場上大部分主流重復(fù)數(shù)據(jù)刪除的產(chǎn)品的特點,并分析優(yōu)劣勢,幫助用戶選擇合適的重復(fù)數(shù)據(jù)刪除產(chǎn)品。文件級與數(shù)據(jù)塊級的重復(fù)數(shù)據(jù)刪除首先我們看一下重復(fù)數(shù)據(jù)刪除的定義。所謂重復(fù)數(shù)據(jù)刪除,就是說我們要把一些相關(guān)的數(shù)據(jù),它是一些重復(fù)性的,把它從一些生產(chǎn)上刪除掉,這樣可以大大節(jié)省我們生產(chǎn)空間的增長速度,從而降低我們的電耗,而且降低整個管理成本。目前來說,大部分重復(fù)數(shù)據(jù)刪除都采用了相似的處理過程,首先是通過特定的算法,把一個文件切割成不同的小塊,其次是比較這些塊的不同性,把一些重復(fù)的刪除掉。對于文件級的數(shù)據(jù)來說,組成文件的數(shù)據(jù)塊其實是存在重復(fù)的,當(dāng)文件被切割成更小的數(shù)據(jù)塊后,重復(fù)率就大大增加了,然

3、后系統(tǒng)在每個切割的數(shù)據(jù)塊前面增加指針和索引,記錄這些塊是怎樣組合成文件的。再有文件記錄進來,文件被打碎成小的數(shù)據(jù)塊,系統(tǒng)就只會記錄和已經(jīng)存儲的數(shù)據(jù)塊不同的數(shù)據(jù)塊。并能夠根據(jù)數(shù)據(jù)塊前面的索引信息,將打碎后保存的唯一的數(shù)據(jù)塊組合成文件。將文件打碎成小的數(shù)據(jù)塊,刪除重復(fù)的數(shù)據(jù)塊后,只存儲唯一的數(shù)據(jù)塊。文件打碎前需要保存39個數(shù)據(jù)塊,打碎后唯一的數(shù)據(jù)塊只有6個以上是大部分重復(fù)數(shù)據(jù)刪除的工作過程,當(dāng)然也有不打碎成數(shù)據(jù)塊的重復(fù)數(shù)據(jù)刪除技術(shù),但那樣只能對整個文件進行比對,在文件級別進行掃描,比如文件的特性、文件的修改時間,通過這些小的不同對文件進行相應(yīng)的備份,保證每次只備份同一個文件。如果說這個文件做了一些

4、小的修改,整個文件還是需要備份的,所以它的力度是非常低的,它是文件級的。目前來說,采用文件級重復(fù)數(shù)據(jù)刪除技術(shù)的產(chǎn)品主要是一些歸檔的產(chǎn)品,例如EMC的centera,就是文件級進行相應(yīng)的歸檔,把相應(yīng)的重復(fù)的文件只留一個小的存根,每次恢復(fù)的時候只需要根據(jù)指針把相應(yīng)的數(shù)據(jù)進行恢復(fù)。當(dāng)然更多的重復(fù)數(shù)據(jù)刪除都是針對我們剛才所講的子對象級,也就是數(shù)據(jù)塊級的。這種重復(fù)數(shù)據(jù)刪除技術(shù)擁有更高的效率,有非常突出的刪除比。定長切割模式VS 非定長切割模式數(shù)據(jù)塊級的重復(fù)數(shù)據(jù)刪除就會有更多更復(fù)雜的做法。比如定長切割,與非定長切割。上一個部分我們講到數(shù)據(jù)塊級的重復(fù)數(shù)據(jù)刪除第一部都是將文件打碎成數(shù)據(jù)塊,但打碎的規(guī)則各有不同

5、。有的公司采用了同一大小的數(shù)據(jù)塊,例如所有的數(shù)據(jù)塊都打碎成12K、64K、128K、256K的數(shù)據(jù)塊大小,這種就屬于定長切割的數(shù)據(jù)塊。對于定長切割的重復(fù)數(shù)據(jù)刪除,切割的數(shù)據(jù)塊越小,粒度越細(xì),重復(fù)數(shù)據(jù)刪除的比率會更高。與之相對應(yīng)的就是非定長切割模式的重復(fù)數(shù)據(jù)刪除,就是在切割文件的時候,會先對文件做整體的掃描,然后比對重復(fù)的數(shù)據(jù)塊,將重復(fù)率高的數(shù)據(jù)塊切割出來,這樣的話每個數(shù)據(jù)塊不一定是一樣長的,就是非定長的數(shù)據(jù)切割模式。變長切割模式的重復(fù)數(shù)據(jù)刪除對非結(jié)構(gòu)化數(shù)據(jù)是更有效的數(shù)據(jù)去重模式,變長的切割方式不會因為文件的部分增加或刪除而完全重新計算,只有真正的新單元被備份走;定長的切割方式會因為文件增加或刪

6、除引起整個文件循序改變而要重新計算所以單元,整個文件對于備份軟件是個新文件變長的數(shù)據(jù)切割方式通過相應(yīng)的塊的長度,再加上相應(yīng)的字母順序,通過一個三維的算法進行切割。比如damonst切割一塊,然后把rate切割一塊,會按一個單詞的組合特性進行切割。它是變長的,比如第一個是七個字母,第二個是四個字母,第三個又變成八個字母,再往后變成十幾個字母,這往后就是一個變長的切割。右邊的Veritas PureDisk、CommVault是按照128K的標(biāo)準(zhǔn)定長來切割,切完以后對得很齊,但是每一行里是沒有任何含義的,可以認(rèn)為它是一個隨機性地切割下來的字母組合。如果這時文件進行改變,比如插一個S在前面,變長切割

7、模式就變成九個字母一組,剩下的又按照raid是有含義的一個字、切割方法沒有變。最后掃描下來,只有第一行是變化的,只需要備份第一行這一小小的變化量。但對于定長的,由于插入一個字母以后,整個順序就改變了,再按照128K切的話,掃描以后,所有行都是一個全新的數(shù)據(jù)塊對于備份軟件來說,所有行都要重新做備份。變長切割模式一般來說重復(fù)數(shù)據(jù)刪除的比率會更高,但指針的復(fù)雜度也會更高,也需要消耗更多的計算資源。目前來說Veritas的puredisk、Commvault Simpana、飛康、的重復(fù)數(shù)據(jù)刪除都是采用的定長切割,EMC Avarma、IBM Diligent、Data Domain采用了變長切割的方

8、式。基于備份源與基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除此外,我們還需要注意的是重復(fù)數(shù)據(jù)刪除的另外兩個概念,一種是基于備份源的,一種是基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除。基于備份源的重復(fù)數(shù)據(jù)刪除,可以在備份的時候,在備份端上agent就有重復(fù)數(shù)據(jù)刪除的算法和功能,它可以在備份以前進行相應(yīng)的切割和對比,只把一些新變化的數(shù)據(jù)傳送到備份服務(wù)器上,這樣可以大大降低我們的備份數(shù)據(jù)量,在網(wǎng)絡(luò)傳輸過程中的數(shù)據(jù)量也會大大降低,這樣可以降低整個備份網(wǎng)絡(luò)的帶寬要求,對企業(yè)來說也會減少它很大的日常運維成本。基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除,主要是數(shù)據(jù)按正常的備份,備份到相應(yīng)的磁帶設(shè)備、磁帶庫或者是虛擬帶庫上,在那里進行相應(yīng)的重復(fù)數(shù)據(jù)刪除的算法、對比

9、,然后把一些相應(yīng)新的數(shù)據(jù)塊元素保留下來,然后把相應(yīng)的DNA圖也保留下來,這樣保證在存儲目標(biāo)端的數(shù)據(jù)是沒有重復(fù)的。現(xiàn)在主要的產(chǎn)品有幾類。像基于備份源的有EMC的Avarma,它是基于備份源的。Veritas、PureDisk是可以實現(xiàn)基于備份源也可以基于備份目標(biāo)的。針對備份目標(biāo)的主要有datadomain、IBM diligent、CommVault的simpana。CommVault的simpana實際上它的實現(xiàn)方法是,它有一個media server,通過它實現(xiàn)重復(fù)數(shù)據(jù)刪除,但它實際上可以認(rèn)為是備份目標(biāo)的,因為它在備份raid的時候并沒有做重復(fù)數(shù)據(jù)刪除,只是做一個相應(yīng)的切割算法,然后把所有切

10、割下來的片再加上這個文件的組成DNA指針一起傳到media server,在media server上進行相應(yīng)的對比,只把一些唯一的數(shù)據(jù)塊傳下來,然后再把DNA圖傳下來,所以說它還是一個基于目標(biāo)的重復(fù)數(shù)據(jù)刪除解決方案。此外重復(fù)數(shù)據(jù)刪除的另外一種解釋是帶內(nèi)和帶外。所謂帶內(nèi),就是說重復(fù)數(shù)據(jù)刪除這個過程發(fā)生在備份這個流程過程中,比如像EMC的Avarma,它就是在備份的時候先做重復(fù)數(shù)據(jù)刪除,然后把重復(fù)數(shù)據(jù)刪除過以后的基準(zhǔn)數(shù)據(jù)塊備份走,這樣的話等于在備份過程中進行了重復(fù)數(shù)據(jù)刪除的過程。另外一種是帶外,在備份過程中是沒有做重復(fù)數(shù)據(jù)刪除這個動作的,只有說這個數(shù)據(jù)備份到了目標(biāo)端,在目標(biāo)端的設(shè)備里,通過重復(fù)數(shù)

11、據(jù)算法,只保留一些基準(zhǔn)的數(shù)據(jù)塊源,這叫做帶外的。實際上可以看到,帶內(nèi)的效率反而比帶外的高,因為帶內(nèi)計算以后,可以大大降低數(shù)據(jù)的備份量和網(wǎng)絡(luò)帶寬的需求,和在目標(biāo)端的效果是一樣的,同樣只保留UNIX的數(shù)據(jù)塊。實際上帶內(nèi)的方法比帶外的效率高。不同重復(fù)數(shù)據(jù)刪除方案的對比接下來看一下整體的重復(fù)數(shù)據(jù)刪除解決方案不同產(chǎn)品的一些特點。從左邊到右邊我們可以看到,這邊有幾類重復(fù)數(shù)據(jù)刪除的解決方案。一個是在線數(shù)據(jù)保存的重復(fù)數(shù)據(jù)刪除解決方案,主要是有NetApp的NAS,還有EMC的NAS,它實際上是在一級存儲上實現(xiàn)對重復(fù)數(shù)據(jù)刪除,重復(fù)數(shù)據(jù)刪除率一般只能達到1.2:1。還有一些我們常見的壓縮的方法,一般能達到壓縮率是

12、2:1,是基于壓縮技術(shù)的重復(fù)數(shù)據(jù)刪除比率。另外一些專業(yè)的重復(fù)數(shù)據(jù)刪除的解決方案,比如datadomain、IBM Diligent,還包括Veritas PureDisk目標(biāo)端的重復(fù)數(shù)據(jù)刪除,這些產(chǎn)品正常情況下可以實現(xiàn)20:1的重復(fù)數(shù)據(jù)刪除率。還有一些基于數(shù)據(jù)源的重復(fù)數(shù)據(jù)刪除,因為基于數(shù)據(jù)源,整個在網(wǎng)絡(luò)上和目標(biāo)端上都會大大提高重復(fù)數(shù)據(jù)刪除率,所以重復(fù)數(shù)據(jù)刪除應(yīng)用效果更好。例如EMC承諾可以實現(xiàn)300:1的重復(fù)數(shù)據(jù)刪除率,Veritas的PureDisk壓縮比達到500:1,但具體的重復(fù)數(shù)據(jù)刪除比率根據(jù)環(huán)境不同還有不同的表現(xiàn)。具體需要以實際測試為準(zhǔn)。不同條件下重復(fù)數(shù)據(jù)刪除效果對比以下在實驗室中,

13、在不同環(huán)境下應(yīng)用重復(fù)數(shù)據(jù)刪除的效果對比。大家可以看到,相同率最高的是Windows文件,可以達到將近600:1的重復(fù)數(shù)據(jù)刪除比率。比較低的應(yīng)該是數(shù)據(jù)庫文件、Linux文件,可以達到75:1的重復(fù)數(shù)據(jù)刪除比率。如果是NAS文件,比較好的情況下也可以實現(xiàn)135:1的比率。以上是不同環(huán)境下應(yīng)用重復(fù)數(shù)據(jù)刪除技術(shù)的刪除比率,需要注意的是,以上僅為實驗數(shù)據(jù),具體需要根據(jù)用戶實際情況評估需要注意的是,以上是實驗室環(huán)境下的測試數(shù)據(jù),在用戶自身的環(huán)境中,建議用戶對整個重復(fù)數(shù)據(jù)刪除的應(yīng)用效果作整體的評估,做到心中有數(shù)。現(xiàn)有數(shù)據(jù)可以達到多高的重復(fù)數(shù)據(jù)刪除比率,做相應(yīng)規(guī)劃的時候,采購相應(yīng)規(guī)格和容量的具有重復(fù)數(shù)據(jù)刪除功能的解決方案,保證所有的采購設(shè)備是物盡其用。選擇重復(fù)數(shù)據(jù)刪除的原則實際上,上頁給出的圖是在實驗室環(huán)境下的測試數(shù)據(jù)。我們無法使用這個比率來評估日常的生產(chǎn)數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除。但重復(fù)數(shù)據(jù)刪除的應(yīng)用仍然有一些經(jīng)驗性的數(shù)據(jù),基本上我們認(rèn)為大概正常的文件應(yīng)用可以達到50%以上的重復(fù)數(shù)據(jù)刪除。通常我們用25%就可以來評估重復(fù)數(shù)據(jù)刪除率。以下是選擇重復(fù)刪除技術(shù)為獲得高刪除比的一些原則,但需要注意的是,僅僅為了追求高刪除比并不可取,我們在選擇產(chǎn)品的時候還需要考慮到實際的環(huán)境和現(xiàn)有的設(shè)備。此外,本文我們僅從重復(fù)數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論