不用Hadoop的百億級大數(shù)據(jù)方案_第1頁
不用Hadoop的百億級大數(shù)據(jù)方案_第2頁
不用Hadoop的百億級大數(shù)據(jù)方案_第3頁
不用Hadoop的百億級大數(shù)據(jù)方案_第4頁
不用Hadoop的百億級大數(shù)據(jù)方案_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、百億級實時大數(shù)據(jù)分析項目,為什么不用百億數(shù)量級的大數(shù)據(jù)項目,軟硬件總體預(yù)算只有30萬左右,需求是進行復(fù)雜分析查詢,性能要求多數(shù)分析請求達(dá)到秒級響應(yīng)。遇到這樣的項目需求,預(yù)算不多的情況,似乎只能考慮基于來實施。理論上撐住百億數(shù)量級沒問題,但想要秒級響應(yīng)各種查詢分析就不行了。我們先大概分析一下的優(yōu)缺點。目前幾乎是大數(shù)據(jù)的代名詞,很多企業(yè)都基于搭建自己的大數(shù)據(jù)業(yè)務(wù)。以下是的主要優(yōu)點:集群的擴展性是其一大特點,可以擴展至數(shù)千個節(jié)點,對數(shù)據(jù)持續(xù)增長,數(shù)據(jù)量特別巨大的需求很合適。的成本是其另一大優(yōu)勢,由于是開源項目,而且不僅從軟件上節(jié)約成本,硬件上的要求也不高。目前去潮流風(fēng)行,低成本的也是一大推手。生態(tài)群

2、活躍,其周邊開源項目豐富,等等基礎(chǔ)開源項目眾多。那么的不足有哪些呢?不適合做實時分析系統(tǒng)。從通訊層的技術(shù)上來說有如下原因:任務(wù)分配不會將信息到計算,而是讓計算通過心跳去任務(wù)。基于框架的通用性,代碼也會在中傳送,在各計算展開,再通過啟動新進程裝載并運行。類似的進程啟停有5次之多。只能在全部完成之后才能啟動。缺乏專業(yè)的支持服務(wù)因為是開源項目,缺少專業(yè)的商業(yè)支持服務(wù),公司需要儲備專業(yè)知識的專家來保證系統(tǒng)的正常運轉(zhuǎn)。可以支持百億的數(shù)據(jù)量,但很難應(yīng)對秒級響應(yīng)的需求即使是數(shù)億的數(shù)據(jù)量,也只適合做分鐘級別的離線分析系統(tǒng)。而百億級別數(shù)據(jù)量,又需要秒級響應(yīng)的案例,需要什么系統(tǒng)支持呢?下面介紹下大數(shù)據(jù)實時分析工具

3、。讓用戶可以選購分布式數(shù)有哪些技術(shù)可以保證大數(shù)據(jù)的除了提供優(yōu)秀的前端工具之外,據(jù)集市來支持實時大數(shù)據(jù)分析。對于這種百億級的大數(shù)據(jù)案例,實時響應(yīng)呢?下面大致從技術(shù)上介紹下:庫內(nèi)計算通過結(jié)合多種自有的專利技術(shù),在幾個節(jié)點下,就能支持各種常見的匯總,還支持幾乎全部的專業(yè)統(tǒng)計函數(shù)。得益于庫內(nèi)計算技術(shù),數(shù)據(jù)分析引擎將找尋出最優(yōu)化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數(shù)據(jù)存儲的地方直接計算,稱之為庫內(nèi)計算t這一技術(shù)大大減少了數(shù)據(jù)移動,降低了通訊負(fù)擔(dān),保證了高性能數(shù)據(jù)分析。并行計算是基于架構(gòu)的商業(yè)智能平臺,她能夠把計算分布到多個計算節(jié)點,再在指定節(jié)點將計算結(jié)果匯總輸出。能夠充分利用各種計算和存

4、儲資源,不管是服務(wù)器還是普通的,她對網(wǎng)絡(luò)條件也沒有嚴(yán)苛的要求。作為橫向擴展的大數(shù)據(jù)平臺,能夠充分發(fā)揮各個節(jié)點的計算能力,輕松實現(xiàn)針對級數(shù)據(jù)分析的秒級響應(yīng)。列存儲是列存儲的。基于列存儲的數(shù)據(jù)集市,不讀取無關(guān)數(shù)據(jù),能降低讀寫開銷,同時提高的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數(shù)據(jù),-般壓縮比在倍之間,這樣一來,數(shù)據(jù)占有空間降低到傳統(tǒng)存儲的到。良好的數(shù)據(jù)壓縮技術(shù),節(jié)省了存儲設(shè)備和內(nèi)存的開銷,卻大大了提升計算性能。內(nèi)存計算得益于列存儲技術(shù)和并行計算技術(shù),能夠大大壓縮數(shù)據(jù),并同時利用多個節(jié)點的計算能力和內(nèi)存容量。一般地,內(nèi)存訪問速度比磁盤訪問速度要快幾百倍甚至上千倍。通過內(nèi)存計算,直接

5、從內(nèi)存而非磁盤上讀取數(shù)據(jù)并對數(shù)據(jù)進行計算。內(nèi)存計算是對傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實現(xiàn)大數(shù)據(jù)分析的關(guān)鍵應(yīng)用技術(shù)。擔(dān)負(fù)起幾十億,乃至上百億數(shù)據(jù)量的實時分析和展現(xiàn)。相對有哪些不足呢?能支撐級大數(shù)據(jù),數(shù)千節(jié)點的大規(guī)模集群。對于這種實時大數(shù)據(jù)分析系統(tǒng)一般支撐級的大數(shù)據(jù),節(jié)點數(shù)一般不超過10。0以下分享一個的真實案例:中國移動省分公司數(shù)據(jù)流量與監(jiān)控系統(tǒng)年月,收到一個電話線索,客戶需要支持幾十億數(shù)據(jù)量的實時查詢與分析,包括數(shù)據(jù)抓取和存儲,讓我們先出報價。在實時大數(shù)據(jù)分析領(lǐng)域,的產(chǎn)品和服務(wù)是很有競爭力的。不過,當(dāng)客戶拿到我們的報價后,還是覺得比他們的預(yù)算貴一些,決定自己招聘團隊,實施該系統(tǒng)半個月后,客戶打

6、來第二個電話,明確表示未能滿足需求,決定接受我們的報價,并愿意預(yù)付一半的費用。客戶要求我們不僅出產(chǎn)品,還要負(fù)責(zé)實施于是乎,開工!項目價值網(wǎng)間流量分析與監(jiān)控系統(tǒng)(簡稱流控系統(tǒng)),是中國移動省分公司的一個項目。項目要求能基于時間、地區(qū)、運營商、業(yè)務(wù)、分組、域名等維度對全省的上網(wǎng)流量進行實時分析和報告。這些分析報告能給客戶帶來如下好處:1.實現(xiàn)對接入鏈路和基站的全程監(jiān)控。例如,一旦來自某鏈路或基站的流量很低,可及時對鏈路和基站進行檢修,這將大大降低故障率。通過結(jié)合多種自有的專利技術(shù),在幾個節(jié)點下,就能.由于具備了對鏈路和基站進行全程監(jiān)控的能力,客戶可以對鏈路和基站的帶寬進行動態(tài)調(diào)整,基于需求進行合理

7、的資源配置。覆蓋全省的全量數(shù)據(jù),能提供基于業(yè)務(wù)地域行業(yè)域名等維度的數(shù)據(jù)分析報告,具備的可信度和極高的商業(yè)價值。數(shù)據(jù)流向上網(wǎng)數(shù)據(jù)從硬件設(shè)備中抓取出來,形成壓縮的日志文件存儲在服務(wù)器上,服務(wù)器每五分鐘生成新的日志文件。該服務(wù)器提供訪問。承擔(dān)的流控系統(tǒng),將通過每五分鐘訪問一次日志文件服務(wù)器,將新生成的壓縮日志文件抽取出來。這是一個典型的、增量更新的過程,如下:定期抽取的日志文件并解壓縮。解析出上網(wǎng)信息,同的維度表進行關(guān)聯(lián),生成包括業(yè)務(wù)地域行業(yè)域名等維度的寬表。將數(shù)據(jù)裝載入分布式集市。初期驗證()中國移動的日志數(shù)據(jù)分類和類,各取幾塊樣本日志文件,驗證數(shù)據(jù)流向的可行性以及性能。我們很快完成了的整個過程,

8、寬表數(shù)據(jù)被成功地裝載入分布式集市。性能上,我們按照用戶提出的每天數(shù)據(jù)量500萬0條增量,計算出支持100天50億數(shù)據(jù)量的分布式集群所需的磁盤空間、內(nèi)存總量、和總量。由于客戶一再強調(diào)預(yù)算有限,內(nèi)存,硬盤。于是配置了6臺低配我們模擬了常用的用戶場景,整個系統(tǒng)的響應(yīng)能力基本滿足需求。系統(tǒng)架構(gòu)如下:系統(tǒng)架構(gòu)圖正式實施中國移動省分公司的上網(wǎng)數(shù)據(jù)在內(nèi)網(wǎng),一般不提供外網(wǎng)連接,需要嚴(yán)格申請之后才能在一定時間內(nèi)提供外網(wǎng)連接。因而,我們先把整個系統(tǒng)的工作開發(fā)完成之后,才正式申請了外網(wǎng)連接進行數(shù)據(jù)裝載。從開始進行上網(wǎng)數(shù)據(jù)的工作,我們就發(fā)現(xiàn)數(shù)據(jù)量與預(yù)期嚴(yán)重不符。預(yù)期的上網(wǎng)數(shù)據(jù)是每天不超過500萬0條,但實際上每天的上

9、網(wǎng)數(shù)據(jù)在6億條以上,100天保存的數(shù)據(jù)量將會達(dá)到驚人的六百億條。臺低配有點小馬拉大車的感覺,完全達(dá)不到“海量數(shù)據(jù)、實時分析”的設(shè)計目標(biāo)。我們趕緊聯(lián)系客戶,確定上網(wǎng)數(shù)據(jù)每天6億條以上,而不是之前預(yù)估的每天萬條左右。怎么辦?系統(tǒng)重構(gòu)經(jīng)過與客戶的詳細(xì)溝通和理性分析,大家一致決定進行系統(tǒng)重構(gòu)。上網(wǎng)數(shù)據(jù)的日志文件是5分鐘粒度的。我們將上網(wǎng)數(shù)據(jù)按照分析需求分為兩類:.細(xì)節(jié)數(shù)據(jù):保留三天的細(xì)節(jié)數(shù)據(jù)(5分鐘粒度),共約20億條。這樣,由于保留了細(xì)節(jié)數(shù)據(jù),客戶可以對近三天的上網(wǎng)數(shù)據(jù)進行任意的探索式分析。2.匯總數(shù)據(jù):在認(rèn)真研究了流控系統(tǒng)的分析報告需求之后,我們將五分鐘的細(xì)節(jié)數(shù)據(jù)匯總為兩小時的匯總數(shù)據(jù)。這樣數(shù)據(jù)量可以降到約為原來的1/1,0100天的數(shù)據(jù)總量大約億條。重構(gòu)之后的數(shù)據(jù)流如下:Agg.QueryDetailQueryNoneAppDetailQueryAgeQuery后期,我們陸續(xù)進行了一些系統(tǒng)調(diào)優(yōu),包括調(diào)優(yōu)、存儲調(diào)優(yōu)、計算調(diào)優(yōu)等等。客戶打開一個的響應(yīng)時間基本控制在秒級,最極端的分析報告也能在一分鐘之內(nèi)生成。基本實現(xiàn)了海量數(shù)據(jù)、實時分析”:1.系統(tǒng)定期推送日報、周報和月報。系統(tǒng)支持探索式分析。多數(shù)分析請求達(dá)到了秒級響應(yīng)。案例總

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論