大數據平臺基礎介紹_第1頁
大數據平臺基礎介紹_第2頁
大數據平臺基礎介紹_第3頁
大數據平臺基礎介紹_第4頁
大數據平臺基礎介紹_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據平臺基礎介紹Page 1目錄1. 大數據概念與hadoop簡介2. 大數據行業應用3. 大數據架構簡介Page 2Big Data名詞由來2011年5 月,在“云計算相遇大數據” 為主題的EMC World 2011 會議中,EMC 拋出了Big Data概念20世紀90年代,數據倉庫之父的Bill Inmon就經常提及Big DataPage 3大數據市場趨向穩定Page 4大量數據存儲海量計算數據分析大數據定義-不同的聲音大量數據管理Page 5統一監控分析精準營銷深入洞察另外IBM有大數據5V特征定義,增加了一個Veracity(真實性)什么是大數據維基百科:“大數據是指無法在一定

2、時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合”IDC:一般會涉及2種以上數據形式,數據量100T以上,且是高速、實時數據流;或者從小數據開始,但數據每年增長60%Gartner:大數據的四個V:Volume、Variety、Velocity、ValueVolume:數據量巨大 集中儲存/集中計算已經無法處理巨大的數據量Variety:種類和來源多樣化 日志/圖片/視頻/文檔/地理位置 Velocity:分析處理速度快 海量數據的及時有效分析Value:價值密度低,商業價值高 大量的不相關信息的進行復雜深度分析,深挖價值Page 6海量數據從哪里來人在web 2.0的時代,人們從信

3、息的被動接受者變成了主動創造者全球每秒鐘發送 2.9 百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5 年每天會有 2.88 萬個小時的視頻上傳到Youtube,足夠一個人晝夜不息的觀看3.3 年推特上每天發布 5 千萬條消息,假設10 秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年每天亞馬遜上將產生 6.3 百萬筆訂單每個月網民在Facebook 上要花費7 千億分鐘,被移動互聯網使用者發送和接收的數據高達1.3EBGoogle 上每天需要處理24PB 的數據Page 7海量數據從哪里來機器Boeing:飛機每個引擎3分鐘產生1TB數據,波音787 6小時飛行產生24

4、0TB數據CERN:大型強子對撞產生1PB/s的數據SKA:2015年存儲需要1EB云化IDC建設催生了數據大集中Facebook:每天產生50TB的日志數據,衍生分析數據超過100TB“機器制造”和“人工制造”共同貢獻了海量數據,集中式的數據中心建設加速數據集中User Profile結信化營主Page 8大數據的結構特征平均1個P數據中(例非互結聯構網化公為司主)互聯網:Google, 百度Facebook ,Twitter ,新浪.數據以非結構化處理為主在企業大數據中, 仍然是以結構化數據處理為主結構化半結構化非結構化35% 23%27%內容(ITEM,圖像、視頻、文本)數據用戶行為軌跡

5、(個體)10 %5 %社交網絡數據(群體) 21個歷史詳單查詢Web Page & Log(例電構運為商)15%網絡XDR (探針俘獲后,含歷史)計費CDR(含歷史)CUBE和統一視圖7%18%25 %互聯網 Web Page & Log(含歷史) 13%社交網絡數據 3%內容(圖像、視頻、文本)數據 7%12%主數據(三戶 + 訂購+ 接觸 等 含歷史)分析匯總數據(含歷史)Page 9傳統的數據處理系統面臨的問題,呼喚新的技術 海量數據的高存儲成本 大數據量下的數據處理性能不足 流式數據處理缺失 有限的擴展能力 單一數據源 數據資產對外增值數據擴展性需求和硬件性能之間存在差距新的業務需求,

6、需要新的大數據處理平臺Page 10數據處理技術分布式演進趨勢:Hadoop成為開放的事實標準SMP+MPP混合特點:集群、ShareEverything 結構化、關系型 FlashCache+分布式塊存儲+IBHadoop特點:集群、ShareNothing 開放,、全球生態 結構化、半結構化、非結構化 高性能、實時MPP特點:集群、ShareNothing 結構化、關系型 通用的硬件SMP特點:單機、Scaleup 性能存在瓶頸 擴展性差Page 11揭開Hadoop神秘的面紗Hadoop是Apache基金會的一個項目總稱,主要由HDFS、MapReduce和HBase等組成。HDFS是對

7、Google GFS的開源實現,MapReduce是對Google MapReduce的開源實現,HBase是Google BigTable的開源實現。Hadoop 來源于其創始人Doug Cutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網頁索引有關,迅速發展成為分析大數據的領先平臺。BookKeeperZooKeeperAVROPage 12HDFS原理簡介分布式文件系統HDFS主要特點:存儲大文件將大文件分割成很多小塊存儲流式數據讀取,“write one read many”本身是分布式的,具備良好的可擴展性通過放開POSIX要求,極大改善數據讀寫性能HDFS不適合于:存

8、儲大量小文件(1MB)實時數據讀取需經常修改數據的場景YARNHDFSHiveMap ReduceHBasePigSqoop文件被切分成大小相同的塊(最末尾的塊可能小于塊大小),并存儲在不同的數據節點上。為確保文件塊的容錯性,同時提供更快的數據讀取,默認每個數據塊有3個副本,且分布在不同的數據節點DN上。File AFile BFile CDataNode,文件就放它上了。A CANameNode,元數據信息都在這。B BCDN #1DN #2DN #3NN #1BDN #4CDN #5ADN #6File DDDDPage 20原生HDFS的真實存儲結構1Page 20原生HDFS的真實存儲

9、結構2Page 20原生HDFS的真實存儲結構3Page 13HBase原理簡介分布式數據庫HRegionServer內部管理了一系列HRegion對象,每個HRegion對應Table中的一個Region。HRegion由多個Store組成。每個Store對應Table中的一個Column Family的存儲,即一個Store管理一個Region上的一個列族(CF)。每個Store包含一個MemStore和0到多個StoreFile。Store是HBase的存儲核心,由MemStore 和 StoreFile組成。Page 14MapReduce原理簡介分布式計算架構Apache MapRe

10、duce是google MapReduce的開源實現。是對并行計算的封裝,使用戶通過一些簡單的邏輯即可完成復雜的并行計算。其核心理念是將一個大的運算任務分解到集群每個節點上,充分運用集群資源,縮短運行時間。Page 15Spark 迭代計算框架:重構M-R,優于HadoopSpark是UC Berkeley AMP 實驗室基于map reduce算法實現的分布式計算框架,輸出和結果保存在內存中,不需要頻繁讀寫HDFS,數據處理效率更高Spark適用于近線或準實時、數據挖掘與機器學習應用場景Page 17Storm:流式數據處理框架,實時的HadoopStorm 廣泛應用于實時分析,在線機器學習

11、,持續計算、分布式遠程調用等領域。Page 18Storm處理原理特征匹配bolt統計bolt異常行為檢測bolt輸出攔截模塊spout攔截數據不存儲,先計算事件驅動實時響應,低延遲連續查詢光纖MQ輸入scribe旁路EventDataAlertsActionsNo waiting; Results delivered in-flightQueriesPage 19ZooKeeper簡介 提供分布式鎖的服務。例如,多個Master進程競爭主Master角色時,怎么樣保證僅有一個Active角色存在?這就需要一個分布式的鎖機制來保證。多個Master進程都嘗試著去ZooKeeper中寫入一個對應

12、的節點,該節點只能被一個Master進程創建成功,創建成功的Master進程就是Active角色。提供了事件偵聽機制。例如,主Master進程宕掉之后,其它的備Master如何能夠快速的接管?這個過程中,備Master在偵聽那個對應的ZooKeeper節點。主Master進程宕掉之后,該節點會被刪除,那么,其它的備Master就可以收到相應的消息。個別場景,可充當一個微型數據庫角色。例如,在ZooKeeper中存放了Root Region的地址(Root Region原來是存在ZooKeeper中的!),此時,可以將它理解成一個微型數據庫。“Master-1, Congratulations!

13、 Youare the active one!”“Sorry, Master-2. The activeseat has been taken by others.Please be patient!”Page 20第三方impala計算框架Page 20原生與第三方整體回顧與對比Page 20目錄1. 大數據概念與hadoop簡介2. 大數據行業應用3. 大數據架構簡介Page 21大數據應用的行業分類經營分析電信信令金融細賬金融票據電力調度智能電網經營類績效報表文件社保分析納稅分析決策支持和預測管理類公安網監國安技偵輿情監控銀監會稽查食品溯源環保監測監管類音視頻地震勘探氣象云圖衛星遙感雷達

14、數據物聯網專業類10%結構化30%半結構化60%非結構化互聯網非結構化為主,價值密度低電信、金融結構化+非結構化金融結構化+半結構化政府結構化+半結構化政府非結構化“在大數據領域,不能充分形成大數據使用能力的競爭者將被淘汰”-McKinsey Global Institute電信、金融、政府等行業數據分析的訴求強烈,互聯網已開始應用新技術處理價值密度低的大數據Page 22實時征信、精準營銷、在線明細、精準小微貸、金融:大數據讓銀行更了解客戶與識別潛在風險王五作為某銀行客戶,需要申請一張新的信用卡24周大數據平臺客戶信息系統交易系統信用系統Page 23電信:大數據支撐運營商向Digital

15、Telco轉型2G2.5G3GB3G/4G語音封閉、壟斷SPCP窄帶數據有限程度開放SPCP寬帶數據防御與競合超寬帶數字經濟使能管道運營能力運營跨界運營商業架構企業架構網絡架構網絡資源為中心客戶體驗及生態圈為中心封閉開放、用戶驅動、實時知識Silo云化, 業務感知, 自編排大數據平臺數字經濟驅動運營商徹底進行數字化重構M域O域B域一份數據,一次采集個人客戶精準營銷家庭客戶輔助決策政企客戶數據開放互聯網客戶. 一份存儲,全局共享,全量分析Page 24公安:大數據實現在海量數據中快速檢索出價值信息3000+萬條記錄, 1+億張照片,約100TB12天檢索信息耗時:大數據平臺國內某大城市1天的卡口

16、數據:傳統數據庫平臺模糊檢索耗時:2分鐘Page 25電商:亞馬遜“預判發貨”,顧客未動包裹先行顧客此前訂單顧客搜索記錄顧客心愿單顧客購物車顧客瀏覽行為大數據平臺Page 26400萬影視評分媒資:大數據讓Netflix在紙牌屋開播前就知道會火3300萬訂閱用戶行為300萬搜索請求上線20天,點播400+萬次大數據平臺Page 27目錄1. 大數據概念與hadoop簡介2. 大數據行業應用3. 大數據架構簡介11Page 28企業大數據平臺架構主數據倉庫基于高性能平臺流數據處理CEP及流處理引擎Hadoop云基于低成本X86平臺統一ETL層,數據采集和預處理結構化數據實時流數據互聯網數據101

17、111多渠道訪問門戶開放支撐平臺:基礎服務、算法模型、自助分析、自助報表電腦智能手機PAD監控中心云化ETL、云化DW、實時挖掘、自助分析、跨域模型、并發查詢、實時規則、知識自學習、內容語義分析等能力最終將在應用平臺及多個數據平臺中體現。包含關系型的主存儲,也包含非關系型的HADOOP及流處理引擎DMZooKeeper(Coordination)OoziePage 29構建大數據平臺技術組件(示意)結構化計算平臺數據治理配置數據管理PortalERP-EBSNon-EBS DB儀表盤訂閱發布即席查詢分析維度管理主數據管理公共數據模型ScoreCard報表展現層Portal層調度文本挖掘社交媒體

18、結構化數據生命周期管理(數據/應用)數據質量管理技術元數據ROLAP DMMCAOffice 集成展現服務Mobile BI互動可視數據提取In-Mem DM元數據管理元數據管理應用批量抽取CDC&ETL服務轉換加載分發實時獲取平臺監控管理ETL&調度計算平臺非結構化化計算平臺(Hadoop)Spark作業流管理:DWRDWRDW-I DW-I DW-ISqoop公共基礎數據模型MapReduce資源管理:YARNHBASE分布式文件系統:HDFS電商論壇第一方數據數據收集&集成Flume/chukwa計算層存儲層HIVE/PIGMAHOUT分析挖掘分析服務挖掘和預測Access For Ha

19、doop數據數據整合畫像應用第一方數據第二方數據第三方數據產品推薦360度CRM標準報告特征分析Dashboard海量查詢hive運維管理日常管理日常監控作業調度安全管理權限管理協同管理備份監控報警查詢遷移大V 淘小米社區DP標簽消費者微博 競品Page 30 寶、京東標簽服務配置(面向業務)標簽配置(面向特征)特征配置(面向消費者)數據探針數據爬取 文件傳輸 數據庫導入導出 數據同步數據拉通規則配置(面向數據)潛在客戶預測競品API運營支持數據應用數據服務大數據應用本身采集的數據非結構化數據數據交換爬取第三方標簽DP標簽庫百度百科前端展現宏觀畫像基于業務場景微觀畫像營銷領域投放人群特征營銷人

20、群特征傳播人群特征.人口屬性營銷特征微信營銷DSP投放用戶體驗用戶流失預警微博營銷營銷效果評估內容推薦活動效果評估消費者數據拉通和用戶臉譜項目 - 應用架構營銷 用戶經營服務購買產品配置管理數據流用戶歸一化、數據清洗、標注化、結構化離線處理短期用戶標簽增量用戶建模 增量業務建模實時計算引擎即時標簽預測增量數據挖掘用戶標簽 用戶長期特征用戶建模 全量數據挖掘 全量業務建模批量計算引擎 長文本分析群體特征挖掘用戶分群即時群體特征挖掘即時用戶拓撲動態上網特征實時處理潛在需求社交圖譜移動應用人群分發 數據分發用戶經營領域花粉特征群細分影響力用戶發現內容特征傾向.購物偏好當前需求投放效果評估服務領域滿意度人群特征投訴/咨詢特征主動服務群特征媒介決策購買購買價格特征活動購買特征官網場景特征興趣/愛好內容偏好建議領袖發現用戶動態關注產品領域用戶需求特征APP應用特征競品人群特征熱點關注產品情感HBASEDataBridgePage 31Scaleout BlockScaleout Object分布式存儲應用適配, Programmable接口通用服務器網絡(交換機,路由器)存儲節點分布式處理和分析實時處理和內存計算流處理內存數據庫批處理(Hadoop)Hive,Pig,MashoutHcatalogMapReduce分布式數據庫(MPPDB)SQLQue

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論