大數據抽取與集成_第1頁
大數據抽取與集成_第2頁
大數據抽取與集成_第3頁
大數據抽取與集成_第4頁
大數據抽取與集成_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據抽取與集主講:吳夢雪大成大數據抽取與集成大數據的一個重要特點就是多樣性,這就意味著數據來源極其廣泛,數據類型極為繁雜。這種復雜的數據環境給大數據的處理帶來極大的挑戰。

要想處理大數據,首先必須對所需數據源的數據進行抽取和集成,從中提取出關系和實體,經過關聯和聚合之后采用統一定義的結構來存儲這些數據。同時對數據進行清洗,保證數據質量及可信性。大數據抽取與集成現有的數據抽取與集成方式可以大致分為四種類型:數據聯邦(DataFederation)數據整合(DataConsolidation)數據傳播(DataPropagation)混合方式(AHybridApproach)大數據抽取與集成方式數據聯邦在多個數據源的基礎上建立一個統一的邏輯視圖,對外界應用屏蔽數據在各個數據源的分布細節。對于這些應用而言,只有一個統一的數據訪問入口,但是實際上,被請求的數據只是邏輯意義上的集中,在物理上仍然分布在各個數據源中,只有被請求時,才臨時從不同數據源獲取相關數據,進行集成后提交給數據請求者。當數據整合方式代價太大或者為了滿足一些突發的實時數據需求時,可以考慮采用數據聯邦的方式建立企業范圍內的全局統一數據視圖。大數據抽取與集成方式數據整合數據整合是把在不同數據源的數據收集、整理、清洗,轉換后(有點像ETL)加載到一個新的數據源,為數據消費者提供統一數據視圖的數據集成方式。數據傳播數據在多個應用之間的傳播。比如,在企業應用集成(EAI)解決方案中,不同應用之間可以通過傳播消息進行交互。混合方式在混合方式中,對于那些不同應用都使用的數據采用數據整合的方式進行集成,而對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論