ETL數據抽取課件_第1頁
ETL數據抽取課件_第2頁
ETL數據抽取課件_第3頁
ETL數據抽取課件_第4頁
ETL數據抽取課件_第5頁
已閱讀5頁,還剩39頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據抽取

2015年9月2日

數據分析事業部

舒禮明2023/1/91數據抽取

2015年9月2日數據分析事業部目錄:ETL定義ETL過程問題分析現狀分析培訓目的:掌握ETL基本概念了解ETL的問題以及現狀2目錄:培訓目的:2目錄:ETL定義ETL過程問題分析現狀分析3目錄:3ETL定義ETL定義涉及以下內容:ETL定義ETL定義:數據的抽取(extract)、轉換(transform)、裝載(Load)的過程。ETL前提

確認ETL范圍:通過對目標表信息的收集選擇ETL工具:a.考慮資金b.運行的平臺、對源和目標的支持程度、數據抽取管理監控功能、對異常情況處理。確認解決方案:抽取分析、變化數據的捕獲、目標表的刷新策略、數據的轉換以及數據驗證ETL原則1.盡量對數據進行預處理。保證數據的安全性、集成與加載的高效性。2.ETL的過程是主動的“拉取”,而不是從內部“推送”,起可控性將大為增加。3.流程化的配置管理4.數據質量的保證:正確性、一致性、完成性、有效性、可獲取性4ETL定義ETL定義涉及以下內容:4目錄:ETL定義ETL過程問題分析現狀分析5目錄:5數據抽取數據清洗數據轉換數據加載ETL過程6數據抽取ETL過程6ETL過程7ETL過程7ETL過程.數據抽取8ETL過程.數據抽取8ETL過程.數據抽取數據來源文件系統、業務系統抽取方式根據具體業務進行全量或者增量抽取抽取效率將數據按照一定的規則拆分成幾部分進行并行處理抽取策略根據具體的業務制定抽取的時間、頻度,以及抽取的流程9ETL過程.數據抽取數據來源9ETL過程.數據清洗10ETL過程.數據清洗10ETL過程.數據清洗數據不缺對空數據、缺失數據進行數據不缺操作,無法處理的作標記數據替換對無效數據進行數據替換格式規范化將源數據抽取的數據格式轉換成為便于進入倉庫處理的目標數據格式主外鍵約束通過建立主外鍵約束,對非法數據進行替換或者導出到錯誤文件重新處理11ETL過程.數據清洗數據不缺11ETL過程.數據轉換12ETL過程.數據轉換12ETL過程.轉換規則數據合并多用表關聯實現,大小表關聯使用嵌套,大大表關聯用join數據拆分按一定規則進行數據拆分行列互換排序、修改序號去除重復記錄數據驗證:sum、count、查詢維度表實現方式A.在ETL引擎中進行(SQL無法實現的)B.在數據庫中進行(SQL可以實現)13ETL過程.轉換規則數據合并13ETL過程.數據加載14ETL過程.數據加載14ETL過程.數據加載15ETL過程.數據加載15目錄:ETL定義ETL過程問題分析現狀分析16目錄:16問題分析數據異常將錯誤的信息單獨輸出,繼續執行ETL,錯誤數據修改后再單獨加載中斷ETL,修改后重新執行ETL原則:最大限度接收數據環境異常對于網絡中斷等外部原因造成的異常,設定嘗試次數或者嘗試時間,超數或超時后,由外部人員手工干預其他異常例如源數據結構改變、接口改變等異常情況,應進行同步后,再裝載數據17問題分析數據異常17ETL設計規范.開發ETL開發首先要確定的是流程的執行順序以及條;其次是具體表映射關系的定義,在數據庫性能允許的情況下,盡可能使用sql語句進行處理。對于具體映射和流程的命名,應該以維護方便為前提:映射:以目標表名命名流程:以流程要實現的功能命名不允許使用臨時的SQL語句操作數據庫,必須編寫好的SQL腳本或存儲過程限定手工干預只能運行某個流程,不允許運行單個過程每一項手工操作必須留下記錄18ETL設計規范.開發18ETL設計規范.設計SQL語句應書寫規范,關鍵字全部大寫,同時應增加注釋。對于自定義咧,需要按照公司規范來命名,eg19ETL設計規范.設計SQL語句應書寫規范,關鍵字全部大寫,同常見問題的分析字符集問題緩慢變化維度處理增量、實時同步的處理錯誤數據的檢測變換數據的捕獲抽取異常中止的處理20常見問題的分析字符集問題20ETL工具廠商目前ETL工具來源:數據庫廠商自帶的ETL工具,如OWB等第三方工具提供商,如informatic等開源ETL工具,如kettle21ETL工具廠商目前ETL工具來源:21謝謝觀看!22謝謝觀看!22數據抽取

2015年9月2日

數據分析事業部

舒禮明2023/1/923數據抽取

2015年9月2日數據分析事業部目錄:ETL定義ETL過程問題分析現狀分析培訓目的:掌握ETL基本概念了解ETL的問題以及現狀24目錄:培訓目的:2目錄:ETL定義ETL過程問題分析現狀分析25目錄:3ETL定義ETL定義涉及以下內容:ETL定義ETL定義:數據的抽取(extract)、轉換(transform)、裝載(Load)的過程。ETL前提

確認ETL范圍:通過對目標表信息的收集選擇ETL工具:a.考慮資金b.運行的平臺、對源和目標的支持程度、數據抽取管理監控功能、對異常情況處理。確認解決方案:抽取分析、變化數據的捕獲、目標表的刷新策略、數據的轉換以及數據驗證ETL原則1.盡量對數據進行預處理。保證數據的安全性、集成與加載的高效性。2.ETL的過程是主動的“拉取”,而不是從內部“推送”,起可控性將大為增加。3.流程化的配置管理4.數據質量的保證:正確性、一致性、完成性、有效性、可獲取性26ETL定義ETL定義涉及以下內容:4目錄:ETL定義ETL過程問題分析現狀分析27目錄:5數據抽取數據清洗數據轉換數據加載ETL過程28數據抽取ETL過程6ETL過程29ETL過程7ETL過程.數據抽取30ETL過程.數據抽取8ETL過程.數據抽取數據來源文件系統、業務系統抽取方式根據具體業務進行全量或者增量抽取抽取效率將數據按照一定的規則拆分成幾部分進行并行處理抽取策略根據具體的業務制定抽取的時間、頻度,以及抽取的流程31ETL過程.數據抽取數據來源9ETL過程.數據清洗32ETL過程.數據清洗10ETL過程.數據清洗數據不缺對空數據、缺失數據進行數據不缺操作,無法處理的作標記數據替換對無效數據進行數據替換格式規范化將源數據抽取的數據格式轉換成為便于進入倉庫處理的目標數據格式主外鍵約束通過建立主外鍵約束,對非法數據進行替換或者導出到錯誤文件重新處理33ETL過程.數據清洗數據不缺11ETL過程.數據轉換34ETL過程.數據轉換12ETL過程.轉換規則數據合并多用表關聯實現,大小表關聯使用嵌套,大大表關聯用join數據拆分按一定規則進行數據拆分行列互換排序、修改序號去除重復記錄數據驗證:sum、count、查詢維度表實現方式A.在ETL引擎中進行(SQL無法實現的)B.在數據庫中進行(SQL可以實現)35ETL過程.轉換規則數據合并13ETL過程.數據加載36ETL過程.數據加載14ETL過程.數據加載37ETL過程.數據加載15目錄:ETL定義ETL過程問題分析現狀分析38目錄:16問題分析數據異常將錯誤的信息單獨輸出,繼續執行ETL,錯誤數據修改后再單獨加載中斷ETL,修改后重新執行ETL原則:最大限度接收數據環境異常對于網絡中斷等外部原因造成的異常,設定嘗試次數或者嘗試時間,超數或超時后,由外部人員手工干預其他異常例如源數據結構改變、接口改變等異常情況,應進行同步后,再裝載數據39問題分析數據異常17ETL設計規范.開發ETL開發首先要確定的是流程的執行順序以及條;其次是具體表映射關系的定義,在數據庫性能允許的情況下,盡可能使用sql語句進行處理。對于具體映射和流程的命名,應該以維護方便為前提:映射:以目標表名命名流程:以流程要實現的功能命名不允許使用臨時的SQL語句操作數據庫,必須編寫好的SQL腳本或存儲過程限定手工干預只能運行某個流程,不允許運行單個過程每一項手工操作必須留下記錄40ETL設計規范.開發18ETL設計規范.設計SQL語句應書寫規范,關鍵字全部大寫,同時應增加注釋。對于自定義咧,需要按照公司規范來命名,eg41ETL設計規范.設計SQL語句應書寫規范,關鍵字全部大寫,同常見問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論