




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
ETL
Unit
5TextAContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA提取、轉(zhuǎn)換和加載1.什么是ETL?ETL是一個從不同源系統(tǒng)提取數(shù)據(jù),然后轉(zhuǎn)換數(shù)據(jù)(例如應(yīng)用計算、連接等),最后將數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)的過程。ETL的完整形式是提取、轉(zhuǎn)換和加載。你會認(rèn)為創(chuàng)建數(shù)據(jù)倉庫就只是從多個來源提取數(shù)據(jù)并將其加載到數(shù)據(jù)倉庫的數(shù)據(jù)庫中。這遠(yuǎn)非事實,它需要復(fù)雜的ETL過程。ETL流程需要包括開發(fā)人員、分析師、測試人員、高層管理人員在內(nèi)的各種利益相關(guān)者的積極投入,這在技術(shù)上具有挑戰(zhàn)性。為了保持其作為決策者工具的價值,數(shù)據(jù)倉庫系統(tǒng)需要隨業(yè)務(wù)變化而變化。ETL是數(shù)據(jù)倉庫系統(tǒng)的經(jīng)常性活動(每天、每周、每月),并且需要敏捷、自動并且文檔完備。2.為什么需要ETL?在組織中采用ETL的原因很多:?它可以幫助公司分析其業(yè)務(wù)數(shù)據(jù)以做出關(guān)鍵的業(yè)務(wù)決策。?它可以回答事務(wù)數(shù)據(jù)庫無法回答的復(fù)雜業(yè)務(wù)問題。參考譯文?它提供了一種將數(shù)據(jù)從各種來源移到數(shù)據(jù)倉庫中的方法。?設(shè)計良好且文檔完備的ETL系統(tǒng)對于數(shù)據(jù)倉庫項目的成功至關(guān)重要。?它允許驗證數(shù)據(jù)轉(zhuǎn)換、聚合和計算規(guī)則。?ETL過程允許在源系統(tǒng)和目標(biāo)系統(tǒng)之間進(jìn)行樣本數(shù)據(jù)比較。?ETL過程可能執(zhí)行復(fù)雜的轉(zhuǎn)換,并且需要額外的區(qū)域來存儲數(shù)據(jù)。?它有助于將數(shù)據(jù)遷移到數(shù)據(jù)倉庫中并將其轉(zhuǎn)換為各種格式和類型以保持系統(tǒng)的一致性。2.數(shù)據(jù)倉庫中的ETL過程步驟1.提取在此步驟中,從源系統(tǒng)提取數(shù)據(jù)并存儲到暫存區(qū)域中。(如果有的話)轉(zhuǎn)換在暫存區(qū)域中進(jìn)行,因此源系統(tǒng)的性能不會降低。此外,如果將損壞的數(shù)據(jù)直接從源復(fù)制到數(shù)據(jù)倉庫中,回滾將是一個挑戰(zhàn)。暫存區(qū)提供了在提取的數(shù)據(jù)移入數(shù)據(jù)倉庫之前對其進(jìn)行驗證的機會。參考譯文參考譯文數(shù)據(jù)倉庫需要集成具有不同DBMS、硬件、操作系統(tǒng)和通信協(xié)議的系統(tǒng)。數(shù)據(jù)來源可能包括傳統(tǒng)應(yīng)用程序(例如大型機)、定制應(yīng)用程序、接觸點設(shè)備(例如ATM)、呼叫交換、文本文件、電子表格、ERP以及來自供應(yīng)商及合作伙伴等的數(shù)據(jù)。因此,在物理上提取和加載數(shù)據(jù)之前,需要一個邏輯數(shù)據(jù)映射。該數(shù)據(jù)圖描述了源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的關(guān)系。共有三種數(shù)據(jù)提取方法:?全提取?部分提取——沒有更新通知?部分提取——有更新通知無論使用哪種方法,提取都不應(yīng)影響源系統(tǒng)的性能和響應(yīng)時間。這些源系統(tǒng)實時產(chǎn)生數(shù)據(jù)庫。任何放緩或鎖定都可能影響公司的最終盈利。在提取過程中會進(jìn)行一些驗證:?使記錄與源數(shù)據(jù)一致。?確保沒有垃圾郵件/不需要的數(shù)據(jù)被加載。?檢查數(shù)據(jù)類型。?刪除所有類型的重復(fù)數(shù)據(jù)。?檢查所有關(guān)鍵數(shù)據(jù)到位與否。步驟2.轉(zhuǎn)換從源服務(wù)器提取的數(shù)據(jù)是原始數(shù)據(jù),不能以其原始形式使用。因此,需要對其進(jìn)行清理、映射和轉(zhuǎn)換。實際上,這是ETL流程的關(guān)鍵步驟,它增加了數(shù)據(jù)的價值,而且改變數(shù)據(jù)可以生成具有洞察力的商務(wù)智能報告。在此步驟中,你對提取的數(shù)據(jù)進(jìn)行了一些處理。不需要任何轉(zhuǎn)換的數(shù)據(jù)稱為直接移動。在轉(zhuǎn)換步驟中,你可以對數(shù)據(jù)執(zhí)行定制的操作。例如,如果用戶想要銷售總額的收入,而該收入不在數(shù)據(jù)庫中。或者,如果表中的名字和姓氏在不同的列中。可以在加載之前將它們關(guān)聯(lián)起來。以下是數(shù)據(jù)完整性問題:?同一個人,名字Jon、John拼寫不同。?有多種表示公司名稱的方法,例如Google、GoogleInc.。?有不同的名稱,例如Cleaveland、Cleveland。?可能會有不同的應(yīng)用程序為同一位客戶生成不同的帳號的情況。?所需文件中的某些數(shù)據(jù)是空的。參考譯文驗證在此階段完成:?過濾——僅選擇某些列來加載。?使用規(guī)則和查找表進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。?字符集轉(zhuǎn)換和編碼處理。?度量單位的轉(zhuǎn)換,例如日期時間轉(zhuǎn)換、貨幣轉(zhuǎn)換、數(shù)字轉(zhuǎn)換等。?數(shù)據(jù)閾值驗證檢查。例如,年齡不能超過兩位數(shù)。?從暫存區(qū)域到中間表的數(shù)據(jù)流驗證。?必填字段不應(yīng)留為空白。?清理(例如,將NULL映射為0或?qū)ⅰ癎enderMale”映射為“M”,將“GenderMale”映射為“F”等)?將一列拆分為多列以及將多個列合并為一列。?轉(zhuǎn)置行和列?使用查找合并數(shù)據(jù)?使用任何復(fù)雜的數(shù)據(jù)驗證(例如,如果一行中的前兩列為空,那么自動拒絕對該行進(jìn)行處理)參考譯文步驟3.加載將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉庫是ETL過程的最后一步。在典型的數(shù)據(jù)倉庫中,需要在相對較短的時間內(nèi)加載大量數(shù)據(jù)。因此,應(yīng)優(yōu)化加載過程。如果發(fā)生加載故障,應(yīng)將恢復(fù)機制配置為從故障點重新啟動而不會丟失數(shù)據(jù)完整性。數(shù)據(jù)倉庫管理員需要根據(jù)當(dāng)前服務(wù)器的性能來監(jiān)管、恢復(fù)或取消加載。加載類型:?初始加載——填充所有數(shù)據(jù)倉庫表。?增量加載——當(dāng)需要時定期進(jìn)行持續(xù)更改。?完全刷新——擦除一個或多個表的內(nèi)容并重新加載新數(shù)據(jù)。加載驗證:?確保關(guān)鍵字段數(shù)據(jù)不丟失也不為空。?根據(jù)目標(biāo)表測試建模視圖。?檢查組合值和計算結(jié)果。?檢查維度表和歷史記錄表中的數(shù)據(jù)。?檢查BI報告中已加載的事實和維度表。參考譯文參考譯文4.ETL工具市場上有許多可用的數(shù)據(jù)倉庫工具。此處羅列了其中一些最著名的。4.1MarkLogicMarkLogic是一種數(shù)據(jù)倉庫解決方案,可使用一系列企業(yè)功能使數(shù)據(jù)集成變得更加輕松快捷。它可以查詢不同類型的數(shù)據(jù),例如文檔、關(guān)系和元數(shù)據(jù)。4.2甲骨文甲骨文是行業(yè)領(lǐng)先的數(shù)據(jù)庫。它為本地和云提供了廣泛的數(shù)據(jù)倉庫解決方案。它通過提高運營效率來幫助優(yōu)化客戶體驗。4.3亞馬遜RedShift亞馬遜Redshift是數(shù)據(jù)倉庫工具。它是使用標(biāo)準(zhǔn)SQL和現(xiàn)有商務(wù)智能工具分析所有類型數(shù)據(jù),是簡單且經(jīng)濟(jì)高效的工具。它還允許對拍字節(jié)級結(jié)構(gòu)化數(shù)據(jù)運行復(fù)雜的查詢。5.ETL過程的最佳實踐5.1永遠(yuǎn)不要嘗試清理所有數(shù)據(jù)每個組織都希望所有數(shù)據(jù)都是干凈的,但是大多數(shù)組織不原意支付等待的費用或不想等待。清理全部數(shù)據(jù)將花費很長時間,因此最好不要嘗試清理所有數(shù)據(jù)。5.2計劃清理內(nèi)容始終制定清理內(nèi)容計劃,因為構(gòu)建數(shù)據(jù)倉庫的最大原因是提供更干凈、更可靠的數(shù)據(jù)。5.3確定清理數(shù)據(jù)的成本在清理所有臟數(shù)據(jù)之前,確定每個臟數(shù)據(jù)元素的清理成本非常重要。5.4將匯總數(shù)據(jù)存儲到磁盤磁帶中為了降低存儲成本,請將摘要數(shù)據(jù)存儲到磁盤磁帶中。而且,需要在要存儲的數(shù)據(jù)量及其詳細(xì)用法之間進(jìn)行權(quán)衡。在數(shù)據(jù)的粒度級別上進(jìn)行權(quán)衡以降低存儲成本。
參考譯文6.總結(jié)?ETL代表提取、轉(zhuǎn)換和加載。?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 出軌賠償合同標(biāo)準(zhǔn)文本
- 分布式發(fā)電合同樣本
- 出售渣土合同樣本
- 2025年四川省建筑安全員B證考試題庫及答案
- 分割合同樣本
- 代理合同樣本格式
- 交貨方式+合同樣本
- 個人診所勞務(wù)合同樣本
- 農(nóng)村辣椒采購合同樣本
- 2025屆高三政治一輪復(fù)習(xí)第三單元第八課財政與稅收練習(xí)無答案必修1
- 重大危險源識別表
- 《上海市奉賢區(qū)小區(qū)機動車停放管理工作調(diào)查報告》4300字
- 申請結(jié)婚報告表實用文檔
- 《廣東省普通高中學(xué)生檔案》模板
- 高職院校與區(qū)域經(jīng)濟(jì)協(xié)調(diào)發(fā)展研究
- YY/T 1492-2016心肺轉(zhuǎn)流系統(tǒng)表面涂層產(chǎn)品通用要求
- YS/T 1028.3-2015磷酸鐵鋰化學(xué)分析方法第3部分:磷量的測定磷鉬酸喹啉稱量法
- JJF 1104-2003國家計量檢定系統(tǒng)表編寫規(guī)則
- GB/T 665-2007化學(xué)試劑五水合硫酸銅(Ⅱ)(硫酸銅)
- GB/T 17891-1999優(yōu)質(zhì)稻谷
- GA 588-2012消防產(chǎn)品現(xiàn)場檢查判定規(guī)則
評論
0/150
提交評論