




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大魚競技面試題什么是邏輯數據映射?它對ETL項目組的作用是什么?答:邏輯數據映射(LogicalDataMap)用來描述源系統的數據定義、目標數據倉庫的模型以及將源系統的數據轉換到數據倉庫中需要做操作和處理方式的說明文檔,通常以表格或Excel的格式保存如下的信息:目標表名:目標列名:目標表類型:注明是事實表、維度表或支架維度表。SCD類型:對于維度表而言。源數據庫名:源數據庫的實例名,或者連接字符串。源表名:源列名:轉換方法:需要對源數據做的操作,如Sum(amount)等。邏輯數據映射應該貫穿數據遷移項目的始終,在其中說明了數據遷移中的ETL策略。在進行物理數據映射前進行邏輯數據映射對ETL項目組是重要的,它起著元數據的作用。項目中最好選擇能生成邏輯數據映射的數據遷移工具。在數據倉庫項目中,數據探索階段的主要目的是什么?答:在邏輯數據映射進行之前,需要首先對所有的源系統進行分析。對源系統的分析通常包括兩個階段,一個是數據探索階段(DataDiscoveryPhase),另一個是異常數據檢測階段。數據探索階段包括以下內容:收集所有的源系統的文檔、數據字典等內容。收集源系統的使用情況,如誰在用、每天多少人用、占多少存儲空間等內容。判斷出數據的起始來源(System-of-Record)。通過數據概況(DataProfiling)來對源系統的數據關系進行分析。數據探索階段的主要目的是理解源系統的情況,為后續的數據建模和邏輯數據映射打下堅實的基礎。如何確定起始來源數據?答:這個問題的關鍵是理解什么是System-of-Record。System-of-Record和數據倉庫領域內的其他很多概念一樣,不同的人對它有不同的定義。在Kimball的體系中,System-of-Record是指最初產生數據的地方,即數據的起始來源。在較大的企業內,數據會被冗余的保存在不同的地方,在數據的遷移過程中,會出現修改、清洗等操作,導致與數據的起始來源產生不同。起始來源數據對數據倉庫的建立有著非常重要的作用,尤其是對產生一致性維度來說。我們從起始來源數據的越下游開始建立數據倉庫,我們遇到垃圾數據的風險就會越大。在ETL過程中四個基本的過程分別是什么?答:Kimball數據倉庫構建方法中,ETL的過程和傳統的實現方法有一些不同,主要分為四個階段,分別是抽取(extract)、清洗(clean)、一致性處理(comform)和交付(delivery),簡稱為ECCD。1)抽取階段的主要任務是:讀取源系統的數據模型。連接并訪問源系統的數據。變化數據捕獲。抽取數據到數據準備區。2)清洗階段的主要任務是:清洗并增補列的屬性。清洗并增補數據結構。清洗并增補數據規則。增補復雜的業務規則。建立元數據庫描述數據質量。將清洗后的數據保存到數據準備區。3)一致性處理階段的主要任務是:一致性處理業務標簽,即維度表中的描述屬性。一致性處理業務度量及性能指標,通常是事實表中的事實。去除重復數據。國際化處理。將一致性處理后的數據保存到數據準備區。4)交付階段的主要任務是:加載星型的和經過雪花處理的維度表數據。產生日期維度。加載退化維度。加載子維度。加載1、2、3型的緩慢變化維度。處理遲到的維度和遲到的事實。加載多值維度。加載有復雜層級結構的維度。加載文本事實到維度表。處理事實表的代理鍵。加載三個基本類型的事實表數據。加載和更新聚集。將處理好的數據加載到數據倉庫。從這個任務列表中可以看出,ETL的過程和數據倉庫建模的過程結合的非常緊密。換句話說,ETL系統的設計應該和目標表的設計同時開始。通常來說,數據倉庫架構師和ETL系統設計師是同一個人。在數據準備區中允許使用的數據結構有哪些?各有什么優缺點?答:1)固定格式的文本文件。(FlatFile)FlatFile指的是一種保存在系統上的一種文本文件格式,它
以類似數據庫的表的方式用行和列來保存數據。這種文件格式經
常用來進行數據交換。用于保存數據不太合適。2)XML數據集。多用于數據交換,用戶保存數據不太合適。3)關系數據庫的表。保存數據的較理想選擇。4)獨立的數據庫表。獨立的數據庫表一般指建立的表和其他表沒有外鍵約束關系。這樣的表多用于數據處理。5)三范式或者關系型模型。6)非關系型數據源。非關系型數據源一般包括COBOLcopybooks、VSAM文件、Flat文件、Spreadsheets等。7)維度模型。8)原子事實表和聚集事實表。9)代理鍵查找表。簡述ETL過程中哪個步驟應該出于安全的考慮將數據寫到磁盤上?答:Staging的意思就是將數據寫到磁盤上。出于安全及ETL能方便重新開始,在數據準備區(StagingArea)中的每個步驟中都應該將數據寫到磁盤上,即生成文本文件或者將建立關系表保存數據,而不應該以數據不落地方式直接進行ETL。例如,在數據抽取階段,我們需要連接到源系統,為了對源系統的影響盡量小,我們需要將抽取的數據保存成文本文件或者放入數據準備區的表中,這樣,當ETL過程出現錯誤而失敗時,我們就可以從這些文本文件開始ETL,而不需要再次影響源系統。簡述異構數據源中的數據抽取技術。答:在數據倉庫項目中,需要抽取的數據經常來自不同的數據源,它們的邏輯結構和物理結構都可能不同,即稱之為異構數據源。在對異構數據源進行整合抽取時,我們需要做的事情依次是標識出所有的源系統,對源系統進行概況分析,定義數據匹配邏輯,建立篩選規則,生成一致性維度。對于源數據的操作系統平臺和數據平臺各不相同的情況,我們需要根據實際情況來確定如何進行數據抽取,通常的方法有建立ODBC連接、定義接口文件、建立DBLINK等方法。從ERP源系統中抽取數據最好的方法是什么?答:ERP系統的產生是為了解決企業內異構數據的整合。這個問題也是數據倉庫系統面臨的主要問題。ERP的解決方案是將企業內的各個應用(包括銷售、會計、人力資源、庫存和產品等)建立在相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 注冊會計師考試2025年綜合財務分析報告的編寫技巧試題及答案
- 單相電表安裝施工方案
- 2025年國際金融理財師考試金融服務業發展趨勢試題及答案
- 2024項目管理行為標準試題及答案
- 輔導員面對多元化需求的應對策略試題及答案
- 高手進面試題目及答案
- 2024年微生物檢測前沿試題及答案
- 深化項目管理考試內容理解的策略試題及答案
- 車位柱子改造方案范本
- 瞄準2024年農藝師考試試題及答案
- 瑞安大橋管理養護維修手冊
- 五年級數學下冊 分層訓練 6.3 分數加、減混合運算 同步練習 (含答案)(人教版)
- 帝國的興衰:修昔底德戰爭史學習通超星期末考試答案章節答案2024年
- DB35T 1964-2021 森林撫育技術規程
- 小學英語名詞專項訓練單選題100道及答案解析
- 人工智能概論 課件 第6章 計算機視覺
- 示范崗和先鋒崗的設置實施方案
- 光子時代:光子產業發展白皮書 202311-部分1
- 中班故事活動《小馬過河》 課件
- DB34∕T 2839-2017 模塑聚苯板薄抹灰外墻外保溫系統
- 中國血脂管理指南(基層版2024年)解讀
評論
0/150
提交評論