外貿數據ETL的需求分析_第1頁
外貿數據ETL的需求分析_第2頁
外貿數據ETL的需求分析_第3頁
外貿數據ETL的需求分析_第4頁
外貿數據ETL的需求分析_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

負責人:胡晶01目錄外貿數據ETL的需求分析外貿數據ETL的需求分析1外貿數據ETL的需求分析信息是現代企業的重要資源,是企業運用科學管理、決策分析的基礎。目前,大多數企業花費大量的資金和時間來構建聯機事務處理OLTP的業務系統和辦公自動化系統,用來記錄事務處理的各種相關數據。據統計,數據量每2~3年時間就會成倍增長,這些數據蘊含著巨大的商業價值,而企業所關注的通常只占在總數據量的2%~4%左右。因此,企業仍然沒有最大化地利用已存在的數據資源,以致于浪費了更多的時間和資金,也失去制定關鍵商業決策的最佳契機。于是,企業如何通過各種技術手段,并把數據轉換為信息、知識,已經成了提高其核心競爭力的主要瓶頸。而ETL則是主要的一個技術手段。外貿數據ETL的需求分析通過KETTLE工具將數據源的數據導入大數據平臺的HIVE數據倉庫中,并根據業務邏輯進行數據清洗。以上從海關獲取的五份數據,以專業方式進行區分,其中四份編碼表數據:企業類型enterprisenature.txt、省份代碼cux_administration_region.txt、貿易方式modeoftrans.txt、運輸方式modeoftransportation.txt,可歸入維度數據,一份外貿交易清單數據(origin.txt)可歸入基礎事實表數據。將四張維度數據和一張基礎事實表數據進行整合,最終生成寬表newo3_all,并在newo3_all完成最后的清洗工作。外貿數據ETL的需求分析1.首先先將這五份原始數據導入hdfs,然后通過hive制成對應的表;2.創建newo3_all基礎全量表(寬表),用于接收四張維度表與一張事實表數據;3.將四張維度表分別與這個newo3_all基礎全表整合,將四張維度表相應代碼與名稱都導入newo3_all表;4.將集合了四張維度表和一張事實表newo3_all的數據進行最后的清洗工作,將不規范的字段進行調整和填充,最終形成清洗后可用于數據分析的有效數據。大致過程如下:外貿數據ETL的需求分析數據獲取主要是針對各個業務系統及不同網點的分散數據,充分理解數據定義后,規劃需要的數據源及數據定義,并進一步通過這些數據源獲取希望的數據。確定如何獲取或查詢源數據并非易事,因為它往往存儲在多個地方,可能是一個RDMS、一個文本文件、一個Excel文件、一個DBF文件或其他類型文件。1.數據獲取外貿數據ETL的需求分析數據傳輸是通過網絡負責把遠程的數據文件傳輸到本地目錄下。在實施中,它的步驟包括:初始化參數表,如間隔時間、遠程數據文件的存放位置、本地數據文件傳路徑,并連接到遠程主機上;取遠程數據文件列表,將其取至本地;根據遠程數據文件列表,生成取數據文件的腳本,運行此腳本;完成取數據操作后,生成取回數據的列表,根據此列表生產刪除遠程數據文件的腳本,運行此腳本;將取回的數據文件移到指定文件夾中,并繼續監控。2.數據傳輸外貿數據ETL的需求分析數據轉換主要是針對數據倉庫建立的模型,通過一系列的轉換來實現將數據從業務模型到分析模型,通過內建的庫函數、自定義腳本或其他的擴展方式,實現了各種復雜的轉換,并且支持調試環境,清楚地監控數據轉換的狀態。數據轉換是真正將源數據變為目標數據的關鍵環節,它包括數據格式轉換、數據類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論