




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、廈門大學軟件學院畢業設計(論文)開題報告學生姓名班級學號校外指導教師姓名職稱所在單位北京福富軟件技術股份有 限公司福州分公司校內指導教師姓名職稱所在單位廈門大學畢業設計(論文)題目ETL系統的倉庫任務調度模塊的實現畢業設計(論文)的目標:一、項目背景1:“數據倉庫” 一詞最早是在1900年,由Bill Inmon先生提出的。其描述 如下:“數據倉庫是為支持企業決策而特別設計和建立的數據集合”。準確說來, 數據倉庫是一個環境,而不是一件產品,提供用戶用于決策支持的當前和歷史 數據,這些數據在傳統的操作型數據庫中很難或不能得到。數據倉庫技術是為 了有效的把操作形數據集成到統一的環境中以提供決策型數
2、據訪問的各種技術 和模塊的總稱。打破數據來源的壁壘,對來源于全省多個業務系統的不同數據進行整合, 建立一個“大集中”的數據倉庫,構造真正意義上的“客戶統一視圖”,讓領 導和分析人員能切實掌握電信客戶、用戶的全面信息,為決策提供完備的依據。具體目標:設計并實現一個ETL工具,完成數據的抽取、轉換與裝載,保 證數據源源不斷的從源系統進入數據倉庫。(1)可以進行數據模型的任務配置 (2)數據轉換規則能手動配置;(3)實現數據抽取一轉換一裝載任務流程 的自動調度;(4)能監控任務執行情況;(5)查詢任務執行日志;(6)查看數 據之間的依賴關系(7)數據質量的管控。二、項目概況1整個項目的系統架構如圖1
3、所示。可以從圖中看出數據倉庫系統將為中 國電信各個分公司進行各種分析與決策提供最基礎的環境支持與數據支持。圖1系統部署圖為了能更好的服務于企業分析與決策,提供直觀的數據展示,保證數據獲取中 的數據質量,以及方便整個系統的管理運行,系統功能組織考慮到了整個方面, 如圖2所示。圖2系統功能組織圖整個數據倉庫系統劃分為4個平臺,具體功能模塊如圖3所示,各個平臺 以及各個模塊的內容如下:(1)應用管理平臺:主要用于對系統訪問層面和操作層面進行管理,如對 用戶、權限的設置;個性化界面等的定制;報表搜索、系統參數設置等功能; 通過這些功能,使用者能更方便、有效的使用數據倉庫系統。(2)目標客戶管理平臺:通
4、過對重點數據(如檔案、月帳單、用戶周話務 匯總情況等數據)的支撐,使用者可自行通過簡單的條件設置來定義其關注的目 標客(用)戶,靈活的設置跟蹤周期。部分有明確條件設置的目標客戶更可以通 過平臺提供的專題功能更快速、方便的取得分析結果(如VPN專題)。(3)ETL平臺:在自行開發的ETL平臺上,使用者可以對邏輯模型進行物 理設計,使用類標準SQL腳本實現數據的ETL,并對操作日志、數據質量等進 行管理;同時還支持對數據的導出功能(文本/EXCEL等格式),以滿足異構數 據庫系統的數據需求(如集團接口、查詢結果導出等)。(4)分析展示平臺:通過集成的展示平臺,采用多維分析、圖表結合、即席 查詢、G
5、IS等多種展示方式,分析展示平臺提供使用者一個簡單、直觀、有效 的數據分析界面,使用者可以根據權限方便的實現數據訪問的穿透、鉆取以及 相關報表的訪問。目前除數據挖掘尚在設計開發階段外。圖3系統功能模塊1三、電信行業特點電信企業數據來源:1)支撐系統,包括計費、營帳等;2)網管系統;3) 企業辦公(OA)系統;4)其他系統。電信企業的源數據特點:1 )數據量特別大;2)業務系統工作負荷重,7 X24小時的工作;3)業務系統性能、實時性的要求較高。實現方法:一、基本環境數據庫管理系統:IBM DB2開發平臺:Windows, AIX語言:DB2存儲過程,Shell編程項目管理:SVN, IBM C
6、learQuery其它第三方軟件:Quest Central for DB2二、ETL 概念2 3數據抽取(Extract)數據抽取是數據源接口,從業務系統中抽取數據,為數據倉庫輸入數據。典 型的數據抽取接口包括數據庫接口和文件接口,對于不同數據平臺、不同源數 據形式、不同性能要求和業務量的業務系統以及不同數據量的源數據,采取不 同的數據抽取接口。數據的抽取必須能夠充分滿足決策支持系統的需要,又要 保證不影響業務系統的性能,所以,進行數據抽取時應制定相應的策略,包括 抽取方式、抽取時機、抽取周期等等。數據抽取策略有:1)同步實現抽取;2)異步實現抽取。數據清洗和轉換(Transformatio
7、n)數據清洗和數據轉換是指從業務系統中抽取的數據根據數據倉庫系統模型 的要求,進行數據的清洗、轉換、拆分、匯總等處理,保證來自不同系統、不 同格式的數據具有一致性和完整性,并按要求裝入數據倉庫。數據轉換工作進行的時機:1)在抽取過程中進行數據處理;2)使用異步 數據加載,以文件的方式處理;3)在數據加載過程中進行數據處理;4)進入 數據倉庫以后再進行數據處理。數據裝載(Load)數據裝載就是從數據源系統中抽取、轉換、清洗后得數據裝載到數據倉庫 中。要求數據加載工具必須具有高效的加載性能。同時加載策略要考慮加載周 期及數據追加策略的內容。主要加載技術:1)使用數據倉庫引擎廠商提供的數據加載工具進
8、行數據加載;2)通過數據倉庫引擎廠商提供的API編程進行數據的加載。數據的追加策略類型:直接追加、全部覆蓋、更新追加。三、ETL總體設計根據電信行業特點,電信行業數據來源的多樣性與地域性。ETL平臺將 設計成如下圖(圖4所示)的架構,主要有前臺系統與后臺系統構成。后臺系 統負責任務的自動調度,實現數據的抽取、轉換、裝載。前臺提供用戶界面, 方便數據倉庫開發人員使用。圖4 ETL架構圖整個ETL過程將實現數據如下圖所示(圖5)的流動過程。數據將從數據 源開始生成接口文件,后通過ETL平臺裝載到數據倉庫接口區域,數據將在接口區域保存一定的時間,之后通過ETL配置數據轉換、清洗的規則,實現數據 從接
9、口區到目標數據倉庫的存儲,同時亦可以實現數據到數據集市的流動。用圖5 ETL總體設計一數據流程圖四、系統功能模塊系統主要分為兩大模塊:一、前臺展示模塊;二、后臺任務調度模塊一、前臺展示模塊中主要的功能模塊有:實體配置:開發人員進行數據倉庫開發,根據業務邏輯在數據建模完成 后,進行相關模型的物理模型設計,實體配置完成對模型的主體配置。是生成 實體調度任務的主要依據。腳本配置:在實體配置完成之后,需要進行相關的腳本配置,完成具體 的數據如何轉換,如何清洗,如何裝載的問題。依賴配置:依賴配置,是配置實體與實體之間的依賴關系,大體分為弱 實體依賴與強實體依賴。是進行任務自動調度的重要環節。時間調度配置
10、:對于配置的實體無法滿足必要的依賴配置,可以直接進 行時間調度配置,亦可以到達自動調度的效果。任務查詢:對配置好的實體,可以進行相關任務的查詢,查詢是否生成 了當日的調度任務等。ETL監控:實體調度過程是自動進行的。對于實體調度執行的情況可 以通過該功能進行查詢,該查詢通過實體依賴關系,可以查看各個調度環節的 情況。調度日志查詢:實體調度過程中會記錄相關的執行日志,該功能可以查 詢指定實體的執行日志。接口上傳配置:該功能對接口文件上傳進行了規則設置:如在某日期前 接口文件必須上傳服務器等。可以監控數據是否到達,以及查詢為到達數據所 產生的影響。二、后臺任務調度模塊的重要功能模塊有:接口文件處理
11、:該功能模塊對到達服務器的接口文件進行掃描發現、剪 切移動、導入、校驗、備份刪除等操作。接口實體調度模塊:該功能模塊負責把接口文件數據導入數據倉庫的接 口層區域,并對數據導入進行初步的校驗。ETL過程維護:該功能模塊負責生成接口文件調度任務,清除過期任務。倉庫集市實體調度:該功能模塊負責生成倉庫集市調度任務,根據依賴 關系更新任務的資源可用性,執行任務,根據任務對應的腳本配置,解析執行 腳本。5 .其它功能模塊:若接口文件太大而上傳為壓縮文件則負責接口文件的解 壓,以及定期的接口文件清理等。五、系統數據接口1目前系統數據接口主要采用文本文件方式,并在省中心的數據倉庫系統上 建立統一接口存儲區提
12、供給各業務系統,由各業務系統按接口要求整理并通過 FTP方式上傳數據。對于需通過人工錄入的數據,系統將提供相應的工具或接口,并支持通過 Excel、XML、TXT等格式文檔加載的形式進行數據的批量錄入功能。六、平臺的任務自動調度系統使用Shell進行編程,實現平臺在AIX操作系統上定時自動調度任務。百度文庫-讓每個人平等地提升自我 系統后臺進程主要有接口文件掃描導入進程、實體任務生成進程、實體任務調 度進程等。通過使用CRONTAB命令并發執行這些進程。CRONTAB命令:提交、編輯、列出或除去cron作業。這個crontab命令提 交、編輯、列出或除去cron作業。一個cron作業是一個命令
13、,其運行是由cron 守護進程在規則的調度間隔執行的。要提交一個cron作業,指定crontab命 令用-e標志。crontab命令調用一個編輯會話,允許創建一個crontab文件。 在這個文件中,為每個cron創建條目。每個條目必須是一種cron守護進程 可接受的格式。當創建完條目和退出文件后,crontab命令將它拷貝到 /var/spool/cron/crontabs目錄,并把它放到一個文件中,此文件的名稱是當前的 用戶名。如果以用戶名命名的文件已存在于crontabs目錄中,crontab命令會 覆蓋它。同樣的,可以通過指定文件參數創建crontab文件。如果此文件已經 存在,格式必須
14、是cron守護進程所需要的。如果文件不存在,crontab命令就 調用編輯器。如果EDITOR環境變量存在,此命令就調用它指定的編輯器。 否則,crontab命令調用vi編輯器。七、數據倉庫元數據元數據,其最基本的定義是“關于數據的數據”。但是整個及其抽象的定義 對于元數據的理解往往是不夠的。并且它是一種廣泛存在的現象,在許多領 域有其具體的定義和應用。對于在數據倉庫中的應用,有這么一種定義:元 數據是一種提取的形式,它是描述數據庫的結構和內容。對于元數據的理解, 在很多書中也進行了比較深入的探討,有題為“元數據與比喻”的文章,就是 從作者自己的角度與理解闡釋了元數據的概念。在數據倉庫領域中,
15、元數據被定義為:描述數據及其環境的數據。一 般來說,它有兩方面的用途。首先,元數據能提供基于用戶的信息,如記錄 數據項的業務描述信息的元數據能幫助用戶使用數據。其次,元數據能支持系統對數據的管理和維護,如關于數據項存儲方法的元數據能支持系統 以最有效的方式訪問數據。具體來說,在數據倉庫系統中,元數據機制主要 支持以下五類系統管理功能:(1)描述哪些數據在數據倉庫中;(2)定義 要進入數據倉庫中的數據和從數據倉庫中產生的數據;(3)記錄根據業務事件發生而隨之進行的數據抽取工作時間安排;(4)記錄并檢測系統數據 一致性的要求和執行情況;(5)衡量數據質量。主要參考文獻.福建富士通信息軟件有限公司,
16、福建電信數據倉庫系統簡介Z.段云峰,吳唯寧,李劍威,韓潔著數據倉庫及其在電信領域中的應用M.北京: 電子工業出版社,何宇峰.基于CWM的ETLX具的設計與實現D.大連海事學院,MarkHumphries, Michael , Michelle著,陳光群譯.數據倉儲:結構和實現M.北京:社會科學文獻出版社,Lou Agosta著,瀟湘工作室譯.數據倉庫技術指南.北京:人民郵電出版社,百度百科.元數據.主流數據倉庫產品對比分析.張金銘,賴大進.數據倉庫系統在電 信行業的應用.時間進度安排:2008年11月17日一2009年2月10日:查閱相關書籍資料,理解數據倉庫各 種理論概念,重點熟悉ETL過程,掌握ETL重點,難點。并完成開題報告。2009年2月11日一2009年3月20日:分析項目需求,理解項目目標與內容, 理解項目中相關的業務邏輯;熟悉項目實現環境,開始項目初期步驟(需求與設 計),搭建ETLX具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 濰坊學院《食品酶學》2023-2024學年第二學期期末試卷
- 模電 7-信號的運算和處理學習資料
- 江蘇省蘇州市常熟一中達標名校2025屆第二學期期末統一考試(數學試題理)試題含解析
- 六安職業技術學院《西方文化與近代中國》2023-2024學年第一學期期末試卷
- 南通職業大學《行為矯正》2023-2024學年第一學期期末試卷
- 遼寧傳媒學院《分析代數方法選講》2023-2024學年第一學期期末試卷
- 二零二五廣告合同范例大全
- 展會知識產權保護合同范例
- 委托代理采購協議書二零二五年
- 房地產項目顧問合同書二零二五年
- 培訓課件:混凝土結構的施工技術(澆筑、養護)
- 人教版 七年級英語下冊 第二學期 期中綜合測試卷(2025年春)
- “中華傳統文化經典研習”任務群下先秦諸子散文教學策略研究
- 2025年高考語文模擬作文導寫及點評:社會時鐘
- 《護理信息系統》課件
- 《疥瘡的防治及治療》課件
- 施工現場平面布置與臨時設施、臨時道路布置方案
- 建筑施工大型機械設備安全使用與管理培訓
- 技術轉讓合同備忘錄協議備忘錄(2024年版)
- 注冊會計師財務成本管理章節練習題三
- 第十一單元課題1化學與人體健康-2024-2025學年九年級化學人教版(2024)下冊
評論
0/150
提交評論