




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、目錄一、DS簡介2二、DS數據加載方式2三、DS進行數據抽取模型開發的基本過程3四、DS創建數據源系統和目標系統的數據存儲31、Oracle數據庫作為數據源系統32、ECC作為數據源系統43、HANA數據庫作為目標系統5五、全量加載過程51、創建Project和Job52、導入源表的元數據到資源庫63、創建Data Flow64、設置源表和目標表75、手工執行Job7六、基于表比較的增量加載81、在Job下定義工作流82、在工作流中定義數據流83、加入Table_Comparison控件94、設置Table_Comparison控件9七、基于時間戳的增量加載101、在Job下定義工作流102、
2、定義Script控件103、定義處理新增數據的數據流和處理更新數據的數據流11八、DS中常用控件介紹131、Key_Generation132、Case133、Merge144、Validation155、設置過濾器和斷點15九、定義Job定期執行161、登錄Data Services Management Console162、定義Batch Job Schedules17十、其他注意事項18一、DS簡介SAP BusinessObjects Data Services是通過SAP HANA認證的ETL工具。采用數據批量處理的方式,定期執行后臺作業,將數據從多個業務系統中抽取出來,并進行必要
3、的處理(轉換,合并,過濾,清洗),然后再加載到HANA數據庫中。DS的組件之間的關系:u Management Consol:管理控制臺是網頁版DS管理工具,可以進行一些系統配置和定義Job執行u Designer:Designer是一個具有易于使用的圖形用戶界面的開發工具。它允許開發人員定義包括數據映射,轉換和控制邏輯的數據管理應用程序,創建包含工作流(作業執行定義)和數據流(數據轉換定義)的應用程序u Repository:應用程序設計器使用的本地資源庫用來存儲Data Services對象(如項目,作業,工作流,和數據流)的定義和源和目標的元數據u Job server:作業服務器啟動數
4、據移動的從多個不同種類的源集成數據的引擎,執行復雜的數據轉換,并管理從ERP系統和其他源的抽取和事務二、DS數據加載方式u 全量加載u 增量上載a) 基于表比較作業在執行時讀取數據源和目標中的全部數據,在服務器的內存中進行比較,計算數據差異b) 時間戳增量需要在數據源中添加時間戳字段,一般為創建時間和最后修改時間,在抽取作業中定義對兩個時間戳字段進行對比,符合條件的創建時間條目進行插入,符合條件的修改時間條目進行更新c) 利用數據庫CDC(changed data capture)首先需要開啟數據庫的CDC服務,為數據庫實例啟用CDC功能,為源表啟用CDC功能。在這種模式下,DS的增量更新不再
5、直接訪問源表,而是在與源表相關的變更記錄表中讀取增量三、DS進行數據抽取模型開發的基本過程u 為數據源創建數據存儲u 導入源表的元數據到資源庫u 為SAP HANA目標系統創建數據存儲u 新建DS項目和批量作業u 新建DS數據流:定義源表和目標表,定義變量、編輯Query和Map_CDC_Operationu 執行批量作業四、DS創建數據源系統和目標系統的數據存儲1、Oracle數據庫作為數據源系統登錄Data Services Designer,在本地對象庫的數據存儲頁簽中單擊鼠標右鍵,選擇新建菜單創建數據存儲“EAM_TEST”,在彈出的對話框中輸入EAM數據庫的連接信息2、ECC作為數據
6、源系統同樣在創建DataStore時,輸入ECC的連接信息3、HANA數據庫作為目標系統在創建DataStore時,輸入HANA數據庫的連接信息五、全量加載過程1、創建Project和Job在本地對象庫的project頁簽中單擊鼠標右鍵,選擇新建菜單,創建項目“ERP_DS”。雙擊該項目,在“Project Area”,可以在該項目下創建Job2、導入源表的元數據到資源庫在本地對象庫的數據存儲頁簽中,選擇源系統的數據存儲,單擊鼠標郵件,選擇“Import By Name”,輸入需要導入到資源庫的表名稱。導入成功后,在數據存儲的table目錄下可以看到導入的表3、創建Data Flow單擊“Ge
7、neral”Job,在右邊空白區域單擊鼠標郵件,選擇“Add New”-“Data Flow”4、設置源表和目標表單擊創建的Data Flow,將需要導入到HANA數據庫中的源表拖入到Data Flow區域中,將Data Flow區域右側的工具條中的模版表拖入Data Flow區域創建模版表輸入模版表名稱、HANA目標系統的數據存儲、HANA數據庫存放DS抽取數據表的用戶名。連接源表和目標表雙擊模版表,設置“Options”中的“Use NVARCHAR for VARCHAR”5、手工執行Job選擇Job,單擊鼠標右鍵,選擇“Execute”執行成功之后,在HANA數據庫中的ERPDSUSE
8、R下可以看到“T161T”,可以查看數據表的內容。執行過程信息和結果可以在監控器中查看。六、基于表比較的增量加載1、在Job下定義工作流2、在工作流中定義數據流在數據流中定義源表和模版表,執行Job,執行成功之后,在目標系統數據存儲的Template Table目錄下可以看到創建的模版表3、加入Table_Comparison控件選擇模版表,單擊鼠標郵件,選擇“Import Table”。模版表會更新為Tables目錄下的數據表。通過將轉換-數據集成中的“Table_Comparison”控件拖入到數據流中的方式添加“Table_Comparison”控件將源表連接“Table_Compari
9、son”控件,“Table_Comparison”控件連接目標表。4、設置Table_Comparison控件雙擊“Table_Comparison”控件,設置相關參數:比較的目標表、表的主鍵,需要比較的字段。當需要比較的字段為空時,會比較所有字段。建議按照需要填寫需要比較的字段,可以加快處理速度。保存后執行Job。七、基于時間戳的增量加載1、在Job下定義工作流在工作流中定義Script控件,讀取數據抽取后最新的創建時間和更改時間,定義一個處理新增數據的數據流和一個處理更新數據的數據流2、定義Script控件在Script控件中需要使用變量存放讀取的最新的創建時間和最新的更改時間。選擇Job
10、,在工具欄選擇“Variables”按鈕,創建全局變量雙擊“Script”控件,編寫SQL語句,從HANA數據庫表中讀取最新的創建時間和更改時間3、定義處理新增數據的數據流和處理更新數據的數據流雙擊“EBAN_New”數據流,加載源表,Query,Map_CDC_Operation控件和目標表雙擊Query,在輸出字段中增加“Sequence”和“Operation”兩個字段?!癝equence”字段使用函數gen_row_num()進行賦值,“Operation”賦值為I在Quey中設置Where條件雙擊Map_CDC_Operation控件,設置CDC Columns同樣的方式定義“EBA
11、N_Upd”數據流,在Query的where條件中定義為在Query的數據結果中增加“Sequence”和“Operation”兩個字段?!癝equence”字段使用函數gen_row_num()進行賦值,“Operation”賦值為U保存后,執行Job??梢酝ㄟ^修改源系統數據測試基于時間戳的增量加載。八、DS中常用控件介紹1、Key_Generation在源表基礎上為目標表重新生成主鍵在Query中增加“ID”字段,賦值為0。在Key_Generation控件中設置目標表、主鍵字段、主鍵值增加量2、Case將源表根據規則進行拆分雙擊Case控件,設置拆分條件當SOURCE = 1時,輸出SP
12、FLI_1,當SOURCE =2時,輸出SPFLI_23、Merge將具有同樣數據結構的源表進行合并在Query中增加輸出字段Source,賦值為1。在Query1中增加輸出字段Source,賦值為2。在Merge中將兩個表的內容合并輸出。4、Validation提取數據源表中的正確數據,將錯誤數據單獨存放在其他表中雙擊Validation控件,設置“Validation Rule”5、設置過濾器和斷點過濾器和斷點結合使用,用于設置Debug的條件選擇源表到目標表的連接線,單擊鼠標右鍵,選擇Set Filter/Breakpoint,設置Debug條件(當滿足某種條件時進入斷點,或者在滿足過濾
13、條件的同時執行多少條數據后時進入斷點)選擇Job,單擊鼠標右鍵,選擇Start debug工具欄上的按鈕可以控制執行下一條數據、繼續執行、終止DebugDebug過程中進入斷點后,可以一次查看數據加載結果九、定義Job定期執行1、登錄Data Services Management Console單擊工具欄的“Data Services Management Console”按鈕進入Data Services Management Console的登錄界面單擊進入Administrator界面2、定義Batch JobSchedules在Batch Job Configuration頁簽選擇A
14、dd Schedules進入批量執行Job的設置界面可以設置每周的某一天執行(一周執行一次)或則每月的某一天執行(一個月執行一次),也可以設置為每天都執行。都選“Recurring”則會定期循環執行,否則只執行一次??梢栽O置一天執行一次,也可以一天執行多次,設置開始執行時間。上圖中如果設置為一天多次執行,開始時間為上午1點,持續時間為600分鐘,間隔時間為360分鐘,則Job會在一天的上午1點和上午6點各執行一次。如果設置時間間隔為240分鐘,則Job會在一天的上午1點、上午5點和上午9點各執行一次。(總持續時間不超過10小時)。十、其他注意事項1、 客戶端安裝包需要注意和服務器DS版本一致2、 在第一次登錄CMS信息時,無法成功。ping sapdstest也失敗,需要在host文件中添加對應的地址和域名3、 連接Oracle數據庫作為數據源時,需要在客戶端上安裝Oracle客戶端,設置文件,設置環境變量ORACLE_HOME之后重啟服務器;連接HANA數據庫時,需要安裝HANA客戶端4、 在連接ECC作為數據源時,需要開啟系統跨客戶端編輯權限5、 在HANA中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產買賣合同的核心特征探討
- 網絡主播簽約合同書
- 統編版三年級語文下冊第二單元測試卷(A)(含答案)
- 家居軟裝飾品買賣合同
- 版單位辦公房屋租賃合同
- 1《我對誰負責 誰對我負責》表格式公開課一等獎創新教學設計
- 針刺傷的防護與應急處理
- 2025聯合經營合同樣本范本
- 2025汽車購銷合同模板
- 2025年標準簡單房屋租賃合同范本
- 宣講第二十次全國代表大會報告主題班會PPT
- 小學語文人教六年級上冊 《橋》公開課- 課件
- VDA6.3 基本知識培訓教材
- 建筑智能化施工組織方案
- 移動餐車租賃合同
- 水利工程施工原材料質量監理實施細則
- 腸梗阻的護理業務學習課件
- 光伏發電工程施工組織設計新編樣本
- 山東省濟南市2022年中考英語情景運用拔高練習(Word版含答案)
- 第九章證據規則
- 妊娠滋養細胞疾病的護理課件
評論
0/150
提交評論