




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據導入與預處理應用-第二章Kettle工具的初步使用數據導入與預處理應用-第二章Kettle工具的初步使用目錄0102Kettle的安裝Kettle使用簡介目錄0102Kettle的安裝Kettle使用簡介內容簡介本章首先介紹Kettle工具的安裝及基本概念,然后通過一個案例實操介紹Kettle工具的使用。本章重要的內容如下:Kettle的安裝Kettle的安裝轉換的基本概念可視化編程及調試Kettle的安裝定時啟動轉換1234內容簡介本章首先介紹Kettle工具的安裝及基本概念,然后通01Kettle的安裝01Kettle的安裝Kettle的安裝Kettle開源JAVA編寫多平臺可視化Kettle的安裝Kettle開源JAVA編寫多平臺可視化Kettle的安裝Kettle的特點可視化豐富的工具類支持各類數據源除了支持各種關系型數據庫,HBaseMongoDB這樣的NoSQL數據源外,還支持Excel、Access這類小型的數據源強大的處理功能除了選擇、過濾、分組、連接和排序這些常用的功能外,還支持Java表達式、正則表達式、java腳本、Java類、python等代替了完成數據轉換任務的手工編碼,降低了開發難度包含數據的剖析、清洗、校驗、抽取、轉換和加載等各類常見的ETL類支持多平臺開源免費開源,良好的社區支持可以在Window、Linux、Unix上運行Kettle的安裝Kettle的特點可視化豐富的工具類支持Java的安裝登錄Java的官網后,進入到下載頁面:/technetwork/java/javase/downloads/index.html,選擇當前最新的Java版本下載安裝。本章以Win10操作系統安裝Java10為例進行介紹。下載jdk-10_windows-x64_bin.exe完畢后,雙擊該文件,一路選擇next,直接到安裝完畢。本書的安裝路徑為C:\ProgramFiles\Java\jdk-10。Java的安裝Java的安裝登錄Java的官網后,進入到下載頁面:httpJava的安裝Java環境變量的配置環境變量名稱環境變量值配置方式JAVA_HOMEC:\ProgramFiles\Java\jdk-10(注:此為安裝路徑)新建CLASSPATH.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar新建Path.;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin追加Java的安裝Java環境變量的配置環境變量名稱環境變量值配Java的安裝右鍵點擊“我的電腦”,在彈出的選項欄中點擊“屬性”Java的安裝右鍵點擊“我的電腦”,在彈出的選項欄中點擊“屬Java的安裝點擊“高級系統設置”。Java的安裝點擊“高級系統設置”。Java的安裝點擊“環境變量(N)…”。Java的安裝點擊“環境變量(N)…”。Java的安裝點擊“系統變量(S)”欄目下的“新建(W)…”。Java的安裝點擊“系統變量(S)”欄目下的“新建(W)…”Java的安裝
以新建的方式配置JAVA_HOME環境變量。在“變量名(N):”填入JAVA_HOME,在“變量值(V):”填入C:\ProgramFiles\Java\jdk-10。填寫完畢后,點擊“確定”完成新建環境變量JAVA_HOME的配置。
Java的安裝以新建的方式配置JAVA_HOME環境變Java的安裝參考JAVA_HOME環境變量的配置操作完成CLASSPATH環境變量的配置。CLASSPATH環境變量的值為.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar,填寫完畢后,點擊“確定”,完成新建環境變量CLASSPATH的配置。Java的安裝參考JAVA_HOME環境變量的配置操作完成CJava的安裝在“系統變量(S)”欄目中,點擊Path環境變量,接著點擊“編輯(I)…”按鈕,以追加的方式開始配置Path環境變量。
Java的安裝在“系統變量(S)”欄目中,點擊Path環境變Java的安裝在“編輯環境變量”彈框中,點擊“新建(N)”按鈕Java的安裝在“編輯環境變量”彈框中,點擊“新建(N)”按Java的安裝在光標位置,增添.;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin,點擊“確定”完成Path的配置。配置完畢后,點擊所有彈框的“確定”按鈕,關閉所有彈框,返回到桌面。
Java的安裝在光標位置,增添.;%JAVA_HOME%\bJava的安裝在命令窗口中輸入java–version和javac命令,有如下輸出提示,則Java的環境變量配置正確。
Java的安裝在命令窗口中輸入java–version和jKettle的下載安裝與spoon啟動Kettle作為一個獨立的壓縮包發布,可以從/projects/pentaho/files/選擇最新的版本下載安裝。下載完畢后,解壓下載的文件,點擊spoon.bat即可使用。為了方便使用,可以為spoon.bat創建一個Windows桌面快捷方式。創建快捷方式后,右鍵單擊新創建的快捷文件,在彈出菜單中選擇屬性。打開的屬性對話框里顯示了快捷方式標簽。在這個標簽下“更改圖標”按鈕可以為這個快捷方式選中一個容易識別的圖標,一般選擇Kettle目錄下的spoon.ico文件。Kettle的下載安裝與spoon啟動Kettle作為一個獨Kettle的下載安裝與spoon啟動修改spoon.bat的圖標Kettle的下載安裝與spoon啟動修改spoon.bat02Kettle的使用簡介02Kettle的使用簡介Kettle的使用簡介轉換是ETL解決方案中最主要的部分,它負責處理抽取、轉換、加載各階段對數據行的各種操作。轉換包括一個或多個步驟,如讀取文件、過濾輸出行、數據清洗或將數據加載到數據庫。轉換里的步驟通過跳來連接,跳定義了一個單向通道,允許數據從一個步驟向另一個步驟流動。在Kettle里,數據的單位是行,數據流就是數據行從一個步驟到另一個步驟的移動。數據流的另一個同義詞就是記錄流。除了步驟和跳,轉換還包括了注釋,注釋是一個小的文本框,可以放在轉換流程圖的任何位置。注釋的主要目的是使轉換文檔化。Kettle的使用簡介轉換是ETL解決方案中最主要的部分,它轉換的基本概念轉換的基本概念轉換的基本概念步驟是轉換里的基本組成部分。它是一個圖形化的組件,可以通過配置步驟的參數,使得它完成相應的功能。例子顯示了兩個步驟,分別為“表輸入”和“MicrosoftExcel輸出”。配置“表輸入”步驟的參數,可以使得這個步驟從指定的數據庫中讀取指定關系表的數據;配置“MicrosoftExcel輸出”步驟的參數,可以使得這個步驟向指定的路徑創建一個Excel表格,并寫入數據。當這兩個步驟用跳(箭頭連接線)連接起來的時候,“表輸入”步驟讀取的數據,通過跳,傳輸給了“MicrosoftExcel輸出”步驟。最終,“MicrosoftExcel輸出”步驟把“表輸入”所讀取的數據,寫入到Excel表格中。這個跳,對“表輸入”而言,是個輸出跳;對“MicrosoftExcel輸出”而言,是個輸入跳。轉換的基本概念步驟是轉換里的基本組成部分。它是一個圖形化的組轉換的基本概念步驟的關鍵特性每個步驟都會讀、寫數據行(唯一例外是“生成記錄”步驟,該步驟只寫數據)步驟之間通過跳進行數據行的單向傳輸。大多數的步驟都可以有多個輸出跳。一個步驟的數據發送可以被設置為輪流發送和復制發送。在運行轉換時,一個線程運行一個步驟,所有步驟的線程幾乎同時運行。除了具備有上面這些共性功能,每個步驟都有明顯的功能區別,這可以通過步驟類型體現步驟需要有一個唯一性的名字轉換的基本概念步驟的關鍵特性每個步驟都會讀、寫數據行(唯一例轉換的基本概念轉換的跳就是步驟之間帶箭頭的連線,跳定義了步驟之間進行數據傳輸的單向通道。從程序執行的角度看,跳實際上是兩個步驟線程之間進行數據行傳輸的緩存。這個緩存被稱為行集,行集的大小可以在轉換的設置里定義。當行集滿了,向行集寫數據的步驟將停止寫入,直到行集里又有了空間。當行集空了,從行集讀取數據的步驟停止讀取,直到行集里又有可讀的數據行。注意:因為在轉換里每個步驟都依賴前一個步驟獲取字段值,所以當創建新跳的時候,跳的方向是單向的,不能是雙向循環的。轉換的基本概念轉換的跳就是步驟之間帶箭頭的連線,跳定義了步驟轉換的基本概念不可能定義一個執行的順序,也不可能確定一個起點步驟和終點步驟。因為所有步驟都以并發方式執行:當轉換啟動后,所有步驟都同時啟動。每個步驟從它的輸入跳中讀取數據,并把處理過的數據寫到輸出跳,直到輸入跳里不再有數據,就中止步驟的運行。當所有的步驟都中止了,整個轉換就中止了程序角度功能角度轉換有明確的起點步驟和終點步驟。例子中顯示的轉換起點就是“表輸入”步驟(因為這個步驟生成數據行)。終點就是“MicrosoftExcel輸出”步驟(因為這個步驟將數據寫到文件,而且后面不再有其他節點)轉換轉換的基本概念不可能定義一個執行的順序,也不可能確定一個起點轉換的基本概念字符類型數據IntegerBigNumberDateBinary數據以數據行的形式沿著步驟移動。一個數據行是零到多個字段的集合,字段包括的數據類型。BooleanStringNumber雙精度浮點數帶符號長整型(64位)任意精度數值帶毫秒精度的日期時間值取值為true和false的布爾值二進制字段可以包括圖形、聲音、視頻等轉換的基本概念字符類型數據IntegerBigNumberD轉換的基本概念點擊輸入標題文字元數據名稱數據類型長度掩碼小數點分組符號初始步驟轉換的基本概念點擊輸入標題文字元數據名稱數據類型長度掩碼小數轉換的基本概念
當設計轉換時有幾個數據類型的規則需要注意:01行級里的所有行都應該有同樣的數據結構03默認情況下,空字符串(““)被認為與NUL相等02字段元數據不會在轉換中發生變化轉換的基本概念當設計轉換時有幾個數據類型的規則需要注意:第一個轉換案例Kettle使用圖形化的方式定義復雜的ETL程序和工作流,所以被歸類為可視化編程語言。利用Kettle,可以快速構建復雜的ETL作業和降低維護工作量。由于Kettle通過組件的配置,隱藏了很多技術細節,使得IT領域更貼近商務領域。本節將介紹如何利用Kettle的可視化編程,實現例子中的轉換。第一個轉換案例Kettle使用圖形化的方式定義復雜的ETL程第一個轉換案例由于本案例要從MySQL數據庫中讀取表格內容輸出到Excel表格,還需要一個額外的jar包支持。該jar包的下載地址為/downloads/connector/j/。在本書,選擇5.1.46版本下載,下載的鏈接地址為/downloads/file/?id=476198。下載完畢后,解壓壓縮包,將mysql-connector-java-5.1.46-bin.jar文件存放到\data-integration\lib\路徑下。然后,關閉Kettle后再次打開Kettle,使得該jar包生效。該jar包生效后,可在“表輸入”步驟中配置MySQL數據庫客戶端連接到服務端的參數,連接到相關的數據庫,獲取相關的表格數據輸出到Excel表格中。在此案例中,由于需要從MySQL數據庫獲取表格數據。所以,需要讀者預先安裝MySQL服務端與客戶端,通過客戶端創建數據庫與表,并輸入數據。第一個轉換案例由于本案例要從MySQL數據庫中讀取表格內容輸第一個轉換案例運行Spoon.bat后,Kettle將啟動Spoon,進入可視化編程界面。第一個轉換案例運行Spoon.bat后,Kettle將啟動S第一個轉換案例這樣創建了一個轉換文件。在Spoon界面的快捷工具欄上點擊,在下拉菜單中點擊注:“作業”包括一個或多個作業項,作業項由轉換構成。第一個轉換案例這樣創建了一個轉換文件。在Spoon界面的快捷第一個轉換案例點擊圖標,重命名該轉換文件,保存在某個指定的路徑第一個轉換案例點擊圖標,重命名該轉換文件,保存在某個指定的路第一個轉換案例主對象樹畫布核心對象狀態欄Kettle主界面第一個轉換案例主對象樹畫布核心對象狀態欄Kettle主界面第一個轉換案例核心對象第一個轉換案例核心對象第一個轉換案例在“核心對象”標簽中,點擊“輸入”文件夾展開輸入類型的所有步驟。按住鼠標左鍵拖拽“表輸入”步驟到畫布中。這樣,在畫布中就創建了一個新步驟。第一個轉換案例在“核心對象”標簽中,點擊“輸入”文件夾展開輸第一個轉換案例在“核心對象”標簽中,點擊“輸出”文件夾展開輸出類型的所有步驟。點擊“MicrosoftExcel輸出”步驟,按住鼠標左鍵拖拽到畫布中。第一個轉換案例在“核心對象”標簽中,點擊“輸出”文件夾展開輸第一個轉換案例轉換里的步驟通過跳定義一個單向通道來連接。點擊“表輸入”步驟,按住鼠標左鍵,將箭頭一直拖到“MicrosoftExcel輸出”,待箭頭變成綠色時,松開鼠標左鍵,即可建立兩個步驟之間的跳。注:右鍵點擊跳的箭頭符號,在菜單欄上選擇相關的操作設置該跳的一些屬性,包括“使節點連接時效”,“刪除節點連接”等。第一個轉換案例轉換里的步驟通過跳定義一個單向通道來連接。點擊第一個轉換案例雙擊“表輸入”步驟進行配置,在彈出的配置對話框中,點擊“新建”按鈕配置數據庫的連接信息第一個轉換案例雙擊“表輸入”步驟進行配置,在彈出的配置對話框第一個轉換案例配置數據庫連接第一個轉換案例配置數據庫連接第一個轉換案例配置數據庫連接后,“表輸入”彈框中會顯示新建的數據庫連接第一個轉換案例配置數據庫連接后,“表輸入”彈框中會顯示新建的第一個轉換案例在“表輸入”彈框中,點擊“獲取SQL語句”按鈕,將彈出“數據庫瀏覽器”第一個轉換案例在“表輸入”彈框中,點擊“獲取SQL語句”按鈕第一個轉換案例選擇“學生”表后,“表輸入”彈框會顯示“學生”表的查詢語句第一個轉換案例選擇“學生”表后,“表輸入”彈框會顯示“學生”第一個轉換案例選擇預覽的記錄數量,點擊“確定”后,將可以查看學生表的數據記錄信息。此時,已完成了“表輸入”步驟的配置。第一個轉換案例選擇預覽的記錄數量,點擊“確定”后,將可以查看第一個轉換案例雙擊“MicrosoftExcel輸出”步驟進行配置。在彈出的配置對話框中,點擊選定“文件&工作表”進行配置。第一個轉換案例雙擊“MicrosoftExcel輸出”步第一個轉換案例在“MicrosoftExcel輸出”步驟的配置對話框中,點擊選定“內容”進行配置。點擊“獲取字段”按鈕,獲取上個步驟輸出的數據字段。
獲取后,在“字段”的表格中,顯示了已獲取的字段。這些字段將在C:\Users\45812\Desktop\etl\ktr\outfile.xlsx文件中輸出。第一個轉換案例在“MicrosoftExcel輸出”步驟第一個轉換案例點擊開始運行程序,在彈出的對話框中,選擇運行該程序。第一個轉換案例點擊開始運行程序,在彈出的對話框中,選擇運行該第一個轉換案例執行完畢后,輸出的文件保存在“MicrosoftExcel輸出”步驟設置的路徑下。該轉換的輸出路徑及文件為C:\Users\45\Desktop\etl\ktr\outfile.xlsx第一個轉換案例執行完畢后,輸出的文件保存在“Microsof第一個轉換案例對于Kettle而言,執行的一系列結果在右下方的“執行結果”狀態欄中顯示。也就是說,“執行結果”狀態欄是對轉換、作業執行過程的監控。第一個轉換案例對于Kettle而言,執行的一系列結果在右下方第一個轉換案例“日志”標簽展示了該轉換的時間執行過程。如果程序運行出錯,將在這里顯示具體的出錯信息,設計者可根據錯誤信息調試程序。第一個轉換案例“日志”標簽展示了該轉換的時間執行過程。如果程第一個轉換案例“步驟度量”標簽卡和“Metrics”標簽卡,都展示了該轉換執行過程中每一個步驟所耗費的時間。設計者可根據這些信息對所設計的轉換進行優化,提升轉換執行的效率。此外,“步驟度量”還展示了數據在每一個步驟的輸入輸出流程,設計者可根據這些信息核實數據的流程是否符合預定的設計流程第一個轉換案例“步驟度量”標簽卡和“Metrics”標簽卡,第一個轉換案例“Previewdata”標簽可預覽該轉換中鼠標已選定步驟的輸出結果。第一個轉換案例“Previewdata”標簽可預覽該轉換中第一個轉換案例狀態欄顯示了一系列調試運行程序的按鈕。運行暫停終止預覽/調試重新執行第一個轉換案例狀態欄顯示了一系列調試運行程序的按鈕。運行暫停第一個轉換案例設定調試的條件后,點擊“配置”按鈕進入調試模式。第一個轉換案例設定調試的條件后,點擊“配置”按鈕進入調試模式第一個轉換案例在進行可視化編程的過程,每在畫布上增添一個步驟,一個跳等,都會在主對象樹中記錄并呈現出來。設計者在檢查程序設計時,可以在主對象樹中,雙擊相關的對象進行編輯修改,實現對程序的調試。第一個轉換案例在進行可視化編程的過程,每在畫布上增添一個步驟第一個轉換案例Kettle的參數配置分為環境變量配置和命名參數兩類。環境變量具有全局性質,配置后的環境變量對所有轉換、作業都可用、有效;命名參數具有局部性質,僅對當前轉換、作業有效。第一個轉換案例Kettle的參數配置分為環境變量配置和命名參第一個轉換案例環境變量的配置路徑及文件為C:\Users\45812\.kettle\kettperties(45812表示此windows下的用戶)。用文本編輯器打開perties文件,即可用鍵值對的形式配置環境變量。一個環境變量占據一行,鍵在等號前面,作為配置所使用的環境變量名,等號后面就是這個環境變量的值。轉換和作業可以通過${環境變量名}或%%環境變量名%%的方式來引用perties定義的環境變量。第一個轉換案例環境變量的配置路徑及文件為C:\Users\4第一個轉換案例基于第一個轉換實驗的配置例子,配置“MicrosoftExcel輸出”步驟中的輸出路徑,用環境變量“GLOBAL_PATH”表示。配置perties完畢后,需要關閉再重新打開Kettle,配置的全局參數才生效可用。第一個轉換案例基于第一個轉換實驗的配置例子,配置“Micro第一個轉換案例在“MicrosoftExcel輸出”步驟的配置中,用${GLOBAL_PATH}引用環境變量,指定輸出的路徑為C:/Users/45812/Desktop/etl/GlobalPath。當創建同樣的第二個轉換后,該全局參數同樣可為第二個轉換所用。第一個轉換案例在“MicrosoftExcel輸出”步驟第一個轉換案例右鍵點擊當前轉換畫布上空白的地方,在彈出的菜單中點擊“轉換設置CTL-L”第一個轉換案例右鍵點擊當前轉換畫布上空白的地方,在彈出的菜單第一個轉換案例在“轉換屬性”的“命名參數”標簽卡中配置命名參數的名字和值。第一個轉換案例在“轉換屬性”的“命名參數”標簽卡中配置命名參第一個轉換案例在“MicrosoftExcel輸出”步驟的配置中,用${LOCATIONPATHOUT}引用環境變量,指定輸出的路徑為C:\Users\45812\Desktop\etl\LocalPath。第一個轉換案例在“MicrosoftExcel輸出”步驟第一個轉換案例在實際工作環境中,這些用spoon開發的轉換、作業都是定時執行的,給數據倉庫或其他系統定期提供轉換后的數據,用于數據挖掘或可視化。在windows環境下,可以使用控制面板中的計劃任務定時執行批處理。第一個轉換案例在實際工作環境中,這些用spoon開發的轉換、第一個轉換案例在本實驗中,假設此轉換保存的路徑及文件名為C:\Users\45812\Desktop\etl\ktr\FirstTan.ktr,則批處理文件內容如下:cd/dd:\data-integrationpan/file=C:\Users\45812\Desktop\etl\ktr\FirstTan.ktr
/level=Detailed/logfile=D:\1.log0注:用命令行或批處理腳本啟動轉換時,Kettle不支持中文路徑、中文的ktr文件。該批處理文件的第一行中,d:\data-integration為Kettle的安裝路徑。用cd命令切換到該路徑中執行第2行的命令行。第2行中,用pan對應執行Kettle安裝目錄下的pan.bat批處理腳本。該腳本的命令行參數語法規范如下:[/-]name[[:=]value]以斜線(/)或橫線(-)后接參數名,大部分參數名后面都要有參數值。參數值通過冒號(:)或等號(=)給參數名賦值。參數值中如果包含有空格,參數值必須用單引號(‘’)或雙引號(“”)引起來。第一個轉換案例在本實驗中,假設此轉換保存的路徑及文件名為C:第一個轉換案例Pan命令的參數名及參數值的描述如下:參數名參數值說明file文件名指定轉換或作業的文件名levelError,Nothing,Basic,Detail,Debug,Rowlevel指定日志級別logfile日志文件名指定執行轉換或作業的日志文件名第一個轉換案例Pan命令的參數名及參數值的描述如下:參數名參第一個轉換案例
打開控制面板,用大圖標的方式查看,找到“管理工具”,點擊它進行下一步的設第一個轉換案例打開控制面板,用大圖標的方式查看,找到“管第一個轉換案例雙擊“任務計劃程序”進入下一步的設置。第一個轉換案例雙擊“任務計劃程序”進入下一步的設置。第一個轉換案例點擊“創建基本任務”第一個轉換案例點擊“創建基本任務”第一個轉換案例給定時的計劃任務起個名稱,加上必要的描述,然后點擊下一步。第一個轉換案例給定時的計劃任務起個名稱,加上必要的描述,然后第一個轉換案例根據情況選擇定時的方式,此例子選擇“每天”執行,然后點擊下一步第一個轉換案例根據情況選擇定時的方式,此例子選擇“每天”執行第一個轉換案例設置每天定時的時間,然后點擊下一步。第一個轉換案例設置每天定時的時間,然后點擊下一步。第一個轉換案例選擇“啟動程序”,定時的去執行批處理腳本。然后點擊下一步。第一個轉換案例選擇“啟動程序”,定時的去執行批處理腳本。然第一個轉換案例點擊“瀏覽”按鈕,選擇定時執行的批處理文件。第一個轉換案例點擊“瀏覽”按鈕,選擇定時執行的批處理文件。第一個轉換案例點擊“完成”按鈕,完成配置。第一個轉換案例點擊“完成”按鈕,完成配置。第一個轉換案例返回計劃任務的配置界面后,點擊“活動任務”三角形的按鈕,展開任務列表。在任務列表中,將查看到剛才新建的定時任務kettle。時間到了,將會自動執行此轉換。第一個轉換案例返回計劃任務的配置界面后,點擊“活動任務”三角謝謝觀看謝謝觀看數據導入與預處理應用-第二章Kettle工具的初步使用數據導入與預處理應用-第二章Kettle工具的初步使用目錄0102Kettle的安裝Kettle使用簡介目錄0102Kettle的安裝Kettle使用簡介內容簡介本章首先介紹Kettle工具的安裝及基本概念,然后通過一個案例實操介紹Kettle工具的使用。本章重要的內容如下:Kettle的安裝Kettle的安裝轉換的基本概念可視化編程及調試Kettle的安裝定時啟動轉換1234內容簡介本章首先介紹Kettle工具的安裝及基本概念,然后通01Kettle的安裝01Kettle的安裝Kettle的安裝Kettle開源JAVA編寫多平臺可視化Kettle的安裝Kettle開源JAVA編寫多平臺可視化Kettle的安裝Kettle的特點可視化豐富的工具類支持各類數據源除了支持各種關系型數據庫,HBaseMongoDB這樣的NoSQL數據源外,還支持Excel、Access這類小型的數據源強大的處理功能除了選擇、過濾、分組、連接和排序這些常用的功能外,還支持Java表達式、正則表達式、java腳本、Java類、python等代替了完成數據轉換任務的手工編碼,降低了開發難度包含數據的剖析、清洗、校驗、抽取、轉換和加載等各類常見的ETL類支持多平臺開源免費開源,良好的社區支持可以在Window、Linux、Unix上運行Kettle的安裝Kettle的特點可視化豐富的工具類支持Java的安裝登錄Java的官網后,進入到下載頁面:/technetwork/java/javase/downloads/index.html,選擇當前最新的Java版本下載安裝。本章以Win10操作系統安裝Java10為例進行介紹。下載jdk-10_windows-x64_bin.exe完畢后,雙擊該文件,一路選擇next,直接到安裝完畢。本書的安裝路徑為C:\ProgramFiles\Java\jdk-10。Java的安裝Java的安裝登錄Java的官網后,進入到下載頁面:httpJava的安裝Java環境變量的配置環境變量名稱環境變量值配置方式JAVA_HOMEC:\ProgramFiles\Java\jdk-10(注:此為安裝路徑)新建CLASSPATH.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar新建Path.;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin追加Java的安裝Java環境變量的配置環境變量名稱環境變量值配Java的安裝右鍵點擊“我的電腦”,在彈出的選項欄中點擊“屬性”Java的安裝右鍵點擊“我的電腦”,在彈出的選項欄中點擊“屬Java的安裝點擊“高級系統設置”。Java的安裝點擊“高級系統設置”。Java的安裝點擊“環境變量(N)…”。Java的安裝點擊“環境變量(N)…”。Java的安裝點擊“系統變量(S)”欄目下的“新建(W)…”。Java的安裝點擊“系統變量(S)”欄目下的“新建(W)…”Java的安裝
以新建的方式配置JAVA_HOME環境變量。在“變量名(N):”填入JAVA_HOME,在“變量值(V):”填入C:\ProgramFiles\Java\jdk-10。填寫完畢后,點擊“確定”完成新建環境變量JAVA_HOME的配置。
Java的安裝以新建的方式配置JAVA_HOME環境變Java的安裝參考JAVA_HOME環境變量的配置操作完成CLASSPATH環境變量的配置。CLASSPATH環境變量的值為.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar,填寫完畢后,點擊“確定”,完成新建環境變量CLASSPATH的配置。Java的安裝參考JAVA_HOME環境變量的配置操作完成CJava的安裝在“系統變量(S)”欄目中,點擊Path環境變量,接著點擊“編輯(I)…”按鈕,以追加的方式開始配置Path環境變量。
Java的安裝在“系統變量(S)”欄目中,點擊Path環境變Java的安裝在“編輯環境變量”彈框中,點擊“新建(N)”按鈕Java的安裝在“編輯環境變量”彈框中,點擊“新建(N)”按Java的安裝在光標位置,增添.;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin,點擊“確定”完成Path的配置。配置完畢后,點擊所有彈框的“確定”按鈕,關閉所有彈框,返回到桌面。
Java的安裝在光標位置,增添.;%JAVA_HOME%\bJava的安裝在命令窗口中輸入java–version和javac命令,有如下輸出提示,則Java的環境變量配置正確。
Java的安裝在命令窗口中輸入java–version和jKettle的下載安裝與spoon啟動Kettle作為一個獨立的壓縮包發布,可以從/projects/pentaho/files/選擇最新的版本下載安裝。下載完畢后,解壓下載的文件,點擊spoon.bat即可使用。為了方便使用,可以為spoon.bat創建一個Windows桌面快捷方式。創建快捷方式后,右鍵單擊新創建的快捷文件,在彈出菜單中選擇屬性。打開的屬性對話框里顯示了快捷方式標簽。在這個標簽下“更改圖標”按鈕可以為這個快捷方式選中一個容易識別的圖標,一般選擇Kettle目錄下的spoon.ico文件。Kettle的下載安裝與spoon啟動Kettle作為一個獨Kettle的下載安裝與spoon啟動修改spoon.bat的圖標Kettle的下載安裝與spoon啟動修改spoon.bat02Kettle的使用簡介02Kettle的使用簡介Kettle的使用簡介轉換是ETL解決方案中最主要的部分,它負責處理抽取、轉換、加載各階段對數據行的各種操作。轉換包括一個或多個步驟,如讀取文件、過濾輸出行、數據清洗或將數據加載到數據庫。轉換里的步驟通過跳來連接,跳定義了一個單向通道,允許數據從一個步驟向另一個步驟流動。在Kettle里,數據的單位是行,數據流就是數據行從一個步驟到另一個步驟的移動。數據流的另一個同義詞就是記錄流。除了步驟和跳,轉換還包括了注釋,注釋是一個小的文本框,可以放在轉換流程圖的任何位置。注釋的主要目的是使轉換文檔化。Kettle的使用簡介轉換是ETL解決方案中最主要的部分,它轉換的基本概念轉換的基本概念轉換的基本概念步驟是轉換里的基本組成部分。它是一個圖形化的組件,可以通過配置步驟的參數,使得它完成相應的功能。例子顯示了兩個步驟,分別為“表輸入”和“MicrosoftExcel輸出”。配置“表輸入”步驟的參數,可以使得這個步驟從指定的數據庫中讀取指定關系表的數據;配置“MicrosoftExcel輸出”步驟的參數,可以使得這個步驟向指定的路徑創建一個Excel表格,并寫入數據。當這兩個步驟用跳(箭頭連接線)連接起來的時候,“表輸入”步驟讀取的數據,通過跳,傳輸給了“MicrosoftExcel輸出”步驟。最終,“MicrosoftExcel輸出”步驟把“表輸入”所讀取的數據,寫入到Excel表格中。這個跳,對“表輸入”而言,是個輸出跳;對“MicrosoftExcel輸出”而言,是個輸入跳。轉換的基本概念步驟是轉換里的基本組成部分。它是一個圖形化的組轉換的基本概念步驟的關鍵特性每個步驟都會讀、寫數據行(唯一例外是“生成記錄”步驟,該步驟只寫數據)步驟之間通過跳進行數據行的單向傳輸。大多數的步驟都可以有多個輸出跳。一個步驟的數據發送可以被設置為輪流發送和復制發送。在運行轉換時,一個線程運行一個步驟,所有步驟的線程幾乎同時運行。除了具備有上面這些共性功能,每個步驟都有明顯的功能區別,這可以通過步驟類型體現步驟需要有一個唯一性的名字轉換的基本概念步驟的關鍵特性每個步驟都會讀、寫數據行(唯一例轉換的基本概念轉換的跳就是步驟之間帶箭頭的連線,跳定義了步驟之間進行數據傳輸的單向通道。從程序執行的角度看,跳實際上是兩個步驟線程之間進行數據行傳輸的緩存。這個緩存被稱為行集,行集的大小可以在轉換的設置里定義。當行集滿了,向行集寫數據的步驟將停止寫入,直到行集里又有了空間。當行集空了,從行集讀取數據的步驟停止讀取,直到行集里又有可讀的數據行。注意:因為在轉換里每個步驟都依賴前一個步驟獲取字段值,所以當創建新跳的時候,跳的方向是單向的,不能是雙向循環的。轉換的基本概念轉換的跳就是步驟之間帶箭頭的連線,跳定義了步驟轉換的基本概念不可能定義一個執行的順序,也不可能確定一個起點步驟和終點步驟。因為所有步驟都以并發方式執行:當轉換啟動后,所有步驟都同時啟動。每個步驟從它的輸入跳中讀取數據,并把處理過的數據寫到輸出跳,直到輸入跳里不再有數據,就中止步驟的運行。當所有的步驟都中止了,整個轉換就中止了程序角度功能角度轉換有明確的起點步驟和終點步驟。例子中顯示的轉換起點就是“表輸入”步驟(因為這個步驟生成數據行)。終點就是“MicrosoftExcel輸出”步驟(因為這個步驟將數據寫到文件,而且后面不再有其他節點)轉換轉換的基本概念不可能定義一個執行的順序,也不可能確定一個起點轉換的基本概念字符類型數據IntegerBigNumberDateBinary數據以數據行的形式沿著步驟移動。一個數據行是零到多個字段的集合,字段包括的數據類型。BooleanStringNumber雙精度浮點數帶符號長整型(64位)任意精度數值帶毫秒精度的日期時間值取值為true和false的布爾值二進制字段可以包括圖形、聲音、視頻等轉換的基本概念字符類型數據IntegerBigNumberD轉換的基本概念點擊輸入標題文字元數據名稱數據類型長度掩碼小數點分組符號初始步驟轉換的基本概念點擊輸入標題文字元數據名稱數據類型長度掩碼小數轉換的基本概念
當設計轉換時有幾個數據類型的規則需要注意:01行級里的所有行都應該有同樣的數據結構03默認情況下,空字符串(““)被認為與NUL相等02字段元數據不會在轉換中發生變化轉換的基本概念當設計轉換時有幾個數據類型的規則需要注意:第一個轉換案例Kettle使用圖形化的方式定義復雜的ETL程序和工作流,所以被歸類為可視化編程語言。利用Kettle,可以快速構建復雜的ETL作業和降低維護工作量。由于Kettle通過組件的配置,隱藏了很多技術細節,使得IT領域更貼近商務領域。本節將介紹如何利用Kettle的可視化編程,實現例子中的轉換。第一個轉換案例Kettle使用圖形化的方式定義復雜的ETL程第一個轉換案例由于本案例要從MySQL數據庫中讀取表格內容輸出到Excel表格,還需要一個額外的jar包支持。該jar包的下載地址為/downloads/connector/j/。在本書,選擇5.1.46版本下載,下載的鏈接地址為/downloads/file/?id=476198。下載完畢后,解壓壓縮包,將mysql-connector-java-5.1.46-bin.jar文件存放到\data-integration\lib\路徑下。然后,關閉Kettle后再次打開Kettle,使得該jar包生效。該jar包生效后,可在“表輸入”步驟中配置MySQL數據庫客戶端連接到服務端的參數,連接到相關的數據庫,獲取相關的表格數據輸出到Excel表格中。在此案例中,由于需要從MySQL數據庫獲取表格數據。所以,需要讀者預先安裝MySQL服務端與客戶端,通過客戶端創建數據庫與表,并輸入數據。第一個轉換案例由于本案例要從MySQL數據庫中讀取表格內容輸第一個轉換案例運行Spoon.bat后,Kettle將啟動Spoon,進入可視化編程界面。第一個轉換案例運行Spoon.bat后,Kettle將啟動S第一個轉換案例這樣創建了一個轉換文件。在Spoon界面的快捷工具欄上點擊,在下拉菜單中點擊注:“作業”包括一個或多個作業項,作業項由轉換構成。第一個轉換案例這樣創建了一個轉換文件。在Spoon界面的快捷第一個轉換案例點擊圖標,重命名該轉換文件,保存在某個指定的路徑第一個轉換案例點擊圖標,重命名該轉換文件,保存在某個指定的路第一個轉換案例主對象樹畫布核心對象狀態欄Kettle主界面第一個轉換案例主對象樹畫布核心對象狀態欄Kettle主界面第一個轉換案例核心對象第一個轉換案例核心對象第一個轉換案例在“核心對象”標簽中,點擊“輸入”文件夾展開輸入類型的所有步驟。按住鼠標左鍵拖拽“表輸入”步驟到畫布中。這樣,在畫布中就創建了一個新步驟。第一個轉換案例在“核心對象”標簽中,點擊“輸入”文件夾展開輸第一個轉換案例在“核心對象”標簽中,點擊“輸出”文件夾展開輸出類型的所有步驟。點擊“MicrosoftExcel輸出”步驟,按住鼠標左鍵拖拽到畫布中。第一個轉換案例在“核心對象”標簽中,點擊“輸出”文件夾展開輸第一個轉換案例轉換里的步驟通過跳定義一個單向通道來連接。點擊“表輸入”步驟,按住鼠標左鍵,將箭頭一直拖到“MicrosoftExcel輸出”,待箭頭變成綠色時,松開鼠標左鍵,即可建立兩個步驟之間的跳。注:右鍵點擊跳的箭頭符號,在菜單欄上選擇相關的操作設置該跳的一些屬性,包括“使節點連接時效”,“刪除節點連接”等。第一個轉換案例轉換里的步驟通過跳定義一個單向通道來連接。點擊第一個轉換案例雙擊“表輸入”步驟進行配置,在彈出的配置對話框中,點擊“新建”按鈕配置數據庫的連接信息第一個轉換案例雙擊“表輸入”步驟進行配置,在彈出的配置對話框第一個轉換案例配置數據庫連接第一個轉換案例配置數據庫連接第一個轉換案例配置數據庫連接后,“表輸入”彈框中會顯示新建的數據庫連接第一個轉換案例配置數據庫連接后,“表輸入”彈框中會顯示新建的第一個轉換案例在“表輸入”彈框中,點擊“獲取SQL語句”按鈕,將彈出“數據庫瀏覽器”第一個轉換案例在“表輸入”彈框中,點擊“獲取SQL語句”按鈕第一個轉換案例選擇“學生”表后,“表輸入”彈框會顯示“學生”表的查詢語句第一個轉換案例選擇“學生”表后,“表輸入”彈框會顯示“學生”第一個轉換案例選擇預覽的記錄數量,點擊“確定”后,將可以查看學生表的數據記錄信息。此時,已完成了“表輸入”步驟的配置。第一個轉換案例選擇預覽的記錄數量,點擊“確定”后,將可以查看第一個轉換案例雙擊“MicrosoftExcel輸出”步驟進行配置。在彈出的配置對話框中,點擊選定“文件&工作表”進行配置。第一個轉換案例雙擊“MicrosoftExcel輸出”步第一個轉換案例在“MicrosoftExcel輸出”步驟的配置對話框中,點擊選定“內容”進行配置。點擊“獲取字段”按鈕,獲取上個步驟輸出的數據字段。
獲取后,在“字段”的表格中,顯示了已獲取的字段。這些字段將在C:\Users\45812\Desktop\etl\ktr\outfile.xlsx文件中輸出。第一個轉換案例在“MicrosoftExcel輸出”步驟第一個轉換案例點擊開始運行程序,在彈出的對話框中,選擇運行該程序。第一個轉換案例點擊開始運行程序,在彈出的對話框中,選擇運行該第一個轉換案例執行完畢后,輸出的文件保存在“MicrosoftExcel輸出”步驟設置的路徑下。該轉換的輸出路徑及文件為C:\Users\45\Desktop\etl\ktr\outfile.xlsx第一個轉換案例執行完畢后,輸出的文件保存在“Microsof第一個轉換案例對于Kettle而言,執行的一系列結果在右下方的“執行結果”狀態欄中顯示。也就是說,“執行結果”狀態欄是對轉換、作業執行過程的監控。第一個轉換案例對于Kettle而言,執行的一系列結果在右下方第一個轉換案例“日志”標簽展示了該轉換的時間執行過程。如果程序運行出錯,將在這里顯示具體的出錯信息,設計者可根據錯誤信息調試程序。第一個轉換案例“日志”標簽展示了該轉換的時間執行過程。如果程第一個轉換案例“步驟度量”標簽卡和“Metrics”標簽卡,都展示了該轉換執行過程中每一個步驟所耗費的時間。設計者可根據這些信息對所設計的轉換進行優化,提升轉換執行的效率。此外,“步驟度量”還展示了數據在每一個步驟的輸入輸出流程,設計者可根據這些信息核實數據的流程是否符合預定的設計流程第一個轉換案例“步驟度量”標簽卡和“Metrics”標簽卡,第一個轉換案例“Previewdata”標簽可預覽該轉換中鼠標已選定步驟的輸出結果。第一個轉換案例“Previewdata”標簽可預覽該轉換中第一個轉換案例狀態欄顯示了一系列調試運行程序的按鈕。運行暫停終止預覽/調試重新執行第一個轉換案例狀態欄顯示了一系列調試運行程序的按鈕。運行暫停第一個轉換案例設定調試的條件后,點擊“配置”按鈕進入調試模式。第一個轉換案例設定調試的條件后,點擊“配置”按鈕進入調試模式第一個轉換案例在進行可視化編程的過程,每在畫布上增添一個步驟,一個跳等,都會在主對象樹中記錄并呈現出來。設計者在檢查程序設計時,可以在主對象樹中,雙擊相關的對象進行編輯修改,實現對程序的調試。第一個轉換案例在進行可視化編程的過程,每在畫布上增添一個步驟第一個轉換案例Kettle的參數配置分為環境變量配置和命名參數兩類。環境變量具有全局性質,配置后的環境變量對所有轉換、作業都可用、有效;命名參數具有局部性質,僅對當前轉換、作業有效。第一個轉換案例Kettle的參數配置分為環境變量配置和命名參第一個轉換案例環境變量的配置路徑及文件為C:\Users\45812\.kettle\kettperties(45812表示此windows下的用戶)。用文本編輯器打開perties文件,即可用鍵值對的形式配置環境變量。一個環境變量占據一行,鍵在等號前面,作為配置所使用的環境變量名,等號后面就是這個環境變量的值。轉換和作業可以通過${環境變量名}或%%環境變量名%%的方式來引用perties定義的環境變量。第一個轉換案例環境變量的配置路徑及文件為C:\Users\4第一個轉換案例基于第一個轉換實驗的配置例子,配置“MicrosoftExcel輸出”步驟中的輸出路徑,用環境變量“GLOBAL_PATH”表示。配置perties完畢后,需要關閉再重新打開Kettle,配置的全局參數才生效可用。第一個轉換案例基于第一個轉換
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車租賃協議合同書
- 廣告標識制作合同
- 保溫施工協議合同
- 對外勞務輸出合同
- 印刷廠全員勞動合同書
- 三方建筑工程施工合同
- 拆遷合同終止協議
- 外協維修協議合同
- 解除托管合同協議
- 合伙協議經營合同
- 深入貫徹學習2025年中央八項規定精神教育測試題及答案
- 2025年第三屆天揚杯建筑業財稅知識競賽題庫附答案(601-700題)
- 勞務派遣勞務外包服務方案(技術方案)
- VDA6.3-2023版審核檢查表
- 保溫工三級安全教育試題及答案
- (完整版)小學六年級數學知識點總復習資料
- 工業氣體充裝站安全管理規范
- 完整豎管降膜蒸發器的設計計算表
- 危巖崩塌落石穩定性運動計算總表(秦皇島資源環境勘察院)
- 注塑模具零件名稱統一標準
- 電腦椅改良設計(20210412100231)
評論
0/150
提交評論