第21章數據模型_第1頁
第21章數據模型_第2頁
第21章數據模型_第3頁
第21章數據模型_第4頁
第21章數據模型_第5頁
已閱讀5頁,還剩204頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘原理與數據挖掘原理與SPSS Clementine應用寶典應用寶典 元昌安元昌安 主編主編 鄧松李文敬劉海濤編著鄧松李文敬劉海濤編著 電子工業出版社電子工業出版社本章主要內容建模前的通用設置神經網絡C5.0算法生成決策樹C&RT基于樹的分類預測Kohonen網絡模型K-Means聚類分析TwoStep聚類分析異常模型Apriori模型GRI關聯規則生成規則集模型序列節點模型主成分/因子分析特征選擇模型回歸分析Logistic回歸模型點擊進入相關節內容建模節點選項板包括以下節點:神經網絡神經網絡C5.0C&RTQUESTCHAIDKohonenKMeansTwoStep異

2、常異常圖圖21-1建模節點選項板建模節點選項板AprioriGRICarma序列序列主成分主成分/因子分析因子分析特征選擇特征選擇回歸回歸Logistic從圖示來辨認一個生成模型的類型圖21-2按列序分別為:神經網絡C5.0C&RTCHAIDQUESTKohonenK-Means特征選擇圖圖21-2生成模型選項板生成模型選項板Logistic回歸TwoStep主成分/因子分析未精煉關聯規則Apriori異常Carma規則集21.2 21.2 建模前的通用設置建模前的通用設置21.1.1建模節點字段頁簽建模節點字段頁簽所有的建模節點都有一個“字段”頁簽,用戶可以在此指定用于建模的字段。各

3、建模節點的“字段”頁簽選項稍有區別,如圖21-3、21-4所示是神經網絡節點的“字段”頁簽和C&RT節點的“字段”頁簽。在建模前,需要指定使用哪些字段作為目標字段和輸入字段。在默認狀態下,除了序列節點,所有的建模節點都從上游的“類型”節點獲取字段信息。如果使用“類型”節點選擇輸入字段和目標字段,無須在這一表上修改任何東西。對于序列檢測模型,必須具體設定建模節點字段表上的字段。要了解更詳細的內容,請看“21.15.1序列節點字段頁簽”。 建模節點的字段頁簽選項綜合為:圖圖21-3 神經網絡節點對話框字段頁簽神經網絡節點對話框字段頁簽圖圖21-4 C&RT節點對話框字段頁簽節點對話

4、框字段頁簽使用類型節點設置:這一選項告訴節點從上游的“類型”節點獲取字段信息。這是默認設置。 使用定制設置:這一選項告訴節點使用本節點指定的字段信息而不是來自上游節點的設置。在選擇了該選項后,需要指定以下字段: (1)目標:對于需要至少一個目標字段的模型,選擇目標字段。這類似于在“類型”節點中把字段方向設置為“輸出”。 (2)輸入:選擇輸入字段。這類似于在“類型”節點中把字段方向設置為“輸入”。(3)分區:選擇分區字段,將會把源數據分區成不同的部分,以方便做測試等。使用頻數字段:這一選項允許用戶選擇一個字段作為頻率權值。如果訓練數據集中的每個記錄代表不止一個單元例如使用匯總數據時,就可以選擇該

5、選項。字段值是每個記錄所代表的單元數。頻率字段的值應當是正整數。頻率權值會影響 C&RT模型分支案例的計算。頻率權值為零或者負值的記錄將不參與分析。非整數頻率權值取整為最相鄰的整數。使用加權字段:這一選項允許選擇某一字段作為案例權值。案例權值用于解釋輸出字段各水平之間的方差。這些權值用于模型估計但是并不影響 C&RT模型分支案例的計算。個案權值必須為正,但是可以不是整數。權值為零或者負值的記錄將不參與分析。 后項:在關聯規則節點(Apriori 和 GRI)中,選擇用作結論規則集中的結果的字段。(這對應于“類型”節點中類型為“輸出”或者“兩者”的字段)。 前項:在關聯規則節點(

6、Apriori 和 GRI)中,選擇用作結論規則集中的前提的字段。(這對應于“類型”節點中類型為“輸入”或者“兩者”的字段)。 使用事務格式(僅在 Apriori 節點中出現):Apriori 節點既可以處理交易數據格式,也可以處理表格數據格式。交易型數據有兩個字段:一個用于存儲 ID 號,一個用于存儲交易內容。每個記錄代表一項交易,相關交易通過相同的 ID號關聯起來。 使用表格格式使用表格格式(Apriori節點僅有):表格數據各項分別由二分變量表示,每個記錄表節點僅有):表格數據各項分別由二分變量表示,每個記錄表示一個完整的交易項。示一個完整的交易項。 如表如表21-2所示為一個表格格式的

7、來源實例。所示為一個表格格式的來源實例。 21.2.1 21.2.1 在數據流中使用生成模型在數據流中使用生成模型新產生的模型可以放置在數據流中,用于對新數據評估和創建新節點。使用一個生成模型來評估數據,其步驟如下:(1)在生成模型面板中點擊選擇所需模型。(2)點擊流區域中的所需位置以便將模型加入到流中。(3)連接生成模型節點與數據源或轉入數據的流。(4)加入或連接一個或多個過程或輸出節點(如表節點)到生成模型節點。(5)執行生成模型節點的某個下游節點。使用一個生成模型節點來創建過程節點,其步驟如下:(1)瀏覽(在選項板上)或編輯(在數據流區域上)這個模型。(2)從這個生成模型瀏覽器窗口的“生

8、成”菜單中選擇所需節點類型。根據不同生成模型節點的類型,有效選項將發生變化。參看特定生成模型類型的細節,用戶能夠得知從某個特定模型能生成什么。21.2.2使用生成模型瀏覽器生成模型瀏覽器允許用戶檢驗和使用模型結果。從瀏覽器中,用戶可以存儲、打印和輸出生成模型,整體觀察模型,查看和編輯注釋等。對于一些生成模型,用戶也可以創建新的節點,(如篩選節點和規則集節點)。有些模型,用戶也可以查看它的參數(如規則或類中心)。對于決策樹模型(C5.0和C&RT),用戶可以查看模型結構的圖形表示,如圖21-7所示。 圖圖21-7 C5.0模型瀏覽器窗口模型瀏覽器窗口21.3 21.3 神經網絡建模神經網

9、絡建模神經網絡節點用于創建并訓練神經網絡。神經網絡,有時也稱作多層感知器,本質上是人腦處理信息方式的簡化模型。它通過模擬大量相互連接的簡單處理單元工作,這些處理單元是按層排列的。在神經網絡中通常有三部分:一個輸入層,其單元代表輸入字段;一個或者更多的隱藏層;以及一個輸出層,其單元代表輸出字段。這些單元通過不斷變化的連接強度或權值連接。 神經網絡學習包括:檢查單個記錄、為每個記錄生成預測、一旦發現生成錯誤的預測便對權值進行調整。這一進程多次重復,神經網絡不斷提高預測效果,直到滿足一個或者多個終止準則。 要求:對字段類型沒有限制。神經網絡可以處理數值型、字符型以及標志型輸入輸出字段。神經網絡節點要

10、求一個或更多字段有“輸入”方向,以及一個或更多字段有“輸出”方向。設置為“兩者” 或者“無” 的字段將被忽略。在執行節點時,字段類型必須被充分實例化。 優點:神經網絡在執行一般估計功能時非常強大。他們一般能夠和其他方法一樣執行預測任務,有時甚至執行得更好。同時,訓練和應用神經網絡需要用戶掌握的統計和數學知識很少。Clementine 中包含幾項特有的功能,用以避免運用神經網絡時的一些常見問題,包括:敏感度分析輔助解釋神經網絡結果,修剪和驗證以避免過度訓練,動態網絡以自動找出合適的網絡結構設計。21.3.1神經網絡節點頁簽圖圖21-8 神經網絡節點對話框模型頁簽神經網絡節點對話框模型頁簽模型名稱

11、:指定要生成的神經網絡名稱。 (1)自動:選擇該選項后,模型名稱將根據目標字段名自動生成,這是默認設置。 (2)定制:選擇該選項可以為節點創建的模型指定用戶定義的模型名稱。 訓練方式:Clementine為建立神經網絡模型提供六種訓練方式: (1)快速:這種方法采用粗略估計方法,根據數據特征選擇神經網絡的合適類型(拓撲結構),需要注意的是計算隱藏層默認規模的方法已經與 Clementine 以前的版本不同。新的方法通常會生成更小規模的隱藏層,訓練起來更快,生成的模型更好。如果發現采用默認規模的隱藏層得到的模型精確度較低,用戶可以嘗試通過“專家”頁簽提高隱藏層規模或者使用別的訓練方法。 (2)動

12、態:這種方法首先創建一個初始拓撲結構,然后隨著訓練的進展添加或剔除隱藏單元以修改拓撲結構。 (3)多重:這種方法創建拓撲結構不同的幾個神經網絡(具體的數目取決于訓練數據的情況)。隨后這些網絡以偽平行方式訓練。在訓練結束時,RMS錯誤最小的模型代表最終的模型。 (4)修剪:這種方法以一個大型神經網絡開始,隨著訓練的進行剔除(修剪)隱藏層和輸入層的最差單元。這種方法通常很慢,但是常常生成比其它方法更好的結果。 (5)徑向基函數網絡(RBFN):徑向基函數網絡(RBFN)使用類似于K-Means 聚類的方法,根據目標字段值拆分數據。 (6)徹底修剪:這種方法與“修剪”方法有關。這種方法以一個大型神經

13、網絡開始,隨著訓練的進行剔除(修剪)隱藏層和輸入層的最差單元。由于是徹底修剪,神經網絡訓練參數的選擇要確保對可能模型空間進行徹底的搜索以選出最好的模型。這種方法通常是最慢的,但是常常生成最好的結果。需要注意的是這種方法會花很長的時間訓練數據,特別是訓練大型數據集。 預防過度訓練:選擇該選項后數據隨機被拆分成訓練集和驗證集。網絡在訓練集中訓練,而精確度則根據驗證集估計。可以在“樣本”框中指定用于訓練的數據比率。(數據集中的其余部分用于驗證)。設置隨機數種子:如果沒有設置隨機數子,則用于初始化神經網絡權值的隨機數序列在每次執行節點時各不相同。這樣,即使神經網絡設置和數據值完全一樣,節點也會在各次執

14、行生成不同的模型。選擇該選項后,可以把隨機數種子設置成某一具體值,這樣結果模型就完全可再現。一個確定的隨機數種子總是生成相同的隨機數序列值,這樣執行該節點總是生成同樣的模型。 停止于:可以從以下終止準則中選擇一個: (1)默認:在這一設置下,網絡將在其看起來達到最佳訓練狀態時停止訓練。如果該設置與“多重”訓練方法一起使用,訓練不好的神經網絡在訓練過程中將被舍棄。 (2)精確性 :選擇該選項后,訓練將一直持續直到達到指定精確度。也許永遠不能達到指定精確度,但是可以在任意點終止訓練并保存目前達到的最高精確度。 (3)周期:選擇該選項后,訓練將持續指定的循環數(通過數據的循環數) 。 (4)時間(分

15、鐘):選擇該選項后,訓練將持續到指定的時間(以分鐘計算) 。優化:設置Clementine的優化策略。(1)速度:選擇“速度”使算法執行加快,但是占用更多的內存。(2)內存:選擇“內存”使執行速度減慢,但節約內存。神經網絡節點選項頁簽圖圖21-9 神經網絡節點對話框選項頁簽神經網絡節點對話框選項頁簽繼續訓練現有模型:在默認設置下,每次執行神經網絡節點時,會創建一個全新的網絡。如果選擇了該選項,訓練繼續使用上次節點成功產生的網絡。節點可以正確處理各次執行間訓練方法的不同,但是RBFN 網絡不能用于其它類型的網絡。因此,當訓練方法改成 RBFN 或者從 RBFN 改成其它方法時,節點的執行總是會創

16、建新的神經網絡。 使用二進制集合編碼:如果選擇了該選項,Clementine會對集合字段使用壓縮性二進制編碼。在使用帶有大量值的集合字段作為輸入字段時,該選項使建立神經網絡模型更加容易。但是,如果使用該選項,可能需要提高網絡結構的復雜性(通過添加更多的隱藏單元或者隱藏層)以使網絡正確使用二進制編碼集合字段中的壓縮信息。 顯示反饋圖形:如果選擇了該選項,用戶會看到一張顯示神經網絡一段時間內學習過程中的精確度。此外,如果選擇了生成日志文件,會看到另一張圖,顯示訓練集合和檢驗集度量(在下面定義)。模型選擇:在默認設置下,如果訓練被中斷,節點會返回最好的神經網絡作為生成網絡節點。也可以要求節點返回“最

17、終模型”。 敏感度分析:選擇該選項后,在網絡訓練結束后,節點會執行輸入字段的敏感度分析。敏感度分析提供哪些輸入字段對于預測輸出字段是更重要的信息。(這些結果是模型信息的一部分,可以在模型結果瀏覽器中獲得)。 生成日志文件:如果選擇了該選項,有關訓練進展的信息會被寫入指定的日志文件。要改變日志文件,可以輸入一個日志文件名或者使用自定義()按鈕定位。(如果選擇了一個已經存在的文件,新的信息將被附加到該檔。)日志文件中各項輸入的格式如圖21-10所示。其選項如下: () 圖圖21-10 生成的日志文件生成的日志文件說明:(1)()按照小時:分鐘:秒 的格式HH:MM:SS. (2)()在多重訓練模式

18、下表明目前訓練的神經網絡。對于其它訓練模式,值總是“1” (3)()是一個整數,從零開始每執行一次增加一次。 (4) ()分別對神經網絡在訓練數據集和檢驗數據集上的表現進行度量。(如果取消選擇 “預防過度訓練”選項,這些值完全相同)。他們按照預測值和真實值的相關系數平方除以均方誤差(MSE)計算。如果同時選擇了“生成日志文件”和 “顯示反饋圖形”,這些度量值會顯示在反饋圖中,作為對模型的精確度值的補充。 神經網絡節點專家頁簽神經網絡節點專家頁簽神經網絡節點專家頁簽各選項隨著所選擇的訓練方式的不同而發生變化。21.2.3.1快速方式專家頁簽快速方式專家頁簽快速方式專家頁簽如圖21-11所示。隱藏

19、層:選擇神經網絡的隱藏層數。更多的隱藏層可以幫助神經網絡學習更為復雜的關系,但同時也增加訓練時間。 層 1,2,3:對每一層,指定其所包含的隱藏單元數。更多的每層隱藏單元數有助于學習復雜任務,但是和附加隱藏層一樣,他們也增加訓練時間。 持續次數:指定未見改進時網絡繼續訓練的次數。更高的持續次數可以避免神經網絡的局部最小,但是同樣增加訓練時間。 圖圖21-11 快速方式專家頁簽快速方式專家頁簽多重方式專家頁簽圖圖21-12多重方式專家頁簽多重方式專家頁簽拓撲:指定用于訓練的神經網絡的拓撲結構。拓撲結構通過指定每層的隱藏單元數給出,各單元數之間用逗號隔開。使用適當的參數數目,拓撲布局可以指定1到3

20、個隱藏層。比如,一個只有一層隱藏層,隱藏層有十個單元的網絡可以指定為 10;有三個隱藏層,隱藏層所含單元分別為10,12,15的網絡可以指定為 10,12,15。 也可以提供用空格隔開的2到3個數字來指定一層中的隱藏單元范圍。如果給的是兩個數字,將創建一系列的神經網絡,其包含單元數分別對應于第一個數字和第二個數字之間的各個整數(包括這兩個數字)。比如,要生成每層分別含10,11,12,13和14個隱藏單元的神經網絡,指定為10 14。要生成有兩個隱藏層,第一個隱藏層所含隱藏單元范圍為10到14,第二個隱藏層所含隱藏單元為8到12,則指定為 10 14,8 12。在這種情況下,會生成包括所有可能

21、的組合值的神經網絡。如果給出第三個值,則用作第一個值到第二個值之間的增量。比如,要生成具有 10,12,14,16 個隱藏單元的類神經網絡,指定為 10 16 2。 最后,可以提供多重網絡拓撲結構,用分號隔開。比如,要分別生成只有一個隱藏層,隱藏層所含單元為10,12,14,16,以及有兩個隱藏層,第一個隱藏層有10個隱藏單元,第二個隱藏層有7到10個隱藏單元的神經網絡,指定為 10 16 2;10,7 10。 丟棄非四棱錐:四棱錐型是指每一層隱藏單元數不多于前一層的神經網絡。這種網絡通常比非四棱錐型網絡訓練得好。選擇該選項丟棄不是四棱錐型的網絡。持續次數:指定未見改進時網絡繼續訓練的次數。修

22、剪方式專家頁簽圖圖21-13 修剪方式專家頁簽修剪方式專家頁簽隱藏層:選擇初始網絡(修剪前)的隱藏層數。 層 1,2,3:指定在初始網絡(修剪前)中每一隱藏層包含隱藏單元數。初始層數應該比使用其它訓練方法的層數略微大一些。 隱藏速率:指定在單個隱藏單元修剪中被剔除的隱藏單元比率數。 隱藏持續次數:指定在訓練未見改進時執行的隱藏單元修剪操作次數。 輸入速率:指定在單個輸入單元修剪中被剔除的輸入單元比率數。 輸入持續次數:指定在訓練未見改進時執行的輸入單元修剪操作次數。 持續次數:指定在訓練未見改進時,網絡在嘗試修剪前的訓練次數。 總體持續次數:指定在訓練未見改進時進行的隱藏單元修剪/輸入單元修剪

23、次數。在使用預設停止模型時,運用該選項。RBFN 專家頁簽圖圖21-14 RBFN專家頁簽專家頁簽RBFN聚類:指定使用的徑向基函數個數或者聚類個數。這對應于隱藏層的大小。 持續次數:指定在訓練未見改進時網絡繼續訓練的次數。 RBF重疊:在RBFN中隱藏單元代表定義數據集中類別或區域的徑向基函數。該參數有助于控制重疊的區域或類別。在訓練中,正常情況下記錄只影響距離最近的類別。通過提高這個參數,可以增加每個隱藏單元的關聯區域,使記錄能夠影響更遠的類別。此處應指定一個正實數。21.3.2 21.3.2 神經網絡節點學習速率神經網絡節點學習速率神經網絡訓練由幾個參數控制。這些參數可使用神經網絡節點對

24、話框的“專家”頁簽來設置。 Alpha:一個用于更新訓練時的權值的動量。動量傾向于保持權值沿一致方向變動。要求指定0到 1之間的一個值。較高的 Alpha值有助于避免網絡的局部極小值。 Eta:即學習速率,控制每次網絡升級時權值的調整幅度。除 RBFN方法 Eta值恒為常數外,對其他所有訓練方法,Eta值隨著訓練的進行而變化。初始 Eta值是 Eta 的起始值。在訓練中,Eta 從初始值開始,降低到 Eta 低值,然后重置為 Eta 高值,又再次降低到 Eta 低值。最后兩步反復進行,直到訓練結束。Eta 衰減指定Eta 開始降低時的比率,表示為從 Eta 高值到 Eta 低值的循環數。對每一

25、個 Eta 選項都要指定值。21.3.321.3.3生成神經網絡節點生成神經網絡節點 生成神經網絡節點表現了由神經網絡節點創建的網絡。它們包含了由訓練過的網絡所提取的所有信息,以及關于神經網絡特點的信息。 查看關于神經網絡的信息,用鼠標右鍵點擊生成神經網絡節點并且從內容菜單中選擇“瀏覽”選項。 通過在生產模型選項板中選擇圖標,用戶可以將網絡模型加入到流中,而后點擊流來選擇用戶想將節點所放置的地點,或用鼠標右鍵點擊圖標從內容菜單中選擇“加入流”。然后將用戶的流與這個節點連接,以便用戶將數據輸入網絡模型進行預測。輸入生成模型節點的數據必須包括相同的輸入字段,相同的類型,如同用于創建的訓練數據。 當

26、用戶執行一個包括一個生成神經網絡節點的流時,神經網絡節點從原始的訓練數據處為每一個輸出字段加入了一個新的字段。這個新字段包括了相對應的輸出字段的網絡預測。每個新預測字段的名稱是每個被預測的輸出的字段的名稱,將“$N-”加在每個字段的前面,對于符號型輸出字段,也可以增加第二個新字段,包括對于這次預測的置信度,置信度字段的命名也是同一方式,將“$NC-”加在每個原始輸出字段的前面。如圖21-15所示為生成的神經網絡節點。圖圖21-15 生成的神經網絡節點生成的神經網絡節點在一個包含連續預測相同輸出字段的多個生成網絡節點的流中,新的預測及置信度域名將包含用于將它們與彼此區別開來的數目。流中的第一個網

27、絡節點將使用平常名稱,第二個節點將使用以“$N1-”和“$NC1-”開頭的名稱,第三個節點將使用以“$N2-”和“$NC2-”開頭的名稱,以此類推。如圖21-16所示為流程中有多個神經網絡節點的情況。圖圖21-16流程中有多個神經網絡節點流程中有多個神經網絡節點神經網絡的置信度:神經網絡的置信度是為符號型輸出字段而提供的,它們的計算是:(1)標志數據:置信度可如下計算 : abs(0.5-Raw Output)*2 神經網絡會對每筆數據進行預測,輸出的值將介于 01之間,若大于0.5 則歸為 True 類,小于0.5 則被歸為False 類,若有一筆數據的預測值是 0.82 ,則這筆數據會被分

28、為 True 類,且置信度為 abs(0.5-0.82)*2=0.64(2)集合數據:集合類輸出字段將為神經網絡在內部轉化為標志型,因此預測變量的每個輸出字段類型都會有一單獨的粗糙輸出值,值皆介于01之間,置信度將以(最高刻度值-第二高刻度值)來計算 。例如,假設有一筆數據要分成四種顏色,紅色的預測值為 0.32,藍色的預測值為 0.85,綠色的預測值為 0.04,紫色的預測值為 0.27,則此筆數據會被分為藍色類,且置信度為 0.85-0.32=0.53 生成一個過濾節點:“生成”菜單允許用戶生成一個新的過濾節點來傳送建立在模型結果上的輸入字段。21.3.4生成神經網絡節點匯總頁簽圖圖21-

29、17 生成神經網絡節點對話框匯總頁簽生成神經網絡節點對話框匯總頁簽分析:分析部分展開網絡預測的準確性信息,網絡的拓撲或體系結構,及相關字段的重要性,如同敏感性分析所定義的一樣(如果用戶需要)。如果用戶已經執行一個附加在這個建模節點的分析節點,則分析的相關信息也會顯示在這個部分中。(1)估計的精確性:這是關于預測準確性的指標。對于符號型輸出,只是一個關于預測值正確的記錄的比例。對于數值型目標,計算是建立在訓練數據的預測值與真實值的差上。尋找數值型字段的精度的計算公式是:(0.5-abs(真實值-預測值)/(輸出域值的范圍(字段最大值-最小值)*100%每個字段的精度都是如此計算,而總體的精度是訓

30、練數據中所有記錄值的均值。(2)體系結構:在網絡中的每個層(輸入層、隱藏層、輸出層)中的單元數目被列出。(3)輸入的相對重要性:這個部分包括用戶需要的敏感性分析的結果。輸入字段按照重要性進行列表,從最重要的到最不重要的。每個被列表的輸入值均是它們的相對重要性的測度,變化范圍介于01之間。字段:這個區域將建模過程中作為目標的字段和輸入字段列表。構建設置:這個區域包括在建模過程中使用的關于設置的信息(包括使用分區數據、訓練方式、停止條件、設置隨機數種子、預防過度訓練、樣本和優化等)。訓練概要:這個區域展示了模型類型、流、用戶、構建日期、應用軟件、模型構建所用的時間等。21.4 C5.0算法生成決策

31、樹該節點使用C5.0算法生成決策樹或者規則集。C5.0模型根據能夠帶來最大信息增益的字段拆分樣本。第一次拆分確定的樣本子集隨后再次拆分,通常是根據另一個字段進行拆分,這一過程重復進行直到樣本子集不能再拆分為止。最后,重新檢驗最低層次的拆分,那些對模型值沒有顯著貢獻的樣本子集被剔除或者修剪。C5.0節點可以生成兩種模型。決策樹是對這種算法的拆分的直觀描述。每一個終端,或者說葉子節點描述了訓練數據的一個特定子集,而訓練數據集中的每一種情況恰好屬于樹上的一個終端節點。與此相反,規則集是規則的集合,試圖對單個的記錄作出預測,規則集從決策樹中推出,從某種意義上說,以一種簡化或者提煉的方式陳述決策樹中的信

32、息。規則集通常能保留決策樹中的絕大多數有用信息。但是使用的模型沒有那么復雜。鑒于規則集的工作方式,它們不具有和決策樹相同的特征。最大的區別在于,使用規則集,可能有一個以上的規則適用于任一特定的記錄,或者根本沒有規則適用于該記錄。對于多個規則的使用,每一個規則根據與其相關的可信度獲得加權“投票”,最后的預測是通過綜合適用于所考慮的記錄的所有規則的加權“投票”來決定。如果沒有規則可用,則默認的預測被指派給該記錄。要求:要訓練C5.0模型,需要一個或更多的輸入字段以及一個或更多的字符型輸出字段。設置為“兩者”或者“無”的字段將被忽略。模型中所用字段其類型必須被充分實例化。優點:C5.0模型在面對數據

33、缺失和輸入字段很多的問題是非常穩健的。C5.0模型通常不需要很長的訓練次數進行估計。此外,C5.0模型比一些其它類型的模型易于理解,因為從模型推出的規則有非常直觀的解釋。C5.0也提供強大的增強技術以提高分類的精度。C5.0節點模型頁簽圖圖21-19 C5.0節點對話框模型頁簽節點對話框模型頁簽模型名稱:指定要產生的模型名稱。 (1)自動:選擇該選項后,模型名稱將根據目標字段自動生成。這是默認設置。 (2)定制:選擇該選項可以為節點創建的模型指定用戶自定義的模型名稱。 輸出類型:此處指定希望最終生成的模型是決策樹還是規則集。群體字符:如果選擇了該選項,C5.0 會嘗試將所有與輸出字段格式相似的

34、字符值合并。如果沒有選擇該選項, C5.0 會為用于拆分母節點的字符字段的每個值創建一個子節點。 例如, 如果 C5.0按 COLOR 字段 (包括 RED、GREEN和 BLUE 三個值)拆分,則預設創建三向拆分。但是,如果選擇了該選項,并且 COLOR=RED的記錄與 COLOR=BLUE 的記錄非常相似,則將創建二向拆分,COLOR 為 GREEN的記錄被分成一組,而 COLOR 為RED和 BLUE 的記錄合為一組。使用推進:C5.0 算法使用被稱作推進的方法提高其精確率。這種方法按序列建立多重模型。第一個模型以通常的方式建立。隨后,建立第二個模型,聚焦于被第一個模型錯誤分類的記錄。然

35、后第三個模型聚焦于第二個模型的錯誤,等等。最后,應用整個模型集對樣本進行分類,使用加權投票過程把分散的預測合并成綜合預測。助推可以顯著提高 C5.0 模型的精確度,但是同時也需要更長的訓練時間。“試驗次數”選項允許控制用于助推的模型數量。這部分內容基于 Freund&Schapire 的研究成果,并進行一些專利性改進,以更好的處理噪聲數據。 交叉驗證:如果選擇了該選項,C5.0 將使用一組基于訓練數據子集建立的模型,來估計基于全部數據建立的模型的精確度。如果數據集過小,不能拆分成傳統意義上的訓練集和測試集,這將非常有用。在計算了精確度估計值后,用于交叉驗證的模型將被丟棄。可以指定倍數,

36、或用于交叉驗證的模型數目。建模和交叉驗證同時執行。 模式:對于簡單的訓練,絕大多數 C5.0參數是自動設置。“專家”模式選項允許對訓練參數更多的直接控制。其設置如下:1.簡單模式選項 支持:在默認設置下,C5.0 會生成盡可能精確的決策樹。在某些情況下,這會導致過度擬和,使模型在應用于新的數據時表現較差。選擇 “普遍性”項以使用不易受該問題影響的算法設置。 預期的干擾(%):指定訓練集中的噪聲或錯誤數據期望比率。 2.專家模式選項 修剪嚴重性:決定生成決策樹或規則集被修剪的程度。提高純度值將獲得更小,更簡潔的決策樹。降低純度值將獲得更加精確的決策樹。 每個子分支的最小記錄數:子群大小可以用于限

37、制決策樹任一分支的拆分數。只有當兩個或以上的后序子分支包括來自訓練集的記錄不少于最小記錄數,決策樹才會繼續拆分。默認值為 2,提高該值將有助于避免噪聲數據的過度訓練。 辨別屬性:如果選擇了該選項,C5.0 會在建立模型前檢驗預測字段的有用性。被發現與分析無關的預測字段將不參與建模過程。這一選項對有許多預測字段的模型非常有用,并且有助于避免過度擬和。C5.0C5.0節點成本頁簽節點成本頁簽C5.0節點對話框成本頁簽用于顯示錯誤歸類損失矩陣。在某些情況下,特定類型的錯誤比其它類錯誤所引起的損失更大。例如,把高風險信用卡申請者歸入低風險信用類(一種錯誤)比把低風險信用卡申請者歸入高風險類(另一種錯誤

38、)損失要大。錯誤歸類損失允許指定不同類型預測錯誤之間的相對重要性。即成本對比, 如圖21-20所示。錯誤歸類損失矩陣顯示預測類和實際類每一可能組合的損失。所有的錯誤歸類損失都默認設置為 1.0。要輸入自定義損失值,選擇“使用誤分類成本”,然后把自定義值輸入到損失矩陣中。 要改變一個錯誤歸類損失值,選擇對應于想要改變的預測類與實際類組合值的單元,刪除單元中已存內容,然后輸入期望損失值。圖圖21-20指定錯誤歸類損失指定錯誤歸類損失21.5 C&RT基于樹的分類預測C&RT節點(即分類回歸樹節點)是基于樹的分類預測方法。與 C5.0 相似,該方法采用遞歸分割方法把輸入字段值相似的訓

39、練集根據輸出字段拆分成不同的類。分類回歸樹首先檢查輸入字段以找出最佳分割,分割好壞用分割引起的雜質減少指數度量。一次拆分定義兩個子群,每個子群隨后又再被分割成兩個的子群,如此下去,直到達到觸發某一終止準則。 要求:要訓練分類回歸樹模型,需要至少一個輸入字段,恰好需要一個字符型輸出字段。輸出字段既可以是數值型,也可以是字符型。設置為“兩者”或者“無”的字段將被忽略。模型中使用的字段類型必須被充分實例化。 優點:分類回歸樹模型在遇到諸如缺失值和字段數量很多等問題時非常穩健。分類回歸樹模型通常不需要用很長的訓練時間估計模型。 此外,分類回歸樹模型比其它一些類型的模型易于理解從模型中導出的規則有直觀的

40、解釋。與 C5.0 不同,分類回歸樹模型既可以提供字符型輸出字段,也可以提供數值型輸出字段。 分類回歸樹節點頁簽分類回歸樹節點頁簽圖圖21-21分類回歸樹節點對話框模型頁簽分類回歸樹節點對話框模型頁簽分類回歸樹節點對話框模型頁簽如圖21-21所示。模型名稱:指定要產生的模型名稱。 (1)自動:選擇該選項后,模型名稱將根據目標字段自動生成。這是默認設置。 (2)定制:選擇該選項可以為節點創建的模型指定用戶定義的模型名稱。 使用分區數據:自動使用訓練集建立模型,并使用測試集和驗證集對模型評價。構建:提供兩個模式,分別是“模型”和“交互樹”。如果選擇后者模式,可根據需要選擇“使用樹指令”預先設置節點

41、分類方式。最大樹狀圖深度:指定根節點下的最大層數(樣本被遞進分區的次數)。分類回歸樹節點專家頁簽圖圖21-22分類回歸樹節點對話框專家頁簽分類回歸樹節點對話框專家頁簽最大代理數:代理是處理缺失的一種方法。對于樹中的每一次分區,分類回歸樹識別與分區字段最相似的輸入字段,這些字段是該分區字段的代理。如果必須對某一記錄分類,而該記錄分區字段有缺失值,則該記錄分區字段的代理字段值可用于分區。提高該項設置值使對缺失值的處理更加靈活,但是也可能增加內存使用大小和訓練次數。最小雜質改變:指定在樹中進行新的分區所需的最小雜質改變量。如果某一分支的最佳分區引起的雜質改變量低于指定值,則不會進行分割。 分類目標字

42、段的雜質度量:這些選項允許選擇度量樹的雜質的方法。雜質是指樹所定義的子群的輸出字段的變化范圍。分類回歸樹的目標是生成子群,以使每一子群傾向于有相同或者相似的輸出值換句話說,最小化樹的雜質。“吉尼” 是基于分支類別機率的一般雜質度量方法、“兩分” 是加重二元分區的雜質度量方法,更易在分區中生成大致等規模的分支。該選項只影響字符型目標字段的分區,數值型目標字段總是使用最小平方偏差雜質度量方法。 停止:這些選項允許控制決定終止分區節點的準則。要了解更詳細的內容,參見“21.4.3 分類回歸樹節點停止選項”。 修剪樹:修剪的內容是剔除不能顯著提高樹的精確度的下級分區。修剪可以簡化分類回歸樹,使其更容易

43、解釋,而且在某些情況下提高樹的一般性。如果想要整個樹而不作任何修剪,取消選定該選項。 使用標準誤法則:該選項允許用戶指定更加自由的修剪法則。標準誤修剪法則讓分類回歸樹選擇最簡單的樹,其風險估計值接近(但是可能大于)風險最小子樹的風險估計值。“乘數”表明修剪樹與具有最小估計風險的子樹之間的允許估計風險差異程度。例如,如果指定為“2”,則可能選擇其估計風險比整棵樹標準誤的二倍還要大的樹。 先驗概率:這些選項允許設置目標字段類別的先驗概率。要了解更詳細的內容,參見“21.4.4分類回歸樹先驗概率選項”。分類回歸樹節點停止選項 這些選項控制樹的構造。停止法則決定何時終止分區樹的具體分支。設置最小分支數

44、目以避免分割出過小的子群。“父分支(%)中的最小記錄數”避免在被分割節點(父節點)記錄數小于指定值時對該節點的分割。“子分支(%)中的最小記錄數”避免在拆分節點所生成每一分支記錄數均小于指定值時對該節點的分割。 使用百分比:允許按照占整個訓練集的百分比來指定大小。 使用絕對值:允許用絕對記錄數來指定大小。圖圖21-23 分類回歸樹節點停止選項分類回歸樹節點停止選項分類回歸樹節點先驗概率選項 這些選項允許在預測字符型目標字段時指定各類的先驗概率。先驗概率是目標字段每一類在訓練集所描述的總體中的相對次數的估計值。 換句話說, 先驗機率是在根本不知道預測值前對每個可能的目標字段值所作的概率估計。有三

45、種設置先驗概率的方法,分別是: 基于訓練數據:這是默認設置。先驗機率基于各類在訓練集中的相對次數。 對于所有類都相等:各類的先驗機率指定為 1/k,k 為目標類數。 圖圖21-24分類回歸樹節點先驗概率選項分類回歸樹節點先驗概率選項定制:可以用戶指定先驗概率。先驗概率起始值為各類相等。可以將各類的先驗概率調整為用戶定義值。要調整某一具體類的概率,選擇表格中對應于該類的概率單元格,刪除單元格中的內容,輸入指定值。所有類的先驗概率值總和為 1.0(概率約束)。如果和不為 1.0,Clementine會給出警告并自動規范化各值。這項自動調整在實施概率約束的同時保留各類的比例。可以在任何時候點擊“標準

46、化”按鈕進行調整。要把表格中值重置為各類值相等,點擊 “均衡”按鈕。 使用錯誤分類損失調整先驗概率:該選項允許根據錯誤分類損失調整先驗概率。對于使用“兩分”雜質度量的分類回歸樹,該選項將損失信息直接置入樹的生長過程。(如果沒有選擇該選項,則損失信息只在基于“兩分”雜質度量時,用于對記錄分類和計算樹的風險估計值) 。分類回歸樹節點成本頁簽圖圖21-25分類回歸樹對話框成本頁簽分類回歸樹對話框成本頁簽21.5.4生成決策樹圖圖21-26 C&RT節點對話框模型頁簽節點對話框模型頁簽 當模型頁簽打開時,規則部分一開始是隱藏的,只有規則標簽是可視的。若要打開一個目錄或一條規則,使用左邊的“擴展

47、”控件,或雙擊該項。工具欄提供了擴展或隱藏多個規則的控件。 決策樹是通過遞歸的分割基于輸入域值的數據來工作的。數據分割被稱為分支。根包含了所有的數據記錄。基于特定的輸入閾值,根被分割為子集或子分支。每個子分支可以進一步分支為子分支,以此反復。樹的最底層是沒有子分支的。這類分支被稱之末端分支或葉子。 決策樹瀏覽器展示了定義每次分割或分支的值以及在分割中的一條對記錄的輸出閾值的總結。如果用戶從工具欄中選擇“顯示/隱藏實例和置信度圖表”按鈕,每條規則也會顯示運用規則的記錄數的信息和這些規則成立的記錄的比例。如果用戶選擇工具欄中的“顯示附加信息面板”按鈕,在底部窗口將會出現一個包含了所選規則的細節信息

48、面板,這個信息面板包括三個頁簽,分別是:歷史:這個頁簽記錄了從根節點到所選節點的分裂條件。這提供了一個決定何時將一個記錄賦值給所擇節點的一系列條件。所有條件為真的記錄將被賦值給該節點。如圖21-27所示。圖圖21-27 展示了歷史頁簽的模型頁簽展示了歷史頁簽的模型頁簽頻數:對于帶有符號型目標字段的模型,該頁簽對每個可能的目標值,顯示了包含該目標值的節點的記錄數目(如圖21-28所示)。對于帶有數值型目標的模型,這個頁簽是無效的。圖圖21-28展示了頻數頁簽的模型頁簽展示了頻數頁簽的模型頁簽 代用項:對于C&RT模型,最初始的分裂和對于被選擇節點的任何以此代替分裂均被顯示。這告訴用戶帶有

49、缺失值的記錄對于初始分裂將如何在分裂時被分類(如圖21-29所示)。 圖圖21-29 展示了代用項頁簽的模型頁簽展示了代用項頁簽的模型頁簽 決策樹查看器頁簽 查看器頁簽展示了一個對于樹形結構的詳細的圖表展示(如圖21-30所示)。圖圖21-30生成生成C&RT節點對話框查看器頁簽節點對話框查看器頁簽在大部分的案例中,由于全部樹的大小,只有它的一部分可以在決策樹瀏覽中看見。用戶可以滾動窗口來瀏覽樹的其它部分,或者使用樹的地圖窗口(如圖21-31所示)來定位某個不同的樹的區域。顯示樹的地圖窗口,只需點擊工具欄中的樹形地圖按鈕。圖圖21-31 地圖窗口地圖窗口 用戶可以展示樹中的每一個節點,

50、通過點擊工具欄的按鈕展示為列表顯示或圖形顯示,或兩者兼有。用戶也可以使用工具欄上的按鈕來更改樹形展示方向(上下、左右、右左)。 用戶可以為了展示的需要把樹的分支擴展和隱藏。默認為樹上的所有分支均被擴展。點擊一個父支節點附近的折疊號(-)來隱藏它所有的子支節點。點擊一個父支節點附近的擴展號(+)來顯示它所有的子支節點。 節點統計量:對于符號型目標字段,這個表顯示了每個種類的記錄和數量和百分比,以及節點所代表的整個樣本的百分比。對于一個排列的目標字段,這個表顯示了平均值、標準偏差、記錄的數量和目標字段的預測值。節點圖表:對于符號型目標字段,圖表是一個目標字段的每個種類的百分比的條形圖。在表中的前幾

51、行是一個彩色的表,不同彩色對應代表了節點圖中的每個目標字段種類,對于一個排列的目標字段,這個表展示了節點中記錄的目標字段的一個直方圖。決策樹匯總頁簽圖圖21-32C&RT節點對話框匯總頁簽節點對話框匯總頁簽在一個決策樹節點的匯總頁簽中,用戶可以查看關于模型本身的信息,在模型中使用的字段,建模過程中的設置,以及訓練總結。如圖21-32所示是C&RT節點的匯總頁簽。當用戶第一次瀏覽一個決策樹節點時,匯總頁簽一開始是隱藏的。為了看到所感興趣的結果,用戶可以使用該項目左邊的擴展號(+)來展示結果,或使用“全部擴展”按鈕來展示所有結果。當查看完后想隱藏結果時,使用折疊號(-)來使用戶所想

52、要隱藏的特殊結果隱藏,或使用“全部折疊”按鈕來使所有結果隱藏。分析:展示了決策樹的深度。字段:列出在建模過程中使用的目標字段和輸入字段。構建設置:包括了建模過程中使用的設置信息。訓練概要:展示了模型類型、流、用戶、構建日期、應用軟件、模型構建所用的時間等。21.5.4.2從決策樹生成規則集用戶可以指定下列選項來將樹變為一個規則集:規則集名稱:允許用戶來指定新的形成的規則集節點的名稱。創建節點位置:控制新生成的規則集節點的位置。選擇工作區(流區域)、GM選項板(生成模型面板)、或兩者都選。最小實例數:指定在生成的規則集中將被保存的規則的最小實例數。該有實例數的規則若小于指定值,將不會顯示在新的規

53、則集中。最低置信度:指定在形成的規則集中將被保存的規則的最低置信度。帶有置信度的規則若小于指定值,將不會顯示在新的規則集中。圖圖21-33 生成規則集對話框生成規則集對話框QUESTQUEST節點模型頁簽節點模型頁簽圖圖21-34 QUEST節點對話框模型頁簽節點對話框模型頁簽模型名稱:指定要產生的模型名稱。 (1)自動:選擇該選項后,模型名稱將根據目標字段自動生成。這是默認設置。 (2)定制:選擇該選項可以為節點創建的模型指定用戶定義的模型名稱。 使用分區數據:自動使用訓練集建立模型,并使用測試集和驗證集對模型評價。構建:提供兩個模式,分別是“模型”和“交互樹”。模型:直接給出最終模型。交互

54、樹:啟動“指令”,可以逐層建立,修改和刪除節點。“使用樹指令”選項可以指定任意層節點的分區方式或子節點數,所做設置也可以保存,以供下次建樹使用。最大樹狀圖深度:指定根節點下的最大層數(樣本被遞進分區的次數)。QUEST節點專家頁簽圖圖21-35 QUEST節點對話框專家頁簽節點對話框專家頁簽最大代理數:當某記錄有缺失值時,QUEST節點會根據與其相似的記錄所歸入節點的取值進行替代。用于分割的Alpha值:設置分裂標準,顯著水平越低,則樹的分叉越少。停止:設置結束建樹過程的終止條件。其選項與C&RT的停止標準相同,這里不在累述。請參閱“21.4.3分類回歸樹節點停止選項”。修剪樹:可以選

55、擇“使用標準誤規則”,已刪除分類不純的節點。先驗概率:針對特定的類別設置先驗概率,以反映已經掌握的關于分類的知識。其選項與C&RT的先驗概率相同,這里不在累述。請參閱“21.4.4分類回歸樹節點先驗概率選項”。QUEST節點成本頁簽圖圖21-36 QUEST節點對話框成本頁簽節點對話框成本頁簽21.6 Kohonen21.6 Kohonen網絡模型網絡模型Kohonen 節點用于創建和訓練一類被稱作 Kohonen 網絡、knet或者自組織映像的特殊神經網絡。當剛開始并不知道數據集包括哪些類別時,可采用這種網絡將數據匯總成差別明顯的不同類別。與 Clementine 中的絕大多數算法不

56、同,Kohonen 網絡并不使用目標字段。這種沒有目標字段的學習被稱作無監督的學習。Kohonen 網絡并不嘗試去預測某一結果,而是試圖揭示輸入字段中的特征。記錄被分成群體,這樣同一類別中的記錄彼此相似,而不同類別中的記錄截然不同。 一個 Kohonen 網絡由一個輸入單元層和一個處理單元的二維輸出網組成。在訓練過程中,每個單元都與其它單元競爭獲得每個記錄。當一個單元獲得了一個記錄,其權值(同樣包含那些鄰近的單元)調整為更加匹配該記錄的預測所屬類別。隨著訓練的進行,網格上單元的權值不斷調整以形成一張聚類的二維映像(自組織映像由此而得) 。通常,Kohonen 網絡形成時會有少部分單元包括許多觀

57、察值(強單元),以及幾個不對應于任何觀察值的單元(弱單元)。強單元(有時是在網格中與他們相鄰的單元)代表可能的聚類中心。 Kohonen 網絡的另一個用法是進行維度歸約。二維網的廣闊性特征使得可以從最初的 k 個變量衍生出兩個保持初始預測值相似性關系的特征。在某些情況下,這可以給用戶帶來和因素分析或主成分分析一樣的便利。 注意:計算輸出網格預設大小的方法已經與 Clementine 以前的版本不同。一般而言,新的計算方法能生成更小的輸出層,訓練速度更快,綜合性更強。如果發現使用默認大小得到較差的結果,嘗試通過高級設置提高輸出網的大小。要了解更多的內容,參見“21.7.2 Kohonen 節點專

58、家頁簽”。要求:要訓練 Kohonen 網絡,需要至少一個“輸入”字段。設置為“輸出”,“兩者”,或者“無” 的字段會被忽略。 優點:建立 Kohonen 網絡模型無須一組一組的數據。用戶甚至不需要知道要找出多少組。Kohonen 網絡從一大堆單元開始,隨著訓練的進展,各單元能夠反映數據的自然分類結構。可以通過生成模型中每個單元捕獲的觀察值數來識別強單元,這可以使用戶感覺到數據分多少類。Kohonen節點模型頁簽圖圖21-40 Kohonen節點對話框模型頁簽節點對話框模型頁簽模型名稱:指定要產生的模型名稱。 (1)自動:選擇該選項后,模型名稱將為“Kohonen”。這是默認的設置。 (2)定

59、制:選擇該選項可以為節點創建的模型指定使用者自定義的模型名稱。 使用分區數據:自動使用訓練集建立模型,并使用測試集和驗證集對模型評價。繼續訓練現有模型:在默認設置下,每次執行Kohonen節點時,會創建一個全新的網絡。如果選擇了改選項,訓練繼續使用上次節點成功產生的網絡。顯示反饋圖形:如果選擇了該選項,在訓練中會顯示二維數組的可視化表述。每個單元的強度用顏色表示。紅色表示獲得許多記錄的單元(強單元),而白色表示獲得極少記錄或者根本沒有獲得記錄的單元(弱單元)。需要注意的是選擇這一項會增加訓練時間。要加快訓練,可以取消該選項。停止于:“默認”終止準則根據內置參數終止訓練。也可以指定“時間”為終止

60、準則。(輸入網絡訓練時間以分鐘為單位。)設置隨機數種子:如果沒有設置隨機種子,則用于初始網絡權值的隨機數序列在每次執行節點時各不相同。這樣,即使各節點設置成某一具體值,這樣結果模型就完全可再生。一個確定的隨機種子總是生成相同的隨機數序列,這樣執行該節點總是生成同樣的模型。優化:提高算法效率的選項,具體有兩種方式:(1)速度:選擇“速度”使算法執行加快,但占用更多的內存。(2)內存:選擇“內存”使執行速度減慢,但節約內存。21.6.1 Kohonen節點專家頁簽圖圖21-41Kohonen節點對話框專家頁簽節點對話框專家頁簽寬度和長度:指定二維輸出表的大小,用每個方向上的單元數表示。學習速率衰減:指定“線性”或者“指數”學習速率衰減。學習速率是隨時間推移而減少的權重因子。這樣網絡可以從數據開始編碼,然后逐漸集中到更加細微水

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論