




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
14/14目錄引言 31.決策樹演算法(DecisionTree)簡介 31.1決策樹演算法的原理 31.2決策樹演算法的選擇 41.3CHAID算法簡介 42.自行車銷售數據欄位和特征分析 53.建立決策樹模型串流 63.1讀取數據 63.2數據類型定義 73.3決策樹節點設定 74.生成模型與修正模型 95.模型分析 13
基于SPSSModeler的自行車銷售預測分析引言隨著資訊科技的演進,如何通過方法有效的分析海量數據,并從其中找到有利的規格或資訊已經成為一種趨勢。而決策樹演算法是目前在進行數據分析時很常用的分類方法,本文將使用IBMSPSSModeler進行實作,介紹決策樹(Decisiontree)演算法于零售領域的應用實例。IBMSPSSModeler包含多種決策樹模型,包括C5.0、C&RTree、Quest、CHAID。首先,本文將會簡介決策樹演算法的基本原理,接著會針對案例數據(某公司自行車銷售數據)進行初步的數據分析,并套入決策樹模型中,分析、解釋并討論最后的結果。本文所用分析工具為IBMSPSSModeler17試用版,所建立模型需IBMSPSSModeler15及以上版本才可正常查看。1.決策樹演算法(DecisionTree)簡介1.1決策樹演算法的原理決策樹演算法是在進行數據挖掘時經常使用的分類和預測方法。一個決策樹的架構,是由三個部分所組成:葉節點(LeafNode)、決策節點(Decisionnodes)以及分支。決策樹演算法的基本原理為:通過演算法中所規定的分類條件對于整體數據進行分類,產生一個決策節點,并持續依照演算法規則分類,直到數據無法再分類為止。決策樹演算法的比較決策樹演算法依據其演算原理以及可適用分析數據類型的不同延伸出多種決策樹演算法。在IBMSPSSModeler中,主要提供了四種常用的決策樹演算法供使用者選擇,分別為:C5.0、CHAID、QUEST以及C&RTree四種。1.)C5.0由C4.5演化而來。此演算法的分類原理主要是利用資訊衡量標準(InformationMeasure)來構建決策樹,并對每一個節點產生不同數目的分支來分割數據,直到數據無法分割為止。C5.0的目標字段(Target)測量級別,不適用于連續類型(Continuous)的測量級別。而輸入字段的數據型態則適用連續類型(Continuous)的測量級別。2.)CHAID(Chi-SquareAutomaticInteractionDetector)此演算法和前述的C5.0概念很像,均可以在每一個節點產生不同數目的分支來分割數據,用來建立決策樹。但是在背后分類的原理則利用卡方分析檢定(Chi-squareFtest)來進行分支,通過卡方檢定來計算節點中的P-value,來決定數據是否仍須進行分支。另外,CHAID的目標字段(Target)的測量級別可適用于連續類型(Continuous)的測量級別,但在輸入字段則只適用分類類型(Categorical)的測量級別。3.)QUEST(QuickUnbiasedEfficientStatisticalTree)此演算法是利用統計方法分割數據,即以判定決策樹是否仍需進行分支,以建立二元的決策樹。QUEST在變數的數據型態限制上,跟C5.0一樣,目標字段(Target)測量級別,不適用于連續類型(Continuous)的測量級別。但在輸入字段的測量級別則適用連續類型(Continuous)的測量級別。4.)C&RTree(ClassificationandRegressionTree)又稱為CART,構建決策樹的原理是使用GiniRatio作為判定決策樹是否仍須進行分支的依據,并建立二元的決策樹。此演算法不管是在目標變數(Target)以及輸入字段的測量級別均適用連續類型(Continuous)的測量級別做分析。1.2決策樹演算法的選擇在使用決策樹演算法進行分析之前,首要工作就是選擇適當的演算法。一般來說,會根據所要分析數據的特性以及數據型態等選擇初步的演算法。接下來再通過比較初步篩選的決策樹分析出來的結果,選擇最適合的決策樹演算法。使用者可依據數據類型以及分析需求的不同,選擇適當的決策樹演算法進行分析。雖然不同的決策樹演算法有各自適用的數據類型以及演算架構等差異,但概括來說,決策樹的主要原理均為通過演算法所定義的規則,對數據進行分類,以建立決策樹。鑒于篇幅所限,以下部分僅針對CHAID算法進行簡單的介紹和應用展示。1.3CHAID算法簡介CHAID,或卡方自動交互效應檢測,是一種通過使用稱作卡方統計量的特定統計類型識別決策樹中的最優分割來構建決策樹的分類方法。“卡方”是在分類模型中應用的一個統計量;“交互作用”是指進行成功預測所需要考慮的各變量之間的相互關系;“檢驗”是研究者想要完成的工作;“自動”則意味著這項指導性技術是可用的。下文中列舉了一些在響應模型中應用CHAID的好處。
研究人員通常會搜集大量的預期解釋變量。CHAID可以用來提前篩選數據以剔除隨機變量(對預測沒有貢獻的變量)。另外,對于那些已進入CHAID的變量,其進入的次序揭示了他們對預測的重要程度。一個分類變量包含著若干類別,但對響應變量而言并不是每一個類別都實際顯著。CHAID可以幫助解決哪些類別需要合并的問題。比如,一組數據分為十二類,分別代表不同的地區,但是也許這12個類別僅有3種不同的響應模式。在這種情況下,應該合并地區分類。CHAID將進行統計檢驗,合并不顯著的類別。
有些解釋變量可能由無序類別組成,有些則可能由有序類別組成。如果統計上可行的話,研究人員希望合并前者中所有的無序類別,而僅合并后者中臨近的類別。CHAID可以實現這兩種合并。
回歸分析適用于揭示線性關系。例如,假設隨著受訪者受教育程度的增加,針對相應問題回答“是”的百分比也增加了。那么這種模式就是線性的,回歸分析可以揭示出這種關系。但是,如果隨著受教育程度的增加,針對相應問題回答“是”的百分比是先增加后下降的,那么,單純的運用回歸分析就無法揭示應答與教育水平之間的顯著關系了,因為這個模式不是線性的。換句話說,CHAID揭示非線性關系。
回歸分析揭示出主要的影響因素。也就是說,我們做回歸分析時假設某個解釋變量的影響相對于其他解釋變量的取值而言是不變的。但事實未必如此。因此,研究人員在確定某一個解釋變量對響應變量的影響之前,需要指定其他解釋變量的水平。這被稱為一個“指定影響”或一個“交互作用”。CHAID能夠揭示解釋變量間的交互作用。CHAID會生成一個分類樹。研究人員可以從該分類樹上找到統計上顯著的分割點。由于CHAID在內置統計檢驗中運用了Bonferroni調節,這種基于一組數據構建的分割模型在一個類似的抽樣樣本中可以得到很好的交叉驗證。2.自行車銷售數據欄位和特征分析這次分析使用的數據來自某自行車零售商的自行車銷售數據,數據內容包括:客戶的基本數據(年齡、婚姻狀況、性別、年收入、教育等),及客戶的業務相關數據(是否已購買自行車),一共十四個字段。數據的前十條記錄預覽情況如圖1所示。圖1自行車銷售數據展示 為了保證樣本抽取的隨機性,我們設置一個“樣本抽取”節點,隨機抽取70%的樣本進行模型分析。如圖2所示。圖2樣本抽取在模型建置前,首先要了解數據的組成。通過“數據審核”中簡單的圖表及統計數據(如圖3所示),我們可以察覺數據的異常、極端值。以年齡欄位為例,我們可以通過最大、最小及平均值,來觀察有無異常分布。年齡32~102歲及平均51歲屬于正常分布,所以不需要做特殊處理。其它欄位可以通過同樣方式檢視,以增加對客戶數據的了解。圖3數據審核3.建立決策樹模型串流3.1讀取數據SPSSModeler中需要根據數據檔案格式,來選擇不同的源節點讀取數據。本文使用的數據檔案格式為.xls,因此我們將使用EXCEL文件節點。在節點設定方面,文件標簽下我們先讀入數據“vTargetMail.xls”,選擇工作表“按索引”,工作表范圍“范圍從第一個非空行開始”,對于空行選擇“停止讀取”,接著勾選“第一行存在列名稱”。過濾掉不分析的字段。如圖4所示。圖4讀取數據3.2數據類型定義為了產生決策樹模型,我們需要在數據建模前就定義好各欄位的角色,也就是加入字段選項下的“類型”節點(請見圖5)。將類型節點拉入串流后,我們會先點選讀取值按鈕,接著設定角色。在本案例中,字段“BikeBuyer”是我們最后預測的目標,因此將其測量設定為“標記”,角色設定為“目標”,余下的欄位則是要設定為“輸入”。在完成這一步后,點擊“讀取值”讀取數據,就已經完成數據準備(請見圖6),可以套用決策樹模型節點了。圖5“促銷購買”類型節點設置圖6數據準備完成3.3決策樹節點設定如前面所述,SPSSModeler共提供四種決策樹節點建模,包括C5.0、C&R樹、Quest和CHAID。由于篇幅有限,因此本文將只建立CHAID分類模型。將CHAID節點與分區節點連結后,我們將于此節點編輯頁面中的模型標簽下設定相關的變數。由于CHAID節點設定較多,以下將挑選我們有修改預設值的變數進行詳細介紹。此定義來自“SPSSModeler17ModelingNodes文件”。最大樹深度:指定根節點以下的最大級數(遞歸分割樣本的次數)。修剪樹以防止過擬合:修剪包括刪除對于樹的精確性沒有顯著貢獻的底層分割。修剪有助于簡化樹,使樹更容易被理解,在某些情況下還可提高廣義性。停止規則:設置最小分支大小可阻止通過分割創建非常小的子組。如果節點(父)中要分割的記錄數小于指定值,則父分支中的最小記錄數將阻止進行分割。如果由分割創建的任意分支(子)中的記錄數小于指定值,則子分支中的最小記錄數將阻止進行分割。在建模節點的“字段”選項卡中,已選中“使用預定義角色”,這意味著將按在類型節點中的指定使用目標和輸入。如圖7所示。圖7模型字段選項卡“構建選項”包含的選項可以用于指定要構建的模型類型。由于我們想要一個全新的模型,因此使用默認選項構建新模型。我們還要求它為單個標準決策樹模型,并且不包含任何增強,因此保留默認目標選項構建單個樹。如圖8所示。圖8構建選項除圖9和圖10設置,其它設置按照默認設置不變。圖9構建選項——基本圖10構建選項——高級4.生成模型與修正模型決策樹節點設定完成后,點擊主工具列的運行當前流前即可看到決策樹模型的產生。添加一個“評估”圖形節點和“分析”輸出節點,方便后續比較預測模型精確度并檢驗預測結果。模型整體如圖11所示。圖11自行車銷售CHAID預測模型雙擊決策樹模型則可看到模型結果,而我們最主要要觀察的是模型標簽及查看器標簽下的內容。模型標簽內容如圖9所示,左欄位使用文字樹狀展開,表現每一階層的分類狀況及目標變數的模式;右欄位則是整體模型預測變量的重要性比較。我們也將會根據變量重要性調整模型設定、變數選擇,持續的訓練出較佳的模型。查看器標簽則是將一樣的決策樹結果用樹狀圖的方式展現。對于CHAID模型塊,“模型”選項卡以規則集的形式顯示詳細信息,規則集實際上是可根據不同輸入字段的值將各個記錄分配給子節點的一組規則。在規則集的右側,“模型”選項卡顯示預測變量重要性圖表,該圖表顯示評估模型時每個預測變量的相對重要性。通過這一點,我們看到“NumberCarsOwned”變量的重要性水平最顯著,其次是“Age”、“YearlyIncome”、“TotalChildren”、“CommuteDistance”等,而最不重要的就是“Gender”變量。模型分析結果如圖12-14所示。圖12圖13圖14圖15圖16圖15和圖16表明,預測數據與原始數據擬合程度不夠好,由于預測結果的錯誤率較高,經過思考與探索發現是由于數據沒有清洗導致,所以在模型中加入“自動準備數據”節點進行預處理并進行“數據審核”。如圖17所示。圖17修改后的模型經過運行之后,得到的模型分析結果。可以看到錯誤率明顯下降了,正確率從66.2%提高到73.79%。但是預測準確率依然不是很理想的原因有可能是分析的數據量不夠大或者不具有代表性的原因。圖18修改后的模型正確率提高5.模型分析如圖19所示,各預測變量的重要性由高到低排列分別為:NumberCarsOwned(0.34),TotalChildren(0.18),YearlyIncome(0.17),Age(0.16),Region(0.05),CommuteDistance(0.03),HouseOwnerFlag(0.02),MaritalStatus(0.02),NumberChildrenAtHome(0.02),Gender(0.01),有上述權重我們可以看出NumberCarsOwned變量是最重要的預測變量,權重最大,其次分別為TotalChildren、YearlyIncome、Age和Region,因此這五個變量將作為決策樹的重要分支用于目標預測,而Gender是最不重要的預測變量,所占權重只有0.01。圖19預測變量重要性排序圖20決策樹中樹干決策樹中樹干“BikeBuyer”兩個類別(1表示已購買自行車,0表示未購買自行車)的比例各自接近50%,說明抽取樣本的分布比較均勻,結果具有一定的分析意義。從上面我們也可以看出,抽取的樣本數為5644。P值<0.001表示樣本通過顯著性檢驗。見圖20。以下是根據“NumberCarsOwned(擁有汽車的數量)”變量分出的第一層枝干,可以看到擁有車輛數量小于等于1的情況下,客戶偏向于購買自行車;而擁有車輛數量大于1的情況下,客戶選擇不購買自行車。聯系實際,如果客戶出行時有二至四輛代步小汽車,那通常不會騎自行車出門,購買自行車的可能性就比較低。圖21決策樹第二層樹枝模型的分析結果如圖22所示。由于我們的關注點在于哪些類型的是購買自行車的潛在客戶,所以以下僅選取“NumberCarsOwned”變量值為0或1的情況進行下一步分析。“NumberCarsOwned”變量第一層枝干之下是根據“Age”變量分出的第二層枝干,擁有汽車數量為0且年齡在49歲以下的客戶偏向于購買自行車,而年齡高于49歲的客戶可能由于身體狀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新鄉學院《微觀計量與Stata操作》2023-2024學年第二學期期末試卷
- 鄭州汽車工程職業學院《數據庫技術及其應用》2023-2024學年第二學期期末試卷
- 河南工業大學《數據倉庫與挖掘技術》2023-2024學年第二學期期末試卷
- 開封大學《學前衛生與保育學》2023-2024學年第一學期期末試卷
- 南京郵電大學《流行音樂經典作品分析(2)》2023-2024學年第二學期期末試卷
- 清遠職業技術學院《融媒體技術導論》2023-2024學年第二學期期末試卷
- 萍鄉學院《飛機構造》2023-2024學年第二學期期末試卷
- 工程入股合作協議合同
- 土工材料合同協議書
- 三人出資合伙協議合同
- 2025-2030年中國CAE軟件行業市場行情監測及發展前景研判報告
- 2025江西南昌市江銅產融社會招聘1人筆試參考題庫附帶答案詳解
- 2025-2030中國工程造價咨詢行業市場深度調研及競爭格局與投資研究報告
- (二統)昆明市2025屆“三診一模”高三復習教學質量檢測地理試卷(含答案)
- Unit 3 Keep Fit Section A 2a-2e 教學設計 2024-2025學年人教版(2024)七年級英語下冊
- 2025徽縣輔警考試題庫
- 國開電大軟件工程形考作業3參考答案
- 王陽明心學課件
- 三角形的外角(公開課課件)
- 基坑開挖及鋼支撐安裝施工方案
- 柴油發電機組油耗參考表
評論
0/150
提交評論