基本概念、決策樹與模型評價(ppt 92頁).ppt

上傳人：朱*** IP屬地：江西上傳時間：2020-03-14 格式：PPT 頁數(shù)：91 大小：2.53MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩86頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘分類基本概念決策樹與模型評價第4章分類基本概念決策樹與模型評價分類的是利用一個分類函數(shù) 分類模型分類器該模型能把數(shù)據(jù)庫中的數(shù)據(jù)影射到給定類別中的一個分類訓練集數(shù)據(jù)庫中為建立模型而被分析的數(shù)據(jù)元組形成訓練集訓練集中的單個元組稱為訓練樣本每個訓練樣本有一個類別標記一個具體樣本的形式可為 v1 v2 vn c 其中vi表示屬性值 c表示類別測試集用于評估分類模型的準確率數(shù)據(jù)分類一個兩步過程 1 第一步建立一個模型描述預定數(shù)據(jù)類集和概念集假定每個元組屬于一個預定義的類由一個類標號屬性確定學習模型可以用分類規(guī)則決策樹或數(shù)學公式的形式提供數(shù)據(jù)分類一個兩步過程 2 第二步使用模型對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓練樣本集否則會出現(xiàn) 過分適應數(shù)據(jù) 的情況如果準確性能被接受則分類規(guī)則就可用來對新數(shù)據(jù)進行分類有監(jiān)督的學習VS 無監(jiān)督的學習有監(jiān)督的學習用于分類模型的學習在被告知每個訓練樣本屬于哪個類的監(jiān)督下進行新數(shù)據(jù)使用訓練數(shù)據(jù)集中得到的規(guī)則進行分類無監(jiān)督的學習用于聚類每個訓練樣本的類編號是未知的要學習的類集合或數(shù)量也可能是事先未知的通過一系列的度量觀察來建立數(shù)據(jù)中的類編號或進行聚類分類模型的構造方法 1 機器學習方法決策樹法規(guī)則歸納2 統(tǒng)計方法知識表示是判別函數(shù)和原型事例貝葉斯法非參數(shù)法近鄰學習或基于事例的學習 3 神經(jīng)網(wǎng)絡方法 BP算法模型表示是前向反饋神經(jīng)網(wǎng)絡模型4 粗糙集 roughset 知識表示是產(chǎn)生式規(guī)則一個決策樹的例子 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K SplittingAttributes 訓練數(shù)據(jù) 模型決策樹決策樹的另一個例子 categorical categorical continuous class MarSt Refund TaxInc YES NO NO Yes No Married Single Divorced 80K 80K 用決策樹歸納分類什么是決策樹類似于流程圖的樹結構每個內部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布決策樹的生成由兩個階段組成決策樹構建開始時所有的訓練樣本都在根節(jié)點遞歸的通過選定的屬性來劃分樣本必須是離散值樹剪枝許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點樹剪枝試圖檢測和剪去這種分枝決策樹的使用對未知樣本進行分類通過將樣本的屬性值與決策樹相比較為了對未知數(shù)據(jù)對象進行分類識別可以根據(jù)決策樹的結構對數(shù)據(jù)集中的屬性進行測試從決策樹的根節(jié)點到葉節(jié)點的一條路徑就形成了相應對象的類別測試決策樹可以很容易轉換為分類規(guī)則決策樹分類任務 DecisionTree 一個決策樹的例子 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K SplittingAttributes 訓練數(shù)據(jù) 模型決策樹應用決策樹進行分類測試數(shù)據(jù) Startfromtherootoftree 應用決策樹進行分類測試數(shù)據(jù) 應用決策樹進行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測試數(shù)據(jù) 應用決策樹進行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測試數(shù)據(jù) 應用決策樹進行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測試數(shù)據(jù) 應用決策樹進行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測試數(shù)據(jù) AssignCheatto No 決策樹分類 DecisionTree 決策樹有許多決策樹算法 Hunt算法信息增益 Informationgain ID3 增益比率 Gainration C4 5 基尼指數(shù) Giniindex SLIQ SPRINT Hunt算法設Dt是與結點t相關聯(lián)的訓練記錄集算法步驟如果Dt中所有記錄都屬于同一個類yt 則t是葉結點用yt標記如果Dt中包含屬于多個類的記錄則選擇一個屬性測試條件將記錄劃分成較小的子集對于測試條件的每個輸出創(chuàng)建一個子結點并根據(jù)測試結果將Dt中的記錄分布到子結點中然后對于每個子結點遞歸地調用該算法 Dt Hunt算法 Don tCheat 決策樹 Hunt算法采用貪心策略構建決策樹在選擇劃分數(shù)據(jù)的屬性時采取一系列局部最優(yōu)決策來構造決策樹決策樹歸納的設計問題如何分裂訓練記錄怎樣為不同類型的屬性指定測試條件怎樣評估每種測試條件如何停止分裂過程決策樹 Hunt算法采用貪心策略構建決策樹在選擇劃分數(shù)據(jù)的屬性時采取一系列局部最優(yōu)決策來構造決策樹決策樹歸納的設計問題如何分裂訓練記錄怎樣為不同類型的屬性指定測試條件怎樣評估每種測試條件如何停止分裂過程怎樣為不同類型的屬性指定測試條件依賴于屬性的類型標稱序數(shù)連續(xù)依賴于劃分的路數(shù)2路劃分多路劃分基于標稱屬性的分裂多路劃分劃分數(shù) 輸出數(shù) 取決于該屬性不同屬性值的個數(shù) 二元劃分劃分數(shù)為2 這種劃分要考慮創(chuàng)建k個屬性值的二元劃分的所有2k 1 1種方法 OR 多路劃分劃分數(shù) 輸出數(shù) 取決于該屬性不同屬性值的個數(shù) 二元劃分劃分數(shù)為2 需要保持序數(shù)屬性值的有序性基于序數(shù)屬性的劃分 OR 基于連續(xù)屬性的劃分多路劃分 vi A vi 1 i 1 k 二元劃分 A v or A v 考慮所有的劃分點選擇一個最佳劃分點v 基于連續(xù)屬性的劃分決策樹決策樹歸納的設計問題如何分裂訓練記錄怎樣為不同類型的屬性指定測試條件怎樣評估每種測試條件如何停止分裂過程怎樣選擇最佳劃分在劃分前 10個記錄class0 10個記錄class1 怎樣選擇最佳劃分選擇最佳劃分的度量通常是根據(jù)劃分后子結點不純性的程度不純性的程度越低類分布就越傾斜結點不純性的度量不純性大不純性小怎樣找到最佳劃分 B Yes No NodeN3 NodeN4 A Yes No NodeN1 NodeN2 劃分前 Gain M0 M12vsM0 M34 結點不純性的測量 GiniEntropyclassificationerror 不純性的測量 GINI 給定結點t的Gini值計算 p j t 是在結點t中類j發(fā)生的概率當類分布均衡時 Gini值達到最大值 1 1 nc 相反當只有一個類時 Gini值達到最小值0 計算GINI的例子 P C1 0 6 0P C2 6 6 1Gini 1 P C1 2 P C2 2 1 0 1 0 P C1 1 6P C2 5 6Gini 1 1 6 2 5 6 2 0 278 P C1 2 6P C2 4 6Gini 1 2 6 2 4 6 2 0 444 基于GINI的劃分當一個結點p分割成k個部分孩子劃分的質量可由下面公式計算ni 孩子結點i的記錄數(shù) n 父結點p的記錄數(shù) 二元屬性計算GINI 對于二元屬性結點被劃分成兩個部分得到的GINI值越小這種劃分越可行 B Yes No NodeN1 NodeN2 Gini N1 1 5 6 2 2 6 2 0 194Gini N2 1 1 6 2 4 6 2 0 528 Ginisplit 7 12 0 194 5 12 0 528 0 333 標稱屬性計算Gini 多路劃分二元劃分一般多路劃分的Gini值比二元劃分小這一結果并不奇怪因為二元劃分實際上合并了多路劃分的某些輸出自然降低了子集的純度 Multi waysplit Two waysplit findbestpartitionofvalues 連續(xù)屬性計算Gini 使用二元劃分劃分點v選擇N個記錄中所有屬性值作為劃分點對每個劃分進行類計數(shù) A vandA v計算每個候選點v的Gini指標并從中選擇具有最小值的候選劃分點時間復雜度為 n2 連續(xù)屬性計算Gini 降低計算復雜性的方法將記錄進行排序從兩個相鄰的排過序的屬性值之間選擇中間值作為劃分點計算每個候選點的Gini值時間復雜度為nlogn 定義給定一個概率空間事件的自信息定義為因自信息反映了事件發(fā)生所需要的信息量值越大說明需要越多的信息才能確定事件的發(fā)生其隨機性也越大而當發(fā)生時所攜帶的信息量也越大反過來值越小需要較少信息量就能確定的發(fā)生即事件隨機性較小當其發(fā)生時所攜信息量就少是對不確定性大小的一種刻畫熵定義熵定義 1 定義在概率空間上定義的隨機變量I X 的數(shù)學期望稱為隨機變量X的平均自信息又稱X的信息熵或熵記為H x 非負性 H大于等于0連續(xù)性 H對任意q連續(xù)極值性當q都等于1 K時H達到最大值logK 熵定義基于InformationGain的劃分給定結點t的Entropy值計算 p j t 是在結點t中類j發(fā)生的概率當類分布均衡時 Entropy值達到最大值 lognc 相反當只有一個類時 Gini值達到最小值0Entropy與GINI相似計算Entropy的例子 P C1 0 6 0P C2 6 6 1Entropy 0log0 1log1 0 0 0 P C1 1 6P C2 5 6Entropy 1 6 log2 1 6 5 6 log2 1 6 0 65 P C1 2 6P C2 4 6Entropy 2 6 log2 2 6 4 6 log2 4 6 0 92 基于InformationGain的劃分 InformationGain ni 孩子結點i的記錄數(shù) n 結點p的記錄數(shù) 在ID3andC4 5中使用基于InformationGain的劃分增益率 GainRatio 熵和Gini指標等不純性趨向于有利于具有大量不同值的屬性如利用雇員id產(chǎn)生更純的劃分但它卻毫無用處每個劃分相關聯(lián)的記錄數(shù)太少將不能做出可靠的預測解決該問題的策略有兩種限制測試條件只能是二元劃分使用增益率 K越大SplitInfo越大增益率越小基于ClassificationError的劃分給定結點t的ClassificationError值計算當類分布均衡時 error值達到最大值 1 1 nc 相反當只有一個類時 error值達到最小值0 例子 P C1 0 6 0P C2 6 6 1Error 1 max 0 1 1 1 0 P C1 1 6P C2 5 6Error 1 max 1 6 5 6 1 5 6 1 6 P C1 2 6P C2 4 6Error 1 max 2 6 4 6 1 4 6 1 3 不純性度量之間的比較二元分類問題決策樹 Hunt算法采用貪心策略構建決策樹在選擇劃分數(shù)據(jù)的屬性時采取一系列局部最優(yōu)決策來構造決策樹決策樹歸納的設計問題如何分裂訓練記錄怎樣為不同類型的屬性指定測試條件怎樣評估每種測試條件如何停止分裂過程停止分裂過程當所有的記錄屬于同一類時停止分裂當所有的記錄都有相同的屬性時停止分裂提前終止樹的生長三種著名的決策樹 Cart 基本的決策樹算法Id3 利用增益比不純性樹采用二叉樹停止準則為當所有的記錄屬于同一類時停止分裂或當所有的記錄都有相同的屬性時停止分裂C4 5 id3的改進版本也是最流行的分類數(shù)算法采用多重分支和剪枝技術決策樹特點決策樹是一種構建分類模型的非參數(shù)方法不需要昂貴的的計算代價決策樹相對容易解釋決策樹是學習離散值函數(shù)的典型代表決策數(shù)對于噪聲的干擾具有相當好的魯棒性冗余屬性不會對決策樹的準確率造成不利影響數(shù)據(jù)碎片問題隨著數(shù)的生長可能導致葉結點記錄數(shù)太少對于葉結點代表的類不能做出具有統(tǒng)計意義的判決子樹可能在決策樹中重復多次使決策樹過于復雜子樹重復問題 Samesubtreeappearsinmultiplebranches 決策邊界斜決策樹模型過分擬合和擬合不足分類模型的誤差大致分為兩種訓練誤差是在訓練記錄上誤分類樣本比例泛化誤差是模型在未知記錄上的期望誤差一個好的分類模型不僅要能夠很好的擬合訓練數(shù)據(jù) 而且對未知樣本也要能準確分類換句話說一個好的分類模型必須具有低訓練誤差和低泛化誤差當訓練數(shù)據(jù)擬合太好的模型其泛化誤差可能比具有較高訓練誤差的模型高這種情況成為模型過分擬合模型過分擬合和擬合不足當決策樹很小時訓練和檢驗誤差都很大這種情況稱為模型擬合不足出現(xiàn)擬合不足的原因是模型尚未學習到數(shù)據(jù)的真實結構隨著決策樹中結點數(shù)的增加模型的訓練誤差和檢驗誤差都會隨之下降當樹的規(guī)模變得太大時即使訓練誤差還在繼續(xù)降低但是檢驗誤差開始增大導致模型過分擬合模型模型過分擬合和擬合不足過分擬合導致過分擬合的原因導致過分擬合的原因噪聲導致的過分擬合例子哺乳動物的分類問題十個訓練記錄中有兩個被錯誤標記蝙蝠和鯨如果完全擬合訓練數(shù)據(jù) 決策樹1的訓練誤差為0 但它在檢驗數(shù)據(jù)上的誤差達30 人和海豚針鼴誤分為非哺乳動物相反一個更簡單的決策樹2 具有較低的檢驗誤差 10 盡管它的訓練誤差較高為20 決策樹1過分擬合了訓練數(shù)據(jù) 因為屬性測試條件4條腿具有欺騙性它擬合了誤標記的訓練紀錄導致了對檢驗集中記錄的誤分類噪聲導致的過分擬合例子噪聲導致決策邊界的改變缺乏代表性樣本導致的過分擬合根據(jù)少量訓練記錄做出分類決策的模型也容易受過分擬合的影響由于訓練數(shù)據(jù)缺乏具有代表性的樣本在沒有多少訓練記錄的情況下學習算法仍然細化模型就會產(chǎn)生過分擬合例子五個訓練記錄所有的記錄都是正確標記的對應的決策樹盡管訓練誤差為0 但檢驗誤差高達30 人大象和海豚被誤分類因為決策樹把恒溫但不冬眠的動物分為非哺乳動物決策樹做出這樣的分類決策是因為只有一個訓練記錄鷹具有這些特征這個例子清楚的表明當決策樹的葉結點沒有足夠的代表性樣本時很可能做出錯誤的預測過分擬合與多重比較模型的過分擬合可能出現(xiàn)在使用多重比較過程的算法中多重比較的例子考慮未來十個交易日股市是升還是降一個人十次猜測至少正確預測八次的概率是 0 0547假設從50個股票分析家中選擇一個投資顧問策略是選擇在未來的十個交易日做出最多正確預測的分析家該策略的缺點是即使所有的分析家都用隨機猜測做出預測至少有一個分析家做出八次正確預測的概率是 1 1 0 0547 50 0 9399 這一結果相當高多重比較過程與模型過分擬合有什么關系在決策樹增長過程中可以進行多種測試以確定哪個屬性能夠最好的劃分訓練數(shù)據(jù) 在這種情況下算法實際上是使用多重比較過程來決定是否需要擴展決策樹當候選屬性多訓練記錄數(shù)少時這種影響就變得更加明顯泛化誤差估計過分擬合的主要原因一直是個爭辯的話題但大家還是普遍同意模型的復雜度對模型的過分擬合有影響如何確定正確的模型復雜度理想的復雜度是能產(chǎn)生最低泛化誤差的模型的復雜度估計泛化誤差的方法使用再代入估計用訓練誤差提供對泛化誤差的樂觀估計結合模型復雜度估計統(tǒng)計上界使用確定集結合模型復雜度奧卡姆剃刀 Occam sRazor 給定兩個具有相同泛化誤差的模型較簡單的模型比復雜的模型更可取因為復雜模型中的附加成分很大程度上是偶然的擬合因此分類模型評估應把模型復雜度考慮進去方法悲觀誤差估計最小描述長度原則 MDL 悲觀誤差評估悲觀誤差估計公式 Q ti 為每個結點ti的罰分 e T 為訓練樣本集的錯分樣本數(shù) Nt為訓練樣本總數(shù) k為葉結點數(shù) 例子1 如果罰分等于0 5 訓練樣本集中樣本數(shù)為24個我們構建了7個葉結點的決策樹訓練樣本集的錯分樣本數(shù)為4根據(jù)公式我們得e T 4 7 0 5 24 0 3125例子2 如果罰分等于0 5 訓練樣本集中樣本數(shù)為24個我們構建了4個葉結點的決策樹訓練樣本集的錯分樣本數(shù)為6根據(jù)公式我們得e T 6 4 0 5 24 0 3333當罰分等于1時例1 2為0 458 0 4170 5的罰分項表示只要至少能夠改進一個訓練記錄的分類結點就應當擴充因為擴展一個結點等價于總誤差增加0 5 代價比犯一個訓練錯誤小最小描述長度 MDL Cost Model Data Cost Data Model Cost Model Cost是傳輸總代價最小化cost值 Cost Data Model 是誤分類記錄編碼的開銷 Cost Model 是模型編碼的開銷使用確認集該方法中不是用訓練集估計泛化誤差而是把原始的訓練數(shù)據(jù)集分為兩個較小的子集一個子集用于訓練而另一個稱為確認集用于估計泛化誤差該方法為評估模型在未知樣本上的性能提供了較好辦法處理決策樹中的過分擬合先剪枝 EarlyStoppingRule 樹增長算法在產(chǎn)生完全擬合整個訓練數(shù)據(jù)集的之前就停止決策樹的生長為了做到這一點需要采用更具限制性的結束條件當結點的記錄

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

基本概念、決策樹與模型評價(ppt 92頁).ppt

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

基本概念、決策樹與模型評價(ppt 92頁).ppt

文檔簡介

溫馨提示

最新文檔

評論

相關文檔