C算法生成決策樹的_第1頁
C算法生成決策樹的_第2頁
C算法生成決策樹的_第3頁
C算法生成決策樹的_第4頁
C算法生成決策樹的_第5頁
已閱讀5頁,還剩2頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

C4.5算法生成決策樹1、基礎知識當我們需要對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最均勻,預測的風險最小。因為這時概率分布的信息熵最大,所以稱之為“大熵法”最大熵法在數學形式上很漂亮,但是實現起來比較復雜,但把它運用于金融領域的誘惑也比較大,比如說決定股票漲落的因素可能有幾十甚至上百種,而最大熵方法恰恰能找到一個同時滿足成千上萬種不同條件的模型。目前,針對分類問題已有了若干不同領域方法的算法,例如統計學、機器學習、神經網絡和粗糙集理論等。其中從機器學習中引出的決策樹方法是一種較為通用并被深入研究的分類方法,由于決策樹分類算法是一種直觀快速的分類方法,它的分類過程不需要背景知識、并且清晰、易于理解,因此有很大的實用價值。目前已經形成了多種決策樹算法。如CLS、ID3、CHAID、CART、FACT、C4.5、Gini、SEE5、SLIQ、SPRINT等。在決策樹分類算法中,最常用的、最經典的是C4.5算法,它繼承了ID3算法的優點并對ID3算法進行了改進和補充。C4.5算法采用信息增益率作為選擇分支屬性的標準,克服了ID3算法中信息增益選擇屬性時偏向選擇取值多的屬性的不足,并能夠完成對連續屬性離散化的處理,還能夠對不完整數據進行處理。根據分割方法的不同,目前決策的算法可以分為兩類:基于信息論(InformationTheory)的方法和最小GINI指標(LowestGINIindex)方法。對應前者的算法有ID3、C4.5,后者的有CART、SLIQ和SPRINT。C4.5算法是以信息論為基礎,以信息熵和信息增益度為衡量標準,從而實現對數據的歸納分類。2、算法以下圖數據為例,介紹用C4.5建立決策樹的算法。表1跡室外移溫度仆室內銀溫度顏室外膊濕度僵風力似大小欺機房剪樓層僵機房睛朝向澤(0獲:陰式,1被:陽凍)尸機房針開啟陵設備循總額堵定功進率(尊千瓦?。┢?3沖17名65搬4尚1傻0啦50傷0窩24吩17筍62紛2名2縮1悄45盡0抹27沾18黑60屋3灣-1舞0交30容0漿24月19竄58饑3吵2漿0屬30痰0欄25支18弊52暫2翼1訓1催45肥0圣26黎18畝50若5噴-1驕1脖50雁0衰30屋19幟45怕2零2匙1由45次0蝕28瓣18墳43附3乏1以0巡45查0國27揪18瑞48因3元-1沫0遠50被0習29榴18經40歇4烤1苗0龍50乳0ID3算法最初假定屬性都是離散值,但在實際應用中,很多屬性值都是連續的。C4.5對ID3不能處理連續型屬性的缺點進行了改進。如果存在連續型的描述性屬性,首先將連續型屬性的值分成不同的區間,即“離散化”。對上表中將實際耗電量分為10個區間(0—9)(300~320,320~340,340~360,360~380,380~400,400~420,420~440,440~460,460~480,480~500)因為最終是要得到實際的耗電量區間,因此“實際耗電量”屬于“類別屬性”?!笆彝鉁囟取?、“室內溫度”、“室外濕度”、“風力大小”、“機房樓層”、“機房朝向”、“機房開啟設備總額定功率”屬于“非類別屬性”。表2召室外但溫度戚室內耍溫度雖室外龜濕度敢風力鏡大小惰機房疏樓層追機房訂朝向富(0由:陰催,1爆:陽系)鍵機房蘇開啟晨設備唐總額唱定功扎率(嘴千瓦可)飄實際享耗電丟量附(區含間)奏23問17敵65曲4父1腐0婚50較0端5跳24最17用62改2州2樸1者45懇0精7東27爬18侍60熱3明-1固0倘30敗0瀉0求24箏19糾58叫3專2鐘0炒30室0乎0貪25斷18牛52嫌2樹1淋1外45奪0勞5秘26枕18跡50閃5技-1港1跪50柱0愈4腐30鵲19猾45崗2棒2降1鳴45閣0凳9焦28雅18揪43鉗3績1森0沃45中0荷6煌27合18釀48翁3城-1何0懼50權0冷5腹29在18啊40灶4途1吊0鐵50監0冠7靠非類壓別屬妥性乳類別造屬性通過表2知,實際耗電量區間的個數為:表3務序號拔區間蛙值勁個數柳1巾0恥2鹿2扒4鍬1別3驕5躍3劈4妙6襯1素5鞏7屯2團6狼9芬1喪總計洗10鏈定義頑1:翅若存賣在n斑個相宋同概固率的驚消息線(M食as骨sa崖ge政),嶼則每旅個消變息的兄概率窩p是羅1/械n,噸一個未消息竄傳遞闖的信步息量趁為嫁。成若有曠16徑個事坡件,響則昆,則棒需4竭個比介特來劫代表鞠一個傍消息闊。填例如叼:門表3驕中,娃區間胳為0竄的信消息量誘為:乘=3鼻.3木22葡定義秋2:蕉若給懲定的爆概率閱分布畫,則棕由該鄭分布焰傳遞濫的信籃息量耍稱為杰P的油熵。良即證注意慘:概塔率分抗布越何均勻條,其逐信息慈量越才大)債。堆定義甜3:捎若一池個日記錄恭的集選合T臺根據怠類別熔屬性瑞的值轟被分常成互脖相獨笑立的閑類掏則識馬別T后的一隨個元趙素所廚屬哪猴個類王所需碼要的達信息涂量是券,其救中P錯是頓的概義率分院布駛,即染例如來:表訓3中渡,得南到實壩際耗雅電量蛋區間歲的信等息量行為殊(以播下單柿位為安比特脹,下庫同)背:蠶=2奪.4咬46率定義矛4:挨若我禾們先澇根據最非類嘗別屬浪性X宴的值棗將T曲分成斥集合陣,則遙確定繪T中開一個柜元素卻類的羨信息葡量可蝦通過嘴確定匯的加遼權平甚均值傳來得蘭到,滅即I璃nf晉o(擁)的悄加權仰平均馳值為猜:皮例如吃:屬納性瀉“抬室內暢溫度咽”遼的值球有紗“警17唯、1儀8、掀19釣”灰,分灑類見聲下表石:表4自序號個室內息溫度網個數俯所屬竹的區塔間(還個數沃1棉17奧2老5(童1)剝7(櫻1)添2輛18喬6理0(打1)巧4(互1)爹5(項2)耳6(際1)川7(雀1)魄3面19慘2要0(睛1)劣9(棍1)滑總計嚷10針P(磁17糕)=狠(1古/2川,1愉/2萬)臨P(構18懂)=仗(1詞/6姨,1淺/6更,2蹈/6洗,1鳴/6很,1雞/6喚)塵P(即19產)=克(1輕/2棵,1買/2次)濫則每民個溫砌度的賽信息棗量為貧:馬=1竹.0末00艱=2拼.2遷52鉤=1炒.0鋼00圍=地1.嚇75撤1弟定義鏈5:悔將增濟益G聯ai亦n(投X,遼T)揉定義櫻為:沫。嘴所謂霧增益何,就旱是指逝在應據用了綿某一托測試刪之后牧,其頃對應竭的可穴能性頂豐富渡程度移下降惹,不澡確定嫁性減聞小,瘦這個況減小刻的幅事度就枝是增跨益,節其實誕質上仿對應蜻著分咸類帶題來的著好處惕)。父沙上式濕的增僑益值犧為:撇=2串.4滅46總-1攔.7雖51廳=0昨.6啄95旦以上俯是I渣D3魔計算鞏信息慰增益揉的方凍法,鴉C4握.5隸算法斧對此坐進行歸了改碧進。因C4戒.5麥算法疊采用姥信息春增益漢率作殘為選開擇分絞支屬截性的揭標準文,克尼服了摔ID廊3算療法中統信息退增益紀選擇運屬性包時偏雹向選落擇取殖值多趴的屬塵性的輔不足桃。若黨我們玻一個割屬性彈D,炮據其屬取值總將T牌分成增集合萍T1睛、T灶2尊……腐Tn雷,當灘每一婚個集吧合中誕所有合記錄忠得出井的結儲果相禮同,渡即同項時取鐮值為竟“云是搞”足或勁“周否訴”暴時,細In筋fo炸(D陳,T爛)號為0乎,此尾時增斧益G漲ai片n(燭D,瓜T)錢取最黑大值瓶。因盤此薦用增仙益比錘值來姥代替雷,即流:共由于尾T是飄以類宴型屬捉性D鑼的值嗽為基晚準進致行的式分割恐,故暖Sp僚li蹈tI胃nf痕o(秘D,號T)冤是權信息拆量。溫舉例擠:根稻據表攤4,充得到棄:怕=1殊.3地71還,則弦0.加69木5/屢1.興37艷1=雁0.蛙50況7扒可利按用函競數G修ai殊n的鹽定義刪將屬脅性進納行排軌列,池并可防構造濾一棵合決策托樹,稅其中撤每一片個節醋點都拐是屬錫性中槍具有費最大丘增益攝的屬載性,齡從而潤不必屬考慮勝來自畫于根白的路織徑。皂3、撿選擇附連續么變量陵的閾蜜值(岡測試碗條件恒)岡到連望續渣數據啞的分沒支的閉閾值明點如持何確堂定呢旨?很蟲簡單毯,把但需要栗處理循的樣誘本(碼對應通根節糾點)場或樣款本子撫集(雀對應轟子樹攏)按韻照連助續變喂量的固大小逼從小儲到大揀進行翁排序悟,假克設該范屬性南對應喂的不戀同的偵屬性臺值一遲共有姐N個樹,那蛾么總港共有州N-爹1個她可能醒的候竹選分厲割閾德值點踏,每匠個候近選的術分割沒閾值飲點的蜻值為賀上述啞排序粘后的再屬性餓值鏈云表中站兩兩挑前后貢連續開元素親的中保點,梁那么電我們號的任滔務就畏是從摟這個高N-逐1個堡候選蛙分割飯閾值冬點中歌選出荒一個賣,使肝得前半面提掙到的具信息鏡論標層準最斧大。標在E防XC媽EL塞中,李對室蝕外溫孟度(土第二限步)畏詳細厲介紹厲了如姜何分勁割閾花值點否并進嶄行計孤算。拳4、擇樹的貴終止燦樹的錦建立牽實際否上是萄一個筑遞歸籍過程溝,運那么棒這個商遞歸逗什么蠻時候狀到達匠終止業條件子退出曬遞歸勞呢柔?差有兩參種方幫式代,蹄第一咱種方渾式是棚如果訪某一男節點化的分晴支所衛覆蓋展的樣推本都擁屬于瞎同一夢類的間時候鈴,哄那么勉遞歸歸就可變以終花止舞,已該分其支就穩會產釣生一慎個葉罰子節寶點秘。評還有潮一種約方式肅就是遮,如默果某肅一分削支覆喊蓋的沒樣本色的個僻數如蝕果小裙于一賄個閾予值,拴那么磁也可央產生瓶葉子旬節點儲,從凈而終涼止獄建立嫁樹查。囑我們秀只考臂慮二濟叉分折割的蛋情況潔,因餃為這快樣生乳成的刻樹的秘準確牧度更針高。倦5、監樹的息修剪窯樹一丙旦生膜成后湯,便方進入讓第二悟階段丟——右修剪言階段您。猛決策粗樹為夕什么芬要剪帶枝?橡原因庫就是調避免蠟決策熔樹躺“帳過擬集合照”積樣本受。前速面的座算法翻生成蹄的決蚊策樹報非常端的詳沸細而腿龐大納,每暢個屬隸性都豪被詳陸細地艙加以換考慮腫,決詳策樹已的樹牧葉節垂點所干覆蓋敘的訓晝練樣杯本都都是架“腳純自”僻的。還因此語用這昨個決升策樹稿來對敬訓練煩樣本宰進行至分類深的話必,你爬會發嚴現對踏于訓侵練樣稱本而助言,思這個朗樹表朽現堪折稱完戶美,該它可禾以1居00既%完定美正站確得癥對訓添練樣顛本集斤中的暫樣本吉進行役分類墓(因見為決色策樹植本身沉就是睜10喚0%貴完美幫擬合枯訓練暫樣本費的產顆物)農。但醒是,抹這會煉帶來插一個題問題叼,如律果訓炕練樣狠本中抄包含淹了一去些錯腎誤,余按照倚前面闖的算艷法,眾這些蔥錯誤蛾也會夢10哥0%驕一點千不留經得被由決策張樹學繪習了脾,這晃就是癥“災過擬炭合顫”謹。C鳴4.喬5的鐵締造稻者昆滔蘭教早授很姥早就徐發現盜了這雄個問斜題,廚他殿做手過一作個試認驗,姐在某謠一個河數據湯集中蛾,過繡擬合授的決征策樹慕的錯藏誤率煩比一蹤個經達過簡槽化了洗的決輝策樹畢的錯旬誤率潤要高括。這目前脾決策華樹的暖修剪壩的策云略有而三種膝:基傳于代仿價復他雜度鄭的修販剪(巖Co搭st詢-C文om亭pl甲ex財it額y稿Pr互un鐮in祖g)劉、悲數觀修神剪(祖Pe飯ss糞im刮is莊ti寫c攔Pr敲un脹in激g)柔和M掌DL搜(M授in言im缸um賺D巴es安cr炒ip成ti裂on坦L英en異gt隨h)利修剪賊?;诖藘r復搞雜度攪的修焦剪使殿用了燭獨立終的樣涉本集衛用于欄修剪怒,即替與用塞于樹違的構供建過緩程中言使用凡的樣報本集頑不同確,稱宮為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論