基于特征技術(shù)與數(shù)據(jù)技術(shù)的集成學(xué)習(xí)研究_第1頁(yè)
基于特征技術(shù)與數(shù)據(jù)技術(shù)的集成學(xué)習(xí)研究_第2頁(yè)
基于特征技術(shù)與數(shù)據(jù)技術(shù)的集成學(xué)習(xí)研究_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于特征技術(shù)與數(shù)據(jù)技術(shù)的集成學(xué)習(xí)研究

自20世紀(jì)90年代以來(lái),一體化學(xué)習(xí)對(duì)機(jī)械學(xué)習(xí)研究者產(chǎn)生了極大的興趣。一體化學(xué)習(xí)很快成為機(jī)械學(xué)習(xí)的研究熱點(diǎn)之一,并在挖掘、識(shí)別特征、文本分類、預(yù)測(cè)等方面得到了應(yīng)用。目前,文獻(xiàn)中有許多集成學(xué)習(xí)算法,大致可分為在線或附加集成算法、軟集成學(xué)習(xí)算法、采用不同技術(shù)篩選模型的集成算法、抗噪聲能力的綜合算法和小型數(shù)據(jù)集的綜合學(xué)習(xí)算法。事實(shí)上,研究人員繼續(xù)研究一體化學(xué)習(xí)和各種融合方法的差異。在這項(xiàng)工作中,我們主要研究基于資源集和數(shù)據(jù)技術(shù)的集成學(xué)習(xí)方法。資源集技術(shù)是一種基于特定策略選擇資源集的不同方法。在這種方法中,有許多不同的方法可以選擇資源集,如使用枚舉法或資源集,并使用遺傳算法法選擇資源集。基于數(shù)據(jù)技術(shù),不同的訓(xùn)練數(shù)據(jù)由隨機(jī)方法選擇,這些訓(xùn)練數(shù)據(jù)生成納入其中的個(gè)體。為了通過(guò)隨機(jī)選擇數(shù)據(jù)方法來(lái)獲得集成個(gè)體之間的差異,有必要根據(jù)不同的策略選擇資源集。1基于adabsost的學(xué)習(xí)算法基于數(shù)據(jù)的集成主要使用隨機(jī)取樣的方法獲取訓(xùn)練數(shù)據(jù),它是集成學(xué)習(xí)算法獲取個(gè)體差異性經(jīng)常使用的方法,包括有放回隨機(jī)取樣、無(wú)放回隨機(jī)取樣與混合取樣(包括無(wú)放回隨機(jī)取樣與有放回隨機(jī)取樣)3種.較典型的方法是Bagging與Adaboost.Bagging是由Breiman提出的一種集成學(xué)習(xí)方法,通過(guò)采用有放回隨機(jī)取樣技術(shù)(Bootstrap取樣)獲取訓(xùn)練集,然后使用該數(shù)據(jù)集生成集成學(xué)習(xí)中的個(gè)體.在這種方法中,集成個(gè)體間的差異性是通過(guò)Bootstrap重取樣技術(shù)獲得的,或者說(shuō)它是通過(guò)訓(xùn)練數(shù)據(jù)的隨機(jī)性及獨(dú)立性來(lái)提供集成中個(gè)體的差異性.該方法主要用于不穩(wěn)定(不穩(wěn)定是指當(dāng)訓(xùn)練集中數(shù)據(jù)有微小的變化時(shí),則會(huì)導(dǎo)致模型有很大的變化)的學(xué)習(xí)算法,例如神經(jīng)網(wǎng)絡(luò)和決策樹.為了減少個(gè)體所產(chǎn)生的方差,通過(guò)對(duì)這些個(gè)體的預(yù)測(cè)值投票,從而減少了泛化誤差.對(duì)于穩(wěn)定的學(xué)習(xí)算法,例如樸素貝葉斯方法,Bagging集成并不能減少誤差.Boosting方法是一類集成學(xué)習(xí)算法的總稱,它有許多變種,AdaBoost是較流行的方法.通過(guò)直接引導(dǎo)難以分類的數(shù)據(jù)以生成集成的差異性.在這種算法中,假設(shè)學(xué)習(xí)算法能夠處理加權(quán)實(shí)例,若學(xué)習(xí)算法不能直接處理加權(quán)實(shí)例,則按照權(quán)分布對(duì)訓(xùn)練集取樣以產(chǎn)生新的訓(xùn)練集.AdaBoost對(duì)訓(xùn)練實(shí)例的權(quán)進(jìn)行維護(hù),并且在第i次迭代中,通過(guò)最小化訓(xùn)練集的加權(quán)誤差來(lái)訓(xùn)練分類器Ci,然后使用分類器Ci的加權(quán)誤差更新訓(xùn)練實(shí)例上的權(quán)分布,這樣使得錯(cuò)分實(shí)例的權(quán)值增加,而正確分類實(shí)例的權(quán)值減少,在訓(xùn)練下一個(gè)分類器時(shí),則使用更新后實(shí)例的權(quán)值分布,并重復(fù)此過(guò)程.在訓(xùn)練完成之后,使用個(gè)體分類器的加權(quán)投票融合方法∑iwiCi(x)∑iwiCi(x)進(jìn)行決策.當(dāng)數(shù)據(jù)量不足或有大量的分類噪聲(即具有不正確的類標(biāo)號(hào)的訓(xùn)練實(shí)例)時(shí),這種學(xué)習(xí)算法的性能有所下降.2特征集的構(gòu)造特征集方法是用來(lái)提高集成個(gè)體差異性的另一類方法,通過(guò)提取不同的特征子集來(lái)訓(xùn)練集成中的個(gè)體.為了提高集成個(gè)體的差異性,通常采取不同的技術(shù)獲取這組特征子集.最直接的方法就是在大小為n的特征集合中,求出所有的特征子集,然后在其中選取所需要的特征子集集合.但由于由特征子集所構(gòu)成的搜索空間由2n種可能狀態(tài)構(gòu)成,顯然,即使在特征數(shù)目不高的情況下,搜索空間也是龐大的.在實(shí)際應(yīng)用中,這種窮盡式搜索是不可行的,因此,研究者們致力于用啟發(fā)式搜索算法尋找特征子集集合.如Ho提出的隨機(jī)子空間方法.在這種方法中,隨機(jī)選擇特征子集,并分配給學(xué)習(xí)算法,然后在這個(gè)子空間中生成分類器,最后根據(jù)分類器的正確率使用加權(quán)投票方法進(jìn)行集成.Guerra-Salcedo與Whitley合作使用遺傳算法的搜索過(guò)程產(chǎn)生集成成員或集成個(gè)體.另外,Tumer與Oza提出了ID(InputDecimation)方法.這種方法目的是減少集成成員產(chǎn)生錯(cuò)誤的相關(guān)性,通過(guò)使用不同的特征子集訓(xùn)練集成中的成員.這種方法與隨機(jī)子空間方法是不同的,因?yàn)閷?duì)于每一類,要明顯地計(jì)算每個(gè)特征與類的輸出間的相關(guān)性,并且僅在特征最相關(guān)的子集上訓(xùn)練集成成員.Xu等、Park等與Breukelenvan等也研究了基于特征集的集成學(xué)習(xí)方法,并提出了劃分特征集的方法,并在每一個(gè)子集上構(gòu)造集成中的成員.綜上所述,對(duì)于上面的這些集成學(xué)習(xí)方法可以概括為如下的集成學(xué)習(xí)框架:1)選取不同的特征集以構(gòu)成特征集的集合;2)使用這組特征集集合生成集成中的個(gè)體;3)選取一種融合方法對(duì)個(gè)體結(jié)論融合.在下面的實(shí)驗(yàn)研究中,分別使用了不同的獲取特征集的方法,評(píng)價(jià)函數(shù)為信息增益(IG)、增益率(GR)與主成分(PC)函數(shù).3實(shí)驗(yàn)與研究3.1數(shù)據(jù)集的組成為了驗(yàn)證基于特征集與數(shù)據(jù)技術(shù)的集成學(xué)習(xí)算法的性能,在10個(gè)數(shù)據(jù)集對(duì)集成學(xué)習(xí)算法Bagging,Adaboost,Attribute-Selection進(jìn)行了實(shí)驗(yàn)研究,這些數(shù)據(jù)集的具體特性見(jiàn)表1所示.實(shí)驗(yàn)中集成學(xué)習(xí)算法的基模型分別為神經(jīng)網(wǎng)絡(luò)與決策樹,學(xué)習(xí)算法分別為BP與C4.5.神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)除了含有輸入層與輸出層外,另外選擇了含有10個(gè)節(jié)點(diǎn)的單隱層,BP算法中其他參數(shù)的設(shè)置(例如學(xué)習(xí)率等)采用了Weka系統(tǒng)中的默認(rèn)值.實(shí)驗(yàn)過(guò)程分為2組:一組是基于數(shù)據(jù)的集成學(xué)習(xí),例如Bagging與Adaboost算法;另一組是基于特征集的集成學(xué)習(xí),例如搜索特征集時(shí)采取不同的評(píng)價(jià)函數(shù)可得到不同的特征子集集合,實(shí)驗(yàn)研究中的評(píng)價(jià)函數(shù)為信息增益(IG)、增益率(GR)與主成分(PC)評(píng)價(jià)函數(shù).3.2基于特征集的集成學(xué)習(xí)實(shí)驗(yàn)中使用了十重交叉驗(yàn)證方法,實(shí)驗(yàn)結(jié)果如圖1與圖2所示.由圖1看到,在大多數(shù)數(shù)據(jù)集上集成算法Bagging與Adaboost.M1的泛化性能相當(dāng).從總體上講,基于屬性選擇的集成算法的泛化性能要差于Bagging、Adaboost.M1,尤其是使用決策樹作為基模型的集成學(xué)習(xí)效果更差.出現(xiàn)這種情況的主要原因是選取的特征數(shù)目少?gòu)亩鴮?dǎo)致集成個(gè)體間的差異性減少,因此集成學(xué)習(xí)的性能較差.由圖2知,基于不同評(píng)價(jià)函數(shù)獲得的特征集的集成學(xué)習(xí)算法的性能是不同的,它們依賴數(shù)據(jù)集的特性等因素,比如數(shù)據(jù)集的規(guī)模、數(shù)據(jù)集中屬性的個(gè)數(shù).總之,當(dāng)數(shù)據(jù)集的規(guī)模較大,而數(shù)據(jù)的維數(shù)較低時(shí),集成的效果比較明顯.因此,對(duì)于使用不同特征集生成差異性的方法是需進(jìn)一步研究的問(wèn)題.實(shí)際上,可以通過(guò)采用不同搜索策略、不同評(píng)價(jià)函數(shù)等因素獲取這些特征集,進(jìn)而進(jìn)一步增加集成個(gè)體的差異性.4數(shù)據(jù)技術(shù)的集成學(xué)習(xí)算法差異性是集成學(xué)習(xí)算法提高性能的一個(gè)重要因素,可以說(shuō)沒(méi)有差異性就沒(méi)有提高.本文從差異性出發(fā),分析研究了基于特征技術(shù)與數(shù)據(jù)技術(shù)的集成學(xué)習(xí)算法,及這些集成學(xué)習(xí)算法產(chǎn)生差異性的方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論