基于集成式人工智能算法的分類預測獲獎科研報告_第1頁
基于集成式人工智能算法的分類預測獲獎科研報告_第2頁
基于集成式人工智能算法的分類預測獲獎科研報告_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于集成式人工智能算法的分類預測獲獎科研報告

摘要:本文將集成式人工智能算法——梯度提升樹算法應用到了特征信息有缺失的帶標簽樣本的分類預測中,通過和其它分類算法比較看出集成式算法在準確度和ROC、AUC等分類性能指標上有著明顯的優勢。

關鍵詞:人工智能;集成式;分類預測

一、引言

近些年,人工智能技術因所依賴的硬件環境的改善得到了更為廣泛的應用。概括地說,人工智能技術是利用計算機軟硬件通過程序設計來實現人類智能的技術科學。從應用領域的角度來講,人工智能技術又可以大致分為模式識別、機器學習、智能算法和數據挖掘等方面。本文關注的就是利用數據挖掘中的集成式算法對樣本數據實現分類預測。

集成式的數據挖掘算法比較多。所謂集成是指將多個同類算法進行有機結合實現聯合決策的過程。比較經典隨機森林算法就是通過隨機組合將多課決策樹聯合通過投票的方式確定樣本的類別。以此為基礎發展得到一些諸如AdaBoost,GBDT(GradientBoostingDecisionTree)等集成式算法,尤其是GBDT算法,作為一種迭代的決策樹算法,聯合多課決策樹通過迭代的過程對歷次預測產生的殘差進行擬合以達到較高的訓練精度。它和支持向量機都被認為是泛化能力較強的樣本分類算法。本文也將通過實例比較二者的分類性能。

二、基于集成式人工智能算法GBDT的分類預測

以一個確定的帶標簽的數據集為例。這里選取記錄了泰坦尼克號沉沒事件中的乘客身份信息以及最終幸存與否的數據表。根據歷史記錄,泰坦尼克號上共計1316位乘客。每位乘客均帶有年齡,性別,座號等信息。另外用標簽0標注乘客死亡,1標注乘客生還。這樣就個構成了一個包含1316條樣本的數據表。表一呈現了部分乘客的信息。可以注意到每位乘客包含座位等級,姓名,年齡,性別等十個特征信息。而“survived”則是幸存與否,用0和1區別。因年代原因不少信息都是殘缺的,只能用“NaN”來記錄,在實際數據分析中,我們采用該特征的其它記錄值的均值來代替這些缺失值。現在目的則是利用集成式的人工智能算法GBDT、隨機森林和公認分類學習能力比較出色的支持向量機(SVC)來學習這些樣本的信息,從而訓練出預測模型。

根據預測模型的構建原理,我們將1316條數據分為訓練集和測試集。訓練集顧名思義是用于讓算法學習數據訓練模型的,而測試集則是檢驗模型的性能。為比較公平,三種分類算法不指定參數,均采用默認設置以讓算法自動充分地學習訓練集數據。考慮到這些算法在學習數據時某些環節的隨機性,我們對每個算法均運行50次,通過平均性能,包括平均準確率、平均AUC等值反映三種算法的性能。

三、模型性能的比較

首先通過比較直觀的ROC曲線圖反映一次學習后三種算法的性能比較。ROC曲線圖的出現是為了解決僅通過模型對測試集樣本預測的準確率來反映模型性能不夠科學的問題,尤其是在不平衡的數據集中。例如若測試集由199個正類和1個負類樣本組成,則即使不用分類算法直接把所有樣本都預測為正類,準確率也非常高。所以準確率不足以反映模型的性能,這時需要正類樣本被正確歸類(真的正類)的比例tpr和正類樣本被錯誤歸類(假的正類)的比例fpr來綜合反映模型性能。ROC曲線正是反映了tpr和fpr隨著算法閾值變化的曲線圖。圖1是此次預測的ROC曲線圖。圖中按圖例表示的不同形狀的曲線是此次預測的三種算法的ROC曲線,它代表模型對正類樣本正確分類的比率(tpr)和對正類樣本錯分的比率(fpr)。在以fpr為橫軸tpr為縱軸的ROC曲線圖里,顯然曲線越靠近左上角表明性能越好。

從圖1可以看出整體而言,在不同的閾值下,GBDT算法的整體的性能更好,總體上其ROC曲線是位于其它兩種算法之上的。相對而言在閾值較小時,支持向量機SVC性能比擬于GBDT而優于隨機森林RF,在閾值較大時,三種算法的性能幾乎沒有差別。但這僅僅是對測試集一次預測的性能比較,考慮到切分數據集的隨機性,這還不夠全面。所以我們對每種算法實施50輪預測,對50次預測的準確率和ROC曲線的線下面積AUC都取均值來比較三種算法的預測性能。平均準確率具體結果隨機森林,GBDT和SVC分別為0.815,0.824和0.809。結果顯示就平均準確率而言,GBDT最優,隨機森林次之,SVC稍稍落后。ROC線下面積AUC的具體結果隨機森林,GBDT和SVC分別為0.816,0.83

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論