機器學習原理與應用課件 第5章 樸素貝葉斯_第1頁
機器學習原理與應用課件 第5章 樸素貝葉斯_第2頁
機器學習原理與應用課件 第5章 樸素貝葉斯_第3頁
機器學習原理與應用課件 第5章 樸素貝葉斯_第4頁
機器學習原理與應用課件 第5章 樸素貝葉斯_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第5章

樸素貝葉斯1學習目標理解樸素貝葉斯的基本原理掌握Scikit-learn庫構建不同類型樸素貝葉斯模型的基本方法122目錄頁35.1基本原理5.2應用實例樸素貝葉斯5.1基本原理樸素貝葉斯算法利用貝葉斯定理構建分類模型,同時通過特征相互獨立(即樸素的基本含義)的假設簡化模型求解的復雜度。45.1基本原理貝葉斯原理相關概念:1.先驗概率:通過經驗判斷事件發生的概率(如乳腺癌發病率為24.2%且52.9%發生在發展中國家、微博用戶男生比例占55%等)2.后驗概率:事件發生后推測起因的概率(如已知病人患有“乳腺癌”的情況下推斷遺傳因素、營養過剩等導致“乳腺癌”起因的概率)3.條件概率:當前事件在另一事件已發生情況下的發生概率(如在已知存在“遺傳因素”的情況下“乳腺癌”發病的概率)4.似然函數:用于確定模型參數的函數。概率描述已知參數時變量的輸出,而似然則描述已知變量輸出時未知參數的可能取值55.1.1基本概念

65.1.1基本概念

75.1.1基本概念

85.1.1基本概念

95.1.1基本概念

105.1.1基本概念表1所示的“學生作息與成績關系”數據,此處以預測“出勤=早、休息=晚”學生成績的好或差為例描述其基本過程11序號出勤休息成績1早晚好2早早好3早晚差4晚早差5晚晚好6早晚好7早早好8晚早差9晚晚差10早晚好表1學生作息與成績關系數據5.1.1基本概念

125.1.1基本概念

135.1.1基本概念

145.1.2主要類型在Scikit-learn庫native_bayes模塊中,根據特征的類條件概率可將樸素貝葉斯模型分為:(1)高斯樸素貝葉斯(GaussianNB)GaussianNB假設特征的類條件概率服從正態分布(均值與方差根據訓練數據估計)。(2)多項式樸素貝葉斯(MultinomialNB)MultinomialNB假設特征的類條件概率服從多項式分布,與適于連續型特征取值的GaussianNB不同,其更適于離散型特征情況下分類問題的求解。155.1.2主要類型(3)伯努利樸素貝葉斯(BernoulliNB)BernoulliNB假設特征的類條件概率服從伯努利分布,即數據包含多個特征,而每個特征的取值僅有兩種;因而,與MultinomialNB不同,BernoulliNB更關注事件是否存在而非發生的次數。165.1.2主要類型(4)補集樸素貝葉斯(ComplementNB)ComplementNB主要用于解決樸素貝葉斯中的“樸素”假設以及樣本不均衡等因素產生的各種問題(在計算每個類別的分類概率時,傳統的樸素貝葉斯分類器可能會傾向于預測樣本數較多的類別)。具體而言,對于指定類別及其補集,ComplementNB首先計算相應特征條件概率的乘積,然后利用兩者之商作為指定類別最終的分類概率。175.2應用實例(1)高斯樸素貝葉斯(GaussianNB)導入方法:fromsklearn.naive_bayesimportGaussianNB函數原型:GaussianNB()185.2應用實例(2)多項式樸素貝葉斯(MultinomialNB)導入方法:fromsklearn.naive_bayesimportMultinomialNB函數原型:classsklearn.naive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)195.2應用實例(3)伯努利樸素貝葉斯(BernoulliNB)導入方法:fromsklearn.naive_bayesimportBernoulliNB函數原型:classsklearn.naive_bayes.BernoulliNB(alpha=1.0,binarize=0.0,fit_prior=True,class_prior=None)205.2應用實例(4)補集樸素貝葉斯(ComplementNB)導入方法:fromsklearn.naive_bayesimportComplementNB函數原型:classsklearn.naive_bayes.ComplementNB(alpha=1.0,fit_prior=True,class_prior=None,norm=False)215.2.1高斯樸素貝葉斯高斯樸素貝葉斯分類器假定每個特征的條件概率均服從高斯分布,進而可根據貝葉斯公式計算新樣本屬于各個類別的后驗概率,最后通過最大化后驗概率來確定樣本的所屬類別。在實際中,若特征分布形態未知或不易確定時,通常可先采用高斯樸素貝葉斯分類器進行初始分類或預測,若相應的精度達不到指定標準,則可嘗試其他類型的樸素貝葉斯分類器。案例5-1:成績預測(1)問題描述如表1所示“學生作息與成績關系”數據構建高斯樸素貝葉斯分類器以實現新樣本的預測(2)編程實現見5-1成績預測.py225.2.1高斯樸素貝葉斯(3)結果分析成績為好或差:[[0.98406780.0159322]]成績類別:[0]預測精度:0.8235.2.1高斯樸素貝葉斯案例5-2:紅酒分類(1)問題描述利用高斯樸素貝葉斯分類器對Scikit-learn庫中的紅酒數據進行分類,具體要求如下:①利用訓練樣本構建模型,然后利用測試樣本測試模型的精度。②對分類結果進行可視化。(2)編程實現見5-2紅酒分類.py245.2.1高斯樸素貝葉斯(3)結果分析預測精度:0.981481481481481525高斯樸素貝葉斯分類效果圖(方形:訓練樣本,圓形:測試樣本)5.2.2多項式樸素貝葉斯多項式樸素貝葉斯主要適用于離散型特征(如次數、頻率、計數等)相關的分類問題的求解。例如,在文本分類問題中判斷一段文本是屬于教育類別還是軍事類別,此時僅需求取兩者相應的概率P(教育|文本)與P(軍事|文本)的大小即可(其中最大者相應的類別即為文本所屬類別);其中,由于文本本身由多個關鍵詞構成,因而概率P(教育|文本)與P(軍事|文本)可轉化為求取P(教育|關鍵詞1,關鍵詞2,關鍵詞3...)與P(軍事|鍵詞1,關鍵詞2,關鍵詞3...),進而可通過貝葉斯公式將概率求取問題轉化為不同關鍵詞出現頻率統計的問題。265.2.2多項式樸素貝葉斯實例5-3:特征離散化(1)問題描述首先構造包含兩個特征的樣本集,然后完成以下實驗:①對樣本集進行歸一化處理。②將樣本集劃分為訓練樣本與測試樣本,然后利用訓練樣本構建多項式樸素貝葉斯模型并利用測試樣本測試其精度。③查看相關先驗概率與類條件概率。④對原特征進行離散化處理并重新進行模型訓練與測試。(2)編程實現見實例5-3特征離散化.py275.2.2多項式樸素貝葉斯(3)結果分析類先驗概率:[0.482857140.51714286]類條件概率:[[0.506365280.49363472][0.466060450.53393955]]預測精度:0.46數據基本結構:(700,20)預測精度:1.0每個特征值離散為10個獨熱編碼值,兩個特征相應獨熱編碼值共20個。以離散化后的特征值訓練MultinomialNB模型,其精度可提高到1.0285.2.2多項式樸素貝葉斯實例5-4:文本分類。(1)問題描述首先下載Scikit-learn庫fetch_20newsgroups數據(包含18846篇新聞文本及20個新聞類別),然后統計文本中的詞頻并構建多項式樸素貝葉斯分類器對文本進行分類。(2)編程實現見實例5-4:文本分類.py295.2.2多項式樸素貝葉斯(3)結果分析預測精度:0.82本例首先對文本進行分詞、詞頻統計與向量化處理,進而生成多項式樸素貝葉斯分類器構建相應的樣本。由于分類器自身性能以及特征取值分布的影響,利用測試樣本對多項式樸素貝葉斯分類器進行測試的精度為0.82。305.2.3伯努利樸素貝葉斯伯努利樸素貝葉斯與多項式樸素貝葉斯非常相似,但與多項式樸素貝葉斯不同的是其偏重于解決“是否存在”問題而非次數或頻率問題;例如,在文本分類中,伯努利樸素貝葉斯使用標示關鍵詞“是否出現”的0/1值而非關鍵詞出現的次數或頻率構建樣本以構建分類器。315.2.3伯努利樸素貝葉斯(1)問題描述Scikit-learm庫手寫數字數據集包含1797個手寫數字樣本,每個樣本為8×8二維數組(元素取值為0-16之間的整數),相應分類標記為0-9之間的整數。利用伯努利樸素貝葉斯分類器實現Scikit-learn庫手寫數字樣本的分類。(2)編程實現見5.2.3伯努利樸素貝葉斯.py325.2.3伯努利樸素貝葉斯(3)結果分析(1797,64)(1797,)測試精度:0.84提高相應的精度。33伯努利樸素貝葉斯分類器5.2.4補集樸素貝葉斯補集樸素貝葉斯通過考慮每個類別的補集解決類別不平衡的問題,在實際中能夠更好地適應樣本數較少的類別。然而,由于需要計算每個類別及其補集的概率,因而計算復雜度相對較高。(1)問題描述首先構造兩類數量不均衡的樣本并將其劃分為訓練樣本與測試樣本,然后利用訓練構建高斯樸素貝葉斯、多項式樸素貝葉斯、伯努利樸素貝葉斯與補集樸素貝葉斯分類器并利用測試樣本測試其性能(求取并對比相應的精度、召回率與AUC值)。(2)編程實現見5.2.4補集樸素貝葉斯.py345.2.4補集樸素貝葉斯(3)結果分析Gaussian Accuracy:0.997 Recall:0.463 AUC:0.989Multinomial Accuracy:0.996 Recall:0.000

AUC:0.98035Bernoulli Accuracy:0.989 Recall:0.604 AUC:0.979Complement Accuracy:0.933 Recall:0.963 AUC:0.9805.2.4補集樸素貝葉斯(3)結果分析高斯與多項式樸素貝葉斯對不均衡數據較為敏感,召回率相對較低;相對而言,伯努利與補集樸素貝葉斯可較好地緩解數據不均衡問題,尤其是補集樸素貝葉斯,其雖然精度不高,但對不均衡數據適應性較好。此外,在特征取值連

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論