




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章樸素貝葉斯分類器目錄CONTENTS3.1貝葉斯分類器理論基礎3.2樸素貝葉斯分類器原理與設計3.3樸素貝葉斯分類器算法實現3.4正態貝葉斯分類器3.5貝葉斯網絡3.6本章小結3.1貝葉斯分類器理論基礎學習基礎學習認知能力信息素養高先驗概率(PriorProbability):在沒有訓練樣本數據前,根據以往經驗和分析得到的概率,初始時假設樣本h的初始概率,用P(h)表示。后驗概率(PosteriorProbability):當下事件由因及果發生的概率,求導致該事件發生的原因是由某個因素引起的可能性的大小。由樣本屬性x導致分類為c的概率P(c|x)就稱為后驗概率。后驗概率(PosteriorProbability):后驗概率也是一種條件概率,它是根據事件結果求事件發生原因的概率。例如,上課又遲到了,這是事件的結果,而造成這個結果的原因可能是早上起床晚了,或感冒發燒需要先去看病,P(起床晚了|上課遲到)和P(感冒發燒|上課遲到)就是后驗概率。0102033.1貝葉斯分類器理論基礎學習基礎信息素養高類條件概率(ClassConditionalProbability):當下事件由果及因發生的概率。樣本x相對于類標簽c的概率,也稱為似然,記作P(x|c)。注意區分幾個概念:(1)先驗概率是不依賴觀測數據的概率分布,在樸素貝葉斯中,類別的概率就是先驗概率,記為p(c)。(2)事情已經發生,計算這件事情發生的原因是由某個因素引起的可能性的大小,是后驗概率。后驗概率的計算要以先驗概率為基礎。(3)“似然”描述的是在給定了特定觀測值的條件下,模型參數的合理性。通常用于建模過程中,選取合適的參數使模型更好地擬合數據。043.1貝葉斯分類器理論基礎如果A和B是樣本空間Ω的兩個事件,在給定A條件下B的概率為:推廣到一般形式,設A是樣本空間Ω上的事件,B是樣本空間Ω上的一個劃分,3.1貝葉斯分類器理論基礎【例3-1】某地區Y病毒的感染率為0.05,在實際檢查過程中,可能會由于技術及操作等原因使病毒攜帶者未必能檢查出陽性反應,同樣不帶病毒也可能會檢查出陽性。假設P(陽性|攜帶病毒)=0.98,P(陽性|不攜帶病毒)=0.04,假設某人檢查出陽性,他帶病毒的概率是多少?由于P(陽性|攜帶病毒)=0.98,P(陽性|不攜帶病毒)=0.04,則P(陰性|攜帶病毒)=0.02,P(陰性|不攜帶病毒)=0.96。根據貝葉斯公式和全概率公式,有3.1貝葉斯分類器理論基礎3.1貝葉斯決策理論基礎
極大似然估計為了估計類條件概率,可以先假設其服從某種確定的概率分布,再利用訓練樣本對概率分布的參數進行估計。這就是極大似然估計(MaximumLikelihoodEstimation,MLE)的算法思想,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:模型已定,參數未知。通過若干次實驗,觀察其結果,利用實驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。假設Tc表示訓練集T中第c類樣本集合,且這些樣本是獨立同分布的,則參數對于數據集Tc的似然為:3.1貝葉斯決策理論基礎找出參數空間中能使取最大參數值的,其實就是求解:假設樣本服從均值為、方差為的正態分布,對其求對數:3.1貝葉斯決策理論基礎求最大似然估計量的一般步驟如下:(1)寫出似然函數(2)對似然函數取對數,并整理(3)對的相應參數求偏導(4)解似然方程,得到參數的值。3.1貝葉斯定理相關概念一個單變量正態分布密度函數為:其正態分布的概率密度函數如圖所示。與μ越近的值,其概率越大,反之,其概率值越小。σ描述數據分布的離散程度,σ越大,數據分布越分散,曲線越扁平;σ越小,數據分布越集中,曲線越瘦高。3.1貝葉斯決策理論基礎對于多變量的正態分布,假設特征向量是服從均值向量為、協方差矩陣為的n維正態分布,其中,類條件概率密度函數為:3.2樸素貝葉斯分類器原理與設計西瓜數據集如表3-1所示。3.2樸素貝葉斯分類器原理與設計假設我們要判斷第3條西瓜數據是否為好瓜,即:根據表3-1的西瓜數據集,有好瓜和壞瓜的先驗概率:假設各特征是相互獨立的,則有3.2樸素貝葉斯分類器原理與設計dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y=='好瓜') #好瓜的數量bad=np.sum(y=='壞瓜') #壞瓜的數量#好瓜和壞瓜的先驗概率prior_good=good/len(y)prior_bad=bad/len(y)3.2樸素貝葉斯分類器原理與設計3.2樸素貝葉斯分類器原理與設計顏色概率0.3750.333敲聲概率0.750.444紋路概率0.8750.222顏色概率0.50.222敲聲概率0.250.333紋路概率0.8750.222顏色概率0.50.222敲聲概率0.750.444紋路概率0.8750.222準確率88.24%3.2樸素貝葉斯分類器原理與設計為了解決零概率的問題,法國數學家拉普拉斯最早提出用加1的方法估計沒有出現過的現象的概率,因此這種平滑(Smoothing)方法也稱為拉普拉斯平滑(LaplacianSmoothing)。引入拉普拉斯平滑技術后,修正后的類先驗概率和類條件概率可表示為:樸素貝葉斯分類器的優點:(1)對小規模數據表現很好,能處理多分類任務;(2)算法比較簡單,常用于文本分類;(3)有穩定的分類效率,對缺失數據不太敏感;(4)適合增量式訓練,當數據量超出內存時,可一批一批讀取數據進行增量訓練。3.3樸素貝葉斯分類器算法實現從fish.xlsx文件中讀取鱸魚和三文魚的長度、亮度數據,其中,前n/2條數據為鱸魚,后n/2為三文魚,分別從鱸魚和三文魚數據中隨機取出50%作為訓練集,其余的50%作為測試集。13.3樸素貝葉斯分類器算法實現2生成三文魚和鱸魚的概率密度。根據生成長度和亮度數據,利用均值和方差公式直接計算長度和亮度特征的均值和方差。3.3樸素貝葉斯分類器算法實現3計算三文魚和鱸魚的后驗概率。根據得到三文魚和鱸魚的長度、亮度特征類條件概率,利用樸素貝葉斯公式計算出它們的后驗概率。3.3樸素貝葉斯分類器算法實現計算分類正確率。#假設長度和亮度是互相完全獨立的,根據樸素貝葉斯公式和聯合概率密度公式計算出鱸魚和三文魚的類條件概率,計算分類的正確率和錯誤率count1=0count2=0foriinrange(n//4):#長度特征post_length_pred1=stats.norm(perch_Mean_Length,perch_Variance_Length).pdf(perch_test[i,0])#將鱸魚分為鱸魚post_length_pred2=stats.norm(salmon_Mean_Length,salmon_Variance_Length).pdf(perch_test[i,0])#將鱸魚分為三文魚
precision_salmon:1.0precision_perch:0.834precision_bayes:0.91743.4正態貝葉斯分類器假設樣本的特征向量服從正態分布,則這樣的貝葉斯分類器就稱為正態貝葉斯分類器或高斯貝葉斯分類器。更一般地,樣本的特征并不是相互獨立的。根據分類判決規則,在預測時需要尋找具有最大條件概率值的那個類,即最大化后驗概率,等價于求每個類中最大的那個。對取對數,公式為:3.5貝葉斯網絡貝葉斯網絡(BayesianNetwork),又稱信念網絡(BeliefNetwork),是一種概率圖模型(ProbabilisticGraphicalModel,PGD),它是一種模擬人類推理過程中因果關系的不確定性處理模型,可通過有向無環圖(DirectedAcyclicGraph,DAG)來表示。3.5貝葉斯網絡假設:隨機變量w(weather):天氣隨機變量m(mood):心情隨機變量p(play):打羽毛球隨機變量r(restaurant):下餐館吃飯隨機變量f(film):看電影變量S對變量L和變量E有因果影響,而變量C對變量E也有因果影響。3.5貝葉斯網絡
#驗證模型:檢查網絡結構和CPD,并驗證CPD是否正確定義和總和為1model.check_model()#獲取結點“w(天氣情況)”的概率表:
print(model.get_cpds("w"))#獲取整個貝葉斯網絡的局部依賴:print(model.local_independencies(['p','r','f']))#推測“f(是否看電影)”的節點概率,在pgmpy中我們只需要省略額外參數即可計算出條件分布概率
infer=VariableElimination(model)print(infer.query(['f'],evidence={'p':1,'p':0}))#變量消除法是精確推斷的一種方法
asia_infer=VariableElimination(model)q=asia_infer.query(variables=['r'],evidence={'p':0})print(q)q=asia_infer.qu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南省耒陽市2025屆初三下學期第二次月考試題數學試題試卷含解析
- 遼寧省沈陽市一三四中學2025屆初三下學期周練試卷(四)生物試題含解析
- 山西省大同市左云縣東北小學校2024-2025學年數學四下期末學業水平測試試題含解析
- 吉林城市職業技術學院《Spss統計軟件》2023-2024學年第二學期期末試卷
- 山東政法學院《犯罪心理學專題》2023-2024學年第一學期期末試卷
- 皖北衛生職業學院《機械制圖Ⅰ》2023-2024學年第二學期期末試卷
- 上海市復旦附中2025屆高三補習班下學期第四次月考數學試題含解析
- 欽州幼兒師范高等專科學校《民族戲曲與說唱藝術》2023-2024學年第一學期期末試卷
- 山東省2025屆數學三下期末考試試題含解析
- 四川省棠湖中學2024-2025學年高三語文試題高考沖刺七含解析
- 部編版語文三年級下冊第六單元集體備課
- 成人腦室外引流護理-中華護理學會團體 標準
- 24年追覓在線測評28題及答案
- 職業本科《大學英語》課程標準
- 《陸上風電場工程概算定額》NBT 31010-2019
- 第五章 中國特色社會主義理論體系的形成發展(一)
- 單基因遺傳病的分子生物學檢驗-醫學院課件
- 公務攝影拍攝技巧分享課件
- BS EN ISO 15848-1-2015 工業閥-逸散性排放的測量、試驗和鑒定程序(中文)
- 英阿馬島戰爭
- 診所備案申請表格(衛健委備案)
評論
0/150
提交評論