




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
8.4算法總結(jié)8.1算法概述8.2算法原理8.3算法案例目錄第八章樸素貝葉斯算法人工智能算法與實(shí)踐—1
—
01算法概述PartTHREE—2
—
樸素貝葉斯方法是以貝葉斯原理和其它相關(guān)理論為基礎(chǔ)的,它使用概率統(tǒng)計(jì)的知識對樣本數(shù)據(jù)集進(jìn)行分類。基于其堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),貝葉斯分類算法的誤判率是很低的。貝葉斯方法的特點(diǎn)是結(jié)合先驗(yàn)概率和后驗(yàn)概率,即避免了只使用先驗(yàn)概率的主觀偏見,也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。貝葉斯分類算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率。8.1.1
算法簡介—3
—
8.1.2
貝葉斯決策理論—4
—
圖1兩類數(shù)據(jù)分布貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。貝葉斯決策就是在不完全情報(bào)下,對部分未知的狀態(tài)用主觀概率估計(jì),然后用貝葉斯公式對發(fā)生概率進(jìn)行修正,最后再利用期望值和修正概率做出最優(yōu)決策。假設(shè)現(xiàn)在我們有一個(gè)數(shù)據(jù)集,它由兩類數(shù)據(jù)組成,數(shù)據(jù)分布如圖1所示。我們現(xiàn)在用P1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別W1(圖中黃色圓點(diǎn)表示的類別)的概率,用P2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別W2(圖中藍(lán)色圓點(diǎn)表示的類別)的概率,那么對于一個(gè)新數(shù)據(jù)點(diǎn)(x,y),可以用下面的規(guī)則來判斷它的類別:如果P1(x,y)>P2(x,y),那么它的類別為W1如果P1(x,y)<P2(x,y),那么它的類別為W2綜上所述,我們會(huì)選擇高概率對應(yīng)的類別。這就是貝葉斯決策理論的核心思想,即選擇具有最高概率的決策。8.1.3
條件概率公式—5
—
所謂條件概率就是指在事件B發(fā)生的條件下,事件A發(fā)生的概率,用P(A|B)來表示。條件概率維恩圖如圖2所示。圖2條件概率維恩圖由圖2可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(AB)除以P(B),即因此同理可得所以8.1.4
貝葉斯定理—6
—
對條件概率公式進(jìn)行變形,可以得到如下所示的形式:這就是貝葉斯公式。把P(A)叫做“先驗(yàn)概率”(Priorprobability),即在B事件發(fā)生之前,對A事件概率的一個(gè)推斷。P(A|B)稱為“后驗(yàn)概率”(Posteriorprobability),即在B事件發(fā)生之后,對A事件概率的重新估計(jì)。P(B|A)/P(B)稱為“可能性函數(shù)”(Likelyhood)它是一個(gè)調(diào)整因子,使得預(yù)估概率更加接近真實(shí)概率。所以,條件概率也可以理解為下面的式子:后驗(yàn)概率=先驗(yàn)概率*調(diào)整因子
這就是貝葉斯定理的含義,先預(yù)估一個(gè)“先驗(yàn)概率”,然后加入實(shí)驗(yàn)結(jié)果,看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了“先驗(yàn)概率”,由此得到更接近事實(shí)的“后驗(yàn)概率”。在這里,如果可能性函數(shù)P(B|A)/P(B)>1,意味著“先驗(yàn)概率”被增強(qiáng),事件A的發(fā)生的可能性變大;如果“可能性函數(shù)”=1,意味著B事件無助于判斷事件A的可能性;如果“可能性函數(shù)”<1,意味著“先驗(yàn)概率”被削弱,事件A的可能性變小。
為了加深對貝葉斯定理的理解,來看一個(gè)例子。
8.1.4貝葉斯定理—7
—
圖3
示例圖
如圖3所示,有兩個(gè)一模一樣的碗,左邊碗里有30顆白色的糖和10顆黃色的糖,右邊碗里有白色糖和黃色糖各20顆?,F(xiàn)在隨機(jī)選擇一個(gè)碗,從中摸出一顆糖,發(fā)現(xiàn)是白色糖,請問這顆白色糖來自左邊碗的概率有多大。
假定W1表示左邊的碗,W2表示右邊的碗。由于這兩個(gè)碗是完全一樣的,因此P(W1)=P(W2),也就是說,在取出白色糖之前,這兩個(gè)碗被選中的概率是相同的。因此,左邊的碗被選中的概率P(W1)=0.5,我們把這個(gè)概率就稱為“先驗(yàn)概率”,即沒有做實(shí)驗(yàn)之前,來自左邊碗的概率是0.5。
再假定,X表示白色糖,所以問題就變成了在已知X的情況下,來自左邊碗的概率有多大,即求P(W1|X)。這個(gè)概率稱為“后驗(yàn)概率”,即在事件X發(fā)生之后,對P(W1)的修正。8.1.4
貝葉斯定理—8
—
根據(jù)貝葉斯公式,有:
已知,P(W1)等于0.5,P(X|W1)為從左邊碗中取白色糖的概率,等于30÷(30+10)=0.75,那么求出P(X)就能夠得到答案。根據(jù)全概率公式,有:所以,將P(X)的值代入貝葉斯公式,得到:這表明,來自左邊碗的概率是0.6。也就是說,取出白色糖之后,W1事件的可能性得到了增強(qiáng)。8.1.5
樸素貝葉斯定理—9
—
理解了貝葉斯定理,那么讓我們繼續(xù)看看樸素貝葉斯定理。貝葉斯和樸素貝葉斯的概念是不同的,區(qū)別就在于“樸素”二字,樸素貝葉斯對條件概率分布做了條件獨(dú)立性的假設(shè)。比如下面的公式,假設(shè)有n個(gè)特征:這由于每個(gè)特征都是獨(dú)立的,我們可以進(jìn)一步拆分公式:這樣就可以進(jìn)行運(yùn)算了。
02算法原理PartTHREE—10
—
算法原理詳解—11
—
數(shù)據(jù)預(yù)處理,獲取訓(xùn)練樣本計(jì)算每個(gè)類別出現(xiàn)的概率計(jì)算每個(gè)類別條件下每個(gè)屬性值出現(xiàn)的概率對每個(gè)屬性組合計(jì)算其所屬類別的概率選擇最大概率值作為該條數(shù)據(jù)的推測結(jié)果輸出準(zhǔn)備階段貝葉斯分類器學(xué)習(xí)階段推測階段圖4
算法流程圖算法原理詳解—12
—
算法原理詳解—13
—
03算法案例PartTHREE—14
—
8.3.1
樸素貝葉斯分類器—15
—
樸素貝葉斯分類器是以貝葉斯定理為基礎(chǔ)的一系列簡單概率分類器,所謂“樸素”是指采用了特征之間獨(dú)立性假設(shè)。該分類器模型會(huì)給問題實(shí)例分配用特征值表示的類標(biāo)簽,類標(biāo)簽取自有限集合。它不是訓(xùn)練這種分類器的單一算法,而是一系列基于相同原理的算法。所有樸素貝葉斯分類器都假定樣本每個(gè)特征與其他特征都不相關(guān)。8.3.2
樸素貝葉斯實(shí)現(xiàn)輿情判別—16
—
樸素貝葉斯的一個(gè)重要應(yīng)用就是屏蔽不恰當(dāng)?shù)难哉?。在現(xiàn)實(shí)生活中,信息過濾是一個(gè)很常見的需求。為了營造健康文明的網(wǎng)絡(luò)環(huán)境,需要對侮辱性的言論進(jìn)行屏蔽,這時(shí)可以通過構(gòu)建一個(gè)言論過濾器來實(shí)現(xiàn)。如果某條留言使用了負(fù)面或者侮辱性的語言,那么就將該留言標(biāo)記為內(nèi)容不當(dāng)。對此問題設(shè)定兩個(gè)類型:侮辱類和非侮辱類,分別使用1和0來表示。8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—17
—
為了處理方便,把文本看成詞條向量,即將句子轉(zhuǎn)換為向量的形式。首先考慮所有文檔中出現(xiàn)的單詞,然后決定將哪些單詞納入詞匯表,再將每一篇文檔轉(zhuǎn)換為詞匯表上的向量。簡單起見,先假設(shè)已經(jīng)將本文切分完畢,存放到列表中,并對詞匯向量進(jìn)行分類標(biāo)注。代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—18
—
運(yùn)行結(jié)果如圖5所示。圖5詞條列表從運(yùn)行結(jié)果可以得知,已經(jīng)將切分好的詞條放在了postingList列表中,classVec則存放了每個(gè)詞條所對應(yīng)的類別,其中有3個(gè)詞條是侮辱類,3個(gè)詞條是非侮辱類。接下來創(chuàng)建一個(gè)詞匯表,并將切分好的詞條轉(zhuǎn)換為詞條向量,核心代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—19
—
8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—20
—
運(yùn)行結(jié)果如圖6所示。圖6
詞匯表及詞條向量從運(yùn)行結(jié)果可以看出,myVocabList便是所創(chuàng)建的詞匯表,它存儲(chǔ)了所有出現(xiàn)過的單詞,并且不重復(fù),它的作用就是將詞條向量化。如果這個(gè)單詞在詞匯表中出現(xiàn)過一次那么就在相應(yīng)位置標(biāo)記1,如果沒有出現(xiàn)就在相應(yīng)位置標(biāo)記0。trainMat是所有詞條向量組成的列表,它里面存放了myVocabList向量化的詞條向量。8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—21
—
然后就可以通過詞條向量來訓(xùn)練樸素貝葉斯分類器了,核心代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—22
—
運(yùn)行結(jié)果如圖7所示。p0V存放的是每個(gè)單詞屬于類別0的概率,即非侮辱類單詞的概率。例如myVocabList列表中的倒數(shù)第9個(gè)單詞是worthless,觀察它在p0V中的相應(yīng)位置,可以看到這個(gè)單詞屬于非侮辱類的概率為0。再觀察它在p1V中的位置,發(fā)現(xiàn)概率為0.105,即是10.5%,也就是worthless這個(gè)單詞屬于侮辱類的概率為10.5%。worthless的中文意思是沒用的,顯而易見,這個(gè)單詞屬于侮辱類。pAb是所有侮辱類的樣本占總樣本的概率,即先驗(yàn)概率。從classVec中可以看出,一共有3個(gè)侮辱類,3個(gè)非侮辱類,所以侮辱類的概率就是0.5。p0V存放的是各個(gè)單詞屬于非侮辱類的條件概率,p1V存放的是各個(gè)單詞屬于侮辱類的條件概率。圖7
訓(xùn)練結(jié)果圖8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—23
—
訓(xùn)練好了分類器,接下來就是使用分類器進(jìn)行分類,代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—24
—
實(shí)驗(yàn)測試了兩個(gè)詞條,同樣地,在使用樸素貝葉斯分類器之前,已經(jīng)對詞條進(jìn)行了向量化,然后使用classifyNB()函數(shù),用樸素貝葉斯公式,計(jì)算向量屬于侮辱類和非侮辱類的概率。運(yùn)行結(jié)果如圖8所示。圖8
測試結(jié)果圖從運(yùn)行結(jié)果可以看出,已經(jīng)將詞條進(jìn)行了正確的分類。上述實(shí)例說明,運(yùn)用樸素貝葉斯能成功地屏蔽侮辱性言論,這對建設(shè)文明網(wǎng)絡(luò)環(huán)境有著極其重要的意義。不難看出,樸素貝葉斯算法雖然簡單,但它在現(xiàn)實(shí)生活中應(yīng)用廣泛,對決策和分類幫助很大。04算法總結(jié)PartTHREE—25
—
算法總結(jié)—26
—
優(yōu)點(diǎn)樸素貝葉斯算法假設(shè)了數(shù)據(jù)集各個(gè)屬性之間是相互獨(dú)立的,因此該算法的邏輯性較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)工作年度工作計(jì)劃
- 派遣工勞動(dòng)法律法規(guī)普及活動(dòng)組織與效果評估反饋考核試卷
- 可穿戴設(shè)備在噪音監(jiān)測與控制中的作用考核試卷
- 洗浴服務(wù)行業(yè)市場準(zhǔn)入門檻調(diào)整策略考核試卷
- 珠寶工藝與款式創(chuàng)新考核試卷
- 木片加工中的生產(chǎn)設(shè)備維護(hù)考核試卷
- 電氣機(jī)械設(shè)備的節(jié)能與環(huán)保技術(shù)考核試卷
- 電池輕薄化設(shè)計(jì)考核試卷
- 建材批發(fā)商供應(yīng)鏈戰(zhàn)略資源配置優(yōu)化策略執(zhí)行考核試卷
- 2025年勞動(dòng)合同自動(dòng)解除協(xié)議書樣本
- 2025屆上海市浦東新區(qū)高三二模英語試卷(含答案)
- 開曼群島公司法2024版中文譯本(含2024年修訂主要內(nèi)容)
- 【MOOC】航空燃?xì)鉁u輪發(fā)動(dòng)機(jī)結(jié)構(gòu)設(shè)計(jì)-北京航空航天大學(xué) 中國大學(xué)慕課MOOC答案
- 2024年4月自考00150金融理論與實(shí)務(wù)試題及答案
- 工程變更通知單ECN模板-20220213
- 問題解決過程PSP-完整版
- 2024年海南發(fā)展控股有限公司招聘筆試參考題庫含答案解析
- 愚公移山英文 -中國故事英文版課件
- 裝修行業(yè)資源整合主材合作協(xié)議
- 儲(chǔ)油罐施工專業(yè)技術(shù)方案
- 動(dòng)力電計(jì)量網(wǎng)絡(luò)圖. - 能源計(jì)量網(wǎng)絡(luò)圖范例三
評論
0/150
提交評論