人工智能算法與實(shí)踐-第8章 樸素貝葉斯_第1頁
人工智能算法與實(shí)踐-第8章 樸素貝葉斯_第2頁
人工智能算法與實(shí)踐-第8章 樸素貝葉斯_第3頁
人工智能算法與實(shí)踐-第8章 樸素貝葉斯_第4頁
人工智能算法與實(shí)踐-第8章 樸素貝葉斯_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

8.4算法總結(jié)8.1算法概述8.2算法原理8.3算法案例目錄第八章樸素貝葉斯算法人工智能算法與實(shí)踐—1

01算法概述PartTHREE—2

樸素貝葉斯方法是以貝葉斯原理和其它相關(guān)理論為基礎(chǔ)的,它使用概率統(tǒng)計(jì)的知識對樣本數(shù)據(jù)集進(jìn)行分類。基于其堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),貝葉斯分類算法的誤判率是很低的。貝葉斯方法的特點(diǎn)是結(jié)合先驗(yàn)概率和后驗(yàn)概率,即避免了只使用先驗(yàn)概率的主觀偏見,也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。貝葉斯分類算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率。8.1.1

算法簡介—3

8.1.2

貝葉斯決策理論—4

圖1兩類數(shù)據(jù)分布貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。貝葉斯決策就是在不完全情報(bào)下,對部分未知的狀態(tài)用主觀概率估計(jì),然后用貝葉斯公式對發(fā)生概率進(jìn)行修正,最后再利用期望值和修正概率做出最優(yōu)決策。假設(shè)現(xiàn)在我們有一個(gè)數(shù)據(jù)集,它由兩類數(shù)據(jù)組成,數(shù)據(jù)分布如圖1所示。我們現(xiàn)在用P1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別W1(圖中黃色圓點(diǎn)表示的類別)的概率,用P2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別W2(圖中藍(lán)色圓點(diǎn)表示的類別)的概率,那么對于一個(gè)新數(shù)據(jù)點(diǎn)(x,y),可以用下面的規(guī)則來判斷它的類別:如果P1(x,y)>P2(x,y),那么它的類別為W1如果P1(x,y)<P2(x,y),那么它的類別為W2綜上所述,我們會(huì)選擇高概率對應(yīng)的類別。這就是貝葉斯決策理論的核心思想,即選擇具有最高概率的決策。8.1.3

條件概率公式—5

所謂條件概率就是指在事件B發(fā)生的條件下,事件A發(fā)生的概率,用P(A|B)來表示。條件概率維恩圖如圖2所示。圖2條件概率維恩圖由圖2可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(AB)除以P(B),即因此同理可得所以8.1.4

貝葉斯定理—6

對條件概率公式進(jìn)行變形,可以得到如下所示的形式:這就是貝葉斯公式。把P(A)叫做“先驗(yàn)概率”(Priorprobability),即在B事件發(fā)生之前,對A事件概率的一個(gè)推斷。P(A|B)稱為“后驗(yàn)概率”(Posteriorprobability),即在B事件發(fā)生之后,對A事件概率的重新估計(jì)。P(B|A)/P(B)稱為“可能性函數(shù)”(Likelyhood)它是一個(gè)調(diào)整因子,使得預(yù)估概率更加接近真實(shí)概率。所以,條件概率也可以理解為下面的式子:后驗(yàn)概率=先驗(yàn)概率*調(diào)整因子

這就是貝葉斯定理的含義,先預(yù)估一個(gè)“先驗(yàn)概率”,然后加入實(shí)驗(yàn)結(jié)果,看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了“先驗(yàn)概率”,由此得到更接近事實(shí)的“后驗(yàn)概率”。在這里,如果可能性函數(shù)P(B|A)/P(B)>1,意味著“先驗(yàn)概率”被增強(qiáng),事件A的發(fā)生的可能性變大;如果“可能性函數(shù)”=1,意味著B事件無助于判斷事件A的可能性;如果“可能性函數(shù)”<1,意味著“先驗(yàn)概率”被削弱,事件A的可能性變小。

為了加深對貝葉斯定理的理解,來看一個(gè)例子。

8.1.4貝葉斯定理—7

圖3

示例圖

如圖3所示,有兩個(gè)一模一樣的碗,左邊碗里有30顆白色的糖和10顆黃色的糖,右邊碗里有白色糖和黃色糖各20顆?,F(xiàn)在隨機(jī)選擇一個(gè)碗,從中摸出一顆糖,發(fā)現(xiàn)是白色糖,請問這顆白色糖來自左邊碗的概率有多大。

假定W1表示左邊的碗,W2表示右邊的碗。由于這兩個(gè)碗是完全一樣的,因此P(W1)=P(W2),也就是說,在取出白色糖之前,這兩個(gè)碗被選中的概率是相同的。因此,左邊的碗被選中的概率P(W1)=0.5,我們把這個(gè)概率就稱為“先驗(yàn)概率”,即沒有做實(shí)驗(yàn)之前,來自左邊碗的概率是0.5。

再假定,X表示白色糖,所以問題就變成了在已知X的情況下,來自左邊碗的概率有多大,即求P(W1|X)。這個(gè)概率稱為“后驗(yàn)概率”,即在事件X發(fā)生之后,對P(W1)的修正。8.1.4

貝葉斯定理—8

根據(jù)貝葉斯公式,有:

已知,P(W1)等于0.5,P(X|W1)為從左邊碗中取白色糖的概率,等于30÷(30+10)=0.75,那么求出P(X)就能夠得到答案。根據(jù)全概率公式,有:所以,將P(X)的值代入貝葉斯公式,得到:這表明,來自左邊碗的概率是0.6。也就是說,取出白色糖之后,W1事件的可能性得到了增強(qiáng)。8.1.5

樸素貝葉斯定理—9

理解了貝葉斯定理,那么讓我們繼續(xù)看看樸素貝葉斯定理。貝葉斯和樸素貝葉斯的概念是不同的,區(qū)別就在于“樸素”二字,樸素貝葉斯對條件概率分布做了條件獨(dú)立性的假設(shè)。比如下面的公式,假設(shè)有n個(gè)特征:這由于每個(gè)特征都是獨(dú)立的,我們可以進(jìn)一步拆分公式:這樣就可以進(jìn)行運(yùn)算了。

02算法原理PartTHREE—10

算法原理詳解—11

數(shù)據(jù)預(yù)處理,獲取訓(xùn)練樣本計(jì)算每個(gè)類別出現(xiàn)的概率計(jì)算每個(gè)類別條件下每個(gè)屬性值出現(xiàn)的概率對每個(gè)屬性組合計(jì)算其所屬類別的概率選擇最大概率值作為該條數(shù)據(jù)的推測結(jié)果輸出準(zhǔn)備階段貝葉斯分類器學(xué)習(xí)階段推測階段圖4

算法流程圖算法原理詳解—12

算法原理詳解—13

03算法案例PartTHREE—14

8.3.1

樸素貝葉斯分類器—15

樸素貝葉斯分類器是以貝葉斯定理為基礎(chǔ)的一系列簡單概率分類器,所謂“樸素”是指采用了特征之間獨(dú)立性假設(shè)。該分類器模型會(huì)給問題實(shí)例分配用特征值表示的類標(biāo)簽,類標(biāo)簽取自有限集合。它不是訓(xùn)練這種分類器的單一算法,而是一系列基于相同原理的算法。所有樸素貝葉斯分類器都假定樣本每個(gè)特征與其他特征都不相關(guān)。8.3.2

樸素貝葉斯實(shí)現(xiàn)輿情判別—16

樸素貝葉斯的一個(gè)重要應(yīng)用就是屏蔽不恰當(dāng)?shù)难哉?。在現(xiàn)實(shí)生活中,信息過濾是一個(gè)很常見的需求。為了營造健康文明的網(wǎng)絡(luò)環(huán)境,需要對侮辱性的言論進(jìn)行屏蔽,這時(shí)可以通過構(gòu)建一個(gè)言論過濾器來實(shí)現(xiàn)。如果某條留言使用了負(fù)面或者侮辱性的語言,那么就將該留言標(biāo)記為內(nèi)容不當(dāng)。對此問題設(shè)定兩個(gè)類型:侮辱類和非侮辱類,分別使用1和0來表示。8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—17

為了處理方便,把文本看成詞條向量,即將句子轉(zhuǎn)換為向量的形式。首先考慮所有文檔中出現(xiàn)的單詞,然后決定將哪些單詞納入詞匯表,再將每一篇文檔轉(zhuǎn)換為詞匯表上的向量。簡單起見,先假設(shè)已經(jīng)將本文切分完畢,存放到列表中,并對詞匯向量進(jìn)行分類標(biāo)注。代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—18

運(yùn)行結(jié)果如圖5所示。圖5詞條列表從運(yùn)行結(jié)果可以得知,已經(jīng)將切分好的詞條放在了postingList列表中,classVec則存放了每個(gè)詞條所對應(yīng)的類別,其中有3個(gè)詞條是侮辱類,3個(gè)詞條是非侮辱類。接下來創(chuàng)建一個(gè)詞匯表,并將切分好的詞條轉(zhuǎn)換為詞條向量,核心代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—19

8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—20

運(yùn)行結(jié)果如圖6所示。圖6

詞匯表及詞條向量從運(yùn)行結(jié)果可以看出,myVocabList便是所創(chuàng)建的詞匯表,它存儲(chǔ)了所有出現(xiàn)過的單詞,并且不重復(fù),它的作用就是將詞條向量化。如果這個(gè)單詞在詞匯表中出現(xiàn)過一次那么就在相應(yīng)位置標(biāo)記1,如果沒有出現(xiàn)就在相應(yīng)位置標(biāo)記0。trainMat是所有詞條向量組成的列表,它里面存放了myVocabList向量化的詞條向量。8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—21

然后就可以通過詞條向量來訓(xùn)練樸素貝葉斯分類器了,核心代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—22

運(yùn)行結(jié)果如圖7所示。p0V存放的是每個(gè)單詞屬于類別0的概率,即非侮辱類單詞的概率。例如myVocabList列表中的倒數(shù)第9個(gè)單詞是worthless,觀察它在p0V中的相應(yīng)位置,可以看到這個(gè)單詞屬于非侮辱類的概率為0。再觀察它在p1V中的位置,發(fā)現(xiàn)概率為0.105,即是10.5%,也就是worthless這個(gè)單詞屬于侮辱類的概率為10.5%。worthless的中文意思是沒用的,顯而易見,這個(gè)單詞屬于侮辱類。pAb是所有侮辱類的樣本占總樣本的概率,即先驗(yàn)概率。從classVec中可以看出,一共有3個(gè)侮辱類,3個(gè)非侮辱類,所以侮辱類的概率就是0.5。p0V存放的是各個(gè)單詞屬于非侮辱類的條件概率,p1V存放的是各個(gè)單詞屬于侮辱類的條件概率。圖7

訓(xùn)練結(jié)果圖8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—23

訓(xùn)練好了分類器,接下來就是使用分類器進(jìn)行分類,代碼如下:8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—24

實(shí)驗(yàn)測試了兩個(gè)詞條,同樣地,在使用樸素貝葉斯分類器之前,已經(jīng)對詞條進(jìn)行了向量化,然后使用classifyNB()函數(shù),用樸素貝葉斯公式,計(jì)算向量屬于侮辱類和非侮辱類的概率。運(yùn)行結(jié)果如圖8所示。圖8

測試結(jié)果圖從運(yùn)行結(jié)果可以看出,已經(jīng)將詞條進(jìn)行了正確的分類。上述實(shí)例說明,運(yùn)用樸素貝葉斯能成功地屏蔽侮辱性言論,這對建設(shè)文明網(wǎng)絡(luò)環(huán)境有著極其重要的意義。不難看出,樸素貝葉斯算法雖然簡單,但它在現(xiàn)實(shí)生活中應(yīng)用廣泛,對決策和分類幫助很大。04算法總結(jié)PartTHREE—25

算法總結(jié)—26

優(yōu)點(diǎn)樸素貝葉斯算法假設(shè)了數(shù)據(jù)集各個(gè)屬性之間是相互獨(dú)立的,因此該算法的邏輯性較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論