人工智能算法與實(shí)踐-第8章樸素貝葉斯

上傳人：1*** IP屬地：上海上傳時(shí)間：2024-10-28 格式：PPTX 頁數(shù)：27 大?。?.01MB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

8.4算法總結(jié)8.1算法概述8.2算法原理8.3算法案例目錄第八章樸素貝葉斯算法人工智能算法與實(shí)踐—1

—

01算法概述PartTHREE—2

—

樸素貝葉斯方法是以貝葉斯原理和其它相關(guān)理論為基礎(chǔ)的，它使用概率統(tǒng)計(jì)的知識對樣本數(shù)據(jù)集進(jìn)行分類。基于其堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，貝葉斯分類算法的誤判率是很低的。貝葉斯方法的特點(diǎn)是結(jié)合先驗(yàn)概率和后驗(yàn)概率，即避免了只使用先驗(yàn)概率的主觀偏見，也避免了單獨(dú)使用樣本信息的過擬合現(xiàn)象。貝葉斯分類算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率。8.1.1

算法簡介—3

—

8.1.2

貝葉斯決策理論—4

—

圖1兩類數(shù)據(jù)分布貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。貝葉斯決策就是在不完全情報(bào)下，對部分未知的狀態(tài)用主觀概率估計(jì)，然后用貝葉斯公式對發(fā)生概率進(jìn)行修正，最后再利用期望值和修正概率做出最優(yōu)決策。假設(shè)現(xiàn)在我們有一個(gè)數(shù)據(jù)集，它由兩類數(shù)據(jù)組成，數(shù)據(jù)分布如圖1所示。我們現(xiàn)在用P1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別W1(圖中黃色圓點(diǎn)表示的類別)的概率，用P2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別W2(圖中藍(lán)色圓點(diǎn)表示的類別)的概率，那么對于一個(gè)新數(shù)據(jù)點(diǎn)(x,y)，可以用下面的規(guī)則來判斷它的類別：如果P1(x,y)>P2(x,y)，那么它的類別為W1如果P1(x,y)<P2(x,y)，那么它的類別為W2綜上所述，我們會(huì)選擇高概率對應(yīng)的類別。這就是貝葉斯決策理論的核心思想，即選擇具有最高概率的決策。8.1.3

條件概率公式—5

—

所謂條件概率就是指在事件B發(fā)生的條件下，事件A發(fā)生的概率，用P(A|B)來表示。條件概率維恩圖如圖2所示。圖2條件概率維恩圖由圖2可以很清楚地看到在事件B發(fā)生的情況下，事件A發(fā)生的概率就是P(AB)除以P(B)，即因此同理可得所以8.1.4

貝葉斯定理—6

—

對條件概率公式進(jìn)行變形，可以得到如下所示的形式：這就是貝葉斯公式。把P(A)叫做“先驗(yàn)概率”（Priorprobability），即在B事件發(fā)生之前，對A事件概率的一個(gè)推斷。P(A|B)稱為“后驗(yàn)概率”(Posteriorprobability)，即在B事件發(fā)生之后，對A事件概率的重新估計(jì)。P(B|A)/P(B)稱為“可能性函數(shù)”(Likelyhood)它是一個(gè)調(diào)整因子，使得預(yù)估概率更加接近真實(shí)概率。所以，條件概率也可以理解為下面的式子：后驗(yàn)概率=先驗(yàn)概率*調(diào)整因子

這就是貝葉斯定理的含義，先預(yù)估一個(gè)“先驗(yàn)概率”，然后加入實(shí)驗(yàn)結(jié)果，看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了“先驗(yàn)概率”，由此得到更接近事實(shí)的“后驗(yàn)概率”。在這里，如果可能性函數(shù)P(B|A)/P(B)>1，意味著“先驗(yàn)概率”被增強(qiáng)，事件A的發(fā)生的可能性變大；如果“可能性函數(shù)”=1，意味著B事件無助于判斷事件A的可能性；如果“可能性函數(shù)”<1，意味著“先驗(yàn)概率”被削弱，事件A的可能性變小。

為了加深對貝葉斯定理的理解，來看一個(gè)例子。

8.1.4貝葉斯定理—7

—

圖3

示例圖

如圖3所示，有兩個(gè)一模一樣的碗，左邊碗里有30顆白色的糖和10顆黃色的糖，右邊碗里有白色糖和黃色糖各20顆?，F(xiàn)在隨機(jī)選擇一個(gè)碗，從中摸出一顆糖，發(fā)現(xiàn)是白色糖，請問這顆白色糖來自左邊碗的概率有多大。

假定W1表示左邊的碗，W2表示右邊的碗。由于這兩個(gè)碗是完全一樣的，因此P(W1)=P(W2)，也就是說，在取出白色糖之前，這兩個(gè)碗被選中的概率是相同的。因此，左邊的碗被選中的概率P(W1)=0.5，我們把這個(gè)概率就稱為“先驗(yàn)概率”，即沒有做實(shí)驗(yàn)之前，來自左邊碗的概率是0.5。

再假定，X表示白色糖，所以問題就變成了在已知X的情況下，來自左邊碗的概率有多大，即求P(W1|X)。這個(gè)概率稱為“后驗(yàn)概率”，即在事件X發(fā)生之后，對P(W1)的修正。8.1.4

貝葉斯定理—8

—

根據(jù)貝葉斯公式，有：

已知，P(W1)等于0.5，P(X|W1)為從左邊碗中取白色糖的概率，等于30÷(30+10)=0.75，那么求出P(X)就能夠得到答案。根據(jù)全概率公式，有：所以，將P(X)的值代入貝葉斯公式，得到：這表明，來自左邊碗的概率是0.6。也就是說，取出白色糖之后，W1事件的可能性得到了增強(qiáng)。8.1.5

樸素貝葉斯定理—9

—

理解了貝葉斯定理，那么讓我們繼續(xù)看看樸素貝葉斯定理。貝葉斯和樸素貝葉斯的概念是不同的，區(qū)別就在于“樸素”二字，樸素貝葉斯對條件概率分布做了條件獨(dú)立性的假設(shè)。比如下面的公式，假設(shè)有n個(gè)特征：這由于每個(gè)特征都是獨(dú)立的，我們可以進(jìn)一步拆分公式:這樣就可以進(jìn)行運(yùn)算了。

02算法原理PartTHREE—10

—

算法原理詳解—11

—

數(shù)據(jù)預(yù)處理，獲取訓(xùn)練樣本計(jì)算每個(gè)類別出現(xiàn)的概率計(jì)算每個(gè)類別條件下每個(gè)屬性值出現(xiàn)的概率對每個(gè)屬性組合計(jì)算其所屬類別的概率選擇最大概率值作為該條數(shù)據(jù)的推測結(jié)果輸出準(zhǔn)備階段貝葉斯分類器學(xué)習(xí)階段推測階段圖4

算法流程圖算法原理詳解—12

—

算法原理詳解—13

—

03算法案例PartTHREE—14

—

8.3.1

樸素貝葉斯分類器—15

—

樸素貝葉斯分類器是以貝葉斯定理為基礎(chǔ)的一系列簡單概率分類器，所謂“樸素”是指采用了特征之間獨(dú)立性假設(shè)。該分類器模型會(huì)給問題實(shí)例分配用特征值表示的類標(biāo)簽，類標(biāo)簽取自有限集合。它不是訓(xùn)練這種分類器的單一算法，而是一系列基于相同原理的算法。所有樸素貝葉斯分類器都假定樣本每個(gè)特征與其他特征都不相關(guān)。8.3.2

樸素貝葉斯實(shí)現(xiàn)輿情判別—16

—

樸素貝葉斯的一個(gè)重要應(yīng)用就是屏蔽不恰當(dāng)?shù)难哉?。在現(xiàn)實(shí)生活中，信息過濾是一個(gè)很常見的需求。為了營造健康文明的網(wǎng)絡(luò)環(huán)境，需要對侮辱性的言論進(jìn)行屏蔽，這時(shí)可以通過構(gòu)建一個(gè)言論過濾器來實(shí)現(xiàn)。如果某條留言使用了負(fù)面或者侮辱性的語言，那么就將該留言標(biāo)記為內(nèi)容不當(dāng)。對此問題設(shè)定兩個(gè)類型：侮辱類和非侮辱類，分別使用1和0來表示。8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—17

—

為了處理方便，把文本看成詞條向量，即將句子轉(zhuǎn)換為向量的形式。首先考慮所有文檔中出現(xiàn)的單詞，然后決定將哪些單詞納入詞匯表，再將每一篇文檔轉(zhuǎn)換為詞匯表上的向量。簡單起見，先假設(shè)已經(jīng)將本文切分完畢，存放到列表中，并對詞匯向量進(jìn)行分類標(biāo)注。代碼如下：8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—18

—

運(yùn)行結(jié)果如圖5所示。圖5詞條列表從運(yùn)行結(jié)果可以得知，已經(jīng)將切分好的詞條放在了postingList列表中，classVec則存放了每個(gè)詞條所對應(yīng)的類別，其中有3個(gè)詞條是侮辱類，3個(gè)詞條是非侮辱類。接下來創(chuàng)建一個(gè)詞匯表，并將切分好的詞條轉(zhuǎn)換為詞條向量，核心代碼如下：8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—19

—

8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—20

—

運(yùn)行結(jié)果如圖6所示。圖6

詞匯表及詞條向量從運(yùn)行結(jié)果可以看出，myVocabList便是所創(chuàng)建的詞匯表，它存儲(chǔ)了所有出現(xiàn)過的單詞，并且不重復(fù)，它的作用就是將詞條向量化。如果這個(gè)單詞在詞匯表中出現(xiàn)過一次那么就在相應(yīng)位置標(biāo)記1，如果沒有出現(xiàn)就在相應(yīng)位置標(biāo)記0。trainMat是所有詞條向量組成的列表，它里面存放了myVocabList向量化的詞條向量。8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—21

—

然后就可以通過詞條向量來訓(xùn)練樸素貝葉斯分類器了，核心代碼如下：8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—22

—

運(yùn)行結(jié)果如圖7所示。p0V存放的是每個(gè)單詞屬于類別0的概率，即非侮辱類單詞的概率。例如myVocabList列表中的倒數(shù)第9個(gè)單詞是worthless，觀察它在p0V中的相應(yīng)位置，可以看到這個(gè)單詞屬于非侮辱類的概率為0。再觀察它在p1V中的位置，發(fā)現(xiàn)概率為0.105，即是10.5%，也就是worthless這個(gè)單詞屬于侮辱類的概率為10.5%。worthless的中文意思是沒用的，顯而易見，這個(gè)單詞屬于侮辱類。pAb是所有侮辱類的樣本占總樣本的概率，即先驗(yàn)概率。從classVec中可以看出，一共有3個(gè)侮辱類，3個(gè)非侮辱類，所以侮辱類的概率就是0.5。p0V存放的是各個(gè)單詞屬于非侮辱類的條件概率，p1V存放的是各個(gè)單詞屬于侮辱類的條件概率。圖7

訓(xùn)練結(jié)果圖8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—23

—

訓(xùn)練好了分類器，接下來就是使用分類器進(jìn)行分類，代碼如下：8.3.2樸素貝葉斯實(shí)現(xiàn)輿情判別—24

—

實(shí)驗(yàn)測試了兩個(gè)詞條，同樣地，在使用樸素貝葉斯分類器之前，已經(jīng)對詞條進(jìn)行了向量化，然后使用classifyNB()函數(shù)，用樸素貝葉斯公式，計(jì)算向量屬于侮辱類和非侮辱類的概率。運(yùn)行結(jié)果如圖8所示。圖8

測試結(jié)果圖從運(yùn)行結(jié)果可以看出，已經(jīng)將詞條進(jìn)行了正確的分類。上述實(shí)例說明，運(yùn)用樸素貝葉斯能成功地屏蔽侮辱性言論，這對建設(shè)文明網(wǎng)絡(luò)環(huán)境有著極其重要的意義。不難看出，樸素貝葉斯算法雖然簡單，但它在現(xiàn)實(shí)生活中應(yīng)用廣泛，對決策和分類幫助很大。04算法總結(jié)PartTHREE—25

—

算法總結(jié)—26

—

優(yōu)點(diǎn)樸素貝葉斯算法假設(shè)了數(shù)據(jù)集各個(gè)屬性之間是相互獨(dú)立的，因此該算法的邏輯性較

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 建筑水利

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

人工智能算法與實(shí)踐-第8章樸素貝葉斯

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

人工智能算法與實(shí)踐-第8章 樸素貝葉斯

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能算法與實(shí)踐-第8章樸素貝葉斯