




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
HUNANUNIVERSITY人工智能實驗報告題 目實驗三:分類算法實驗學生姓名 匿名學生學號 2013080702xx專業班級智能科學與技術1302班指導老師袁進實驗目的了解樸素貝葉斯算法的基本原理;能夠使用樸素貝葉斯算法對數據進行分類了解最小錯誤概率貝葉斯分類器和最小風險概率貝葉斯分類器學會對于分類器的性能評估方法二、 實驗的硬件、軟件平臺硬件:計算機軟件:操作系統:WINDOWS10應用軟件:C,Java或者Matlab相關知識點:貝葉斯定理:P(A\B)表示事件B已經發生的前提下,事件A發生的概率,叫做事件B發生下事件A的條件概率,其基本求解公式為: .." ___一貝葉斯定理打通了從P(A|B)獲得P(B|A)的道路。直接給出貝葉斯定理:P[B\^=樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。樸素貝葉斯分類的正式定義如下:1、設卷…契"Sw”松」為一個待分類項,而每個a為x的一個特征屬性。2、 有類別集合°={皿如f如}。3、計算玖p(如辮….月斑肉。4、 如果pg初=睥「{0饑"尸(時口…ew,則m弘。那么現在的關鍵就是如何計算第3步中的各個條件概率。我們可以這么做:1、找到一個已知分類的待分類項集合,這個集合叫做訓練樣本集。2、 統計得到在各類別下各個特征屬性的條件概率估計。即P(d血、「㈣“rP(%M);P(q|況,「㈣翩…普必洞;…;刊做眼.尸廚叫一,P(如麻)3、 如果各個特征屬性是條件獨立的,則根據貝葉斯定理有如下推導:因為分母對于所有類別為常數,因為我們只要將分子最大化皆可。又因為各特征屬性是條件獨立mP{x\yi)P(yi)=P(如必尹(御甜)…P(0m|lfi)REfe)=『(%)「[的,所以有:整個樸素貝葉斯分類分為三個階段:第一階段:準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。第二階段:分類器訓練階段,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計, 并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械性階段,根據前面討論的公式可以由程序自動計算完成。第三階段:應用階段。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。在備工作階段分奏器訓練階段分奏器訓練階段應用階同三、實驗內容及步驟實驗內容:利用貝葉斯算法進行數據分類操作, 并統計其預測正確率,數據集:汽車評估數據集(learn作為學習集,test作為測試集合)隨機產生10000組正樣本和20000負樣本高斯分布的數據集合(維數設為二維),要求正樣本:均值為[1;3],方差為[20;02];負樣本:均值為[10;20],方差為[100;010].先驗概率按樣本量設定為1/3和2/3.分別利用最小錯誤概率貝葉斯分類器和最小風險概率貝葉斯分類器對其分類。(假設風險程度正樣本分錯風險系數為 0.6,負樣本分錯風險為0.4,該設定僅用于最小風險分析)相關概念:貝葉斯法則,先驗概率,后驗概率,最大后驗概率貝葉斯法則機器學習的任務:在給定訓練數據 D時,確定假設空間H中的最佳假設。最佳假設:一種方法是把它定義為在給定數據 D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯精品資料理論提供了一種計算假設概率的方法,基于假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身。先驗概率和后驗概率用P(h)表示在沒有訓練數據前假設h擁有的初始概率。P(h)被稱為h的先驗概率。先驗概率反映了關于h是一正確假設的機會的背景知識如果沒有這一先驗知識,可以簡單地將每一候選假設賦予相同的先驗概率。類似地, P(D)表示訓練數據D的先驗概率,P(D|h)表示假設h成立時D的概率。機器學習中,我們關心的是 P(h|D),即給定D時h的成立的概率,稱為h的后驗概率。貝葉斯公式貝葉斯公式提供了從先驗概率 P(h)、P(D)和P(D|h)計算后驗概率P(h|D)的方法p(h|D)=P(D|H)*P(H)/P(D)P(h|D)隨著P(h)和P(D|h)的增長而增長,隨著P(D)的增長而減少,即如果 D獨立于h時被觀察到的可能性越大,那么D對h的支持度越小。極大后驗假設學習器在候選假設集合H中尋找給定數據D時可能性最大的假設 h,h被稱為極大后驗假設(MAP確定MAP的方法是用貝葉斯公式計算每個候選假設的后驗概率,計算式如下 :h_map=argmaxP(h|D)=argmax(P(D|h)*P(h))/P(D)=argmaxP(D|h)*p(h)(h 屬于集合H)編寫一個貝葉斯分類器。輸入為:均指向量、先驗概率、協方差矩陣、輸入學習數據 X,測試數據類別XLABEL測試數據Y.輸出為Y對應的類別。(選做)。四、實驗步驟:仔細閱讀并了解實驗數據集;使用任何一種熟悉的計算機語言(比如C,Java或者matlab)實現樸素貝葉斯算法;利用樸素貝葉斯算法在訓練數據上學習分類器,訓練數據的大小分別設置為:前100個數據,前200個數據,前 500個數據,前 700個數據,前 1000個數據,前 1350個數據;4.利用測試數據對學習的分類器進行性能評估;統計分析實驗結果并上交實驗報告;A源代碼:packageBayes;importjava.io.BufferedReader;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.IOException;importjava.math.BigDecimal;importjava.util.Vector;importBnyes.NaiveBayesTool.Property;_publicclassNaiveBayesTool(/**申明全局變量//前面是自己的屬性,后面是value的屬性**/inttestTotal=0;// 訓練樣本數量intpredictTotal=0;//測試樣本的數據intpredictSucess=0;// 預測成功的數量//存儲數量publicint[][]buy=newint[4][4];//vhigh,high,med,lowpublicint[][]maint=newint[4][4];//vhigh,high,med,lowpublicint[][]door=newint[4][4];//2,3,4,5morepublicint[][]person=newint[3][4];//2,4,morepublicint[][]lug_boot=newint[3][4];//small,med,bigpublicint[][]safe=newint[3][4];//low,med,highpublicint[]ClassValues=newint[4];//unacc,acc,good,vgoodString[]ClassValueName=("unacc","acc","good","vgood"};//存儲概率float[]ClassValue_gl=newfloat[4];//unacc-0acc-1good-2vgood-3float[][]buy_Vlaue_gl=newfloat[4][4];//前面是自己的屬性,后面是value的屬性float[][]maint_Value_gl=newfloat[4][4];float[][]door_Value_gl=newfloat[4][4];float[][]person_Value_gl=newfloat[3][4];float[][]lugboot_Value_gl=newfloat[3][4];float[][]safe_Value_gl=newfloat[3][4];/***主函數*/publicstaticvoidmain(String[]args)throwsIOException(NaiveBayesToolNBayes=newNaiveBayesTool();NBayes.ReadFile("learn.txt");// 獲取訓練樣本NBayes.Calculated_probability();//計算概率NBayes.TestData();// 導入測試樣本數據NBayes.show();//輸出結果}/*汽車屬性類**/publicclassProperty(// 汽車有6個屬性,每個屬性都有幾種類別,根據這 6個屬性來判斷汽車的性價比Classvalue如何,publicStringbuying;//vhigh,h^h,med5lowpublicStringmaint;//vhigh,high,med,lowpublicStringdoors;//2,3,4,5morepublicStringpersons;//2,4,morepublicStringlug_boot;//small,med,bigpublicStringsafety;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 佳木斯市向陽區2024-2025學年三年級數學第二學期期末質量跟蹤監視模擬試題含解析
- 江蘇省蘇州昆山市、太倉市2025屆中考沖刺預測卷(六)語文試題含解析
- 昆明幼兒師范高等專科學校《藥用高分子材料》2023-2024學年第一學期期末試卷
- 華中科技大學《大學英語寫作》2023-2024學年第一學期期末試卷
- 山西科技學院《城市地理學》2023-2024學年第二學期期末試卷
- 江西生物科技職業學院《生物教材分析與應用》2023-2024學年第二學期期末試卷
- 寧夏醫科大學《城市設計1》2023-2024學年第二學期期末試卷
- 烏海職業技術學院《工程制圖(Ⅱ)》2023-2024學年第二學期期末試卷
- 云南外事外語職業學院《英語國家社會與文化(1)》2023-2024學年第二學期期末試卷
- 上海師范大學天華學院《綠色建筑檢測與評價》2023-2024學年第一學期期末試卷
- 【MOOC】隧道工程-中南大學 中國大學慕課MOOC答案
- 停電作業工作票配電填寫模板
- 最新EXCEL上機操作練習題1
- 二重積分的概念與性質(課堂PPT)
- 投標法人代表授權書
- 海天注塑機日常點檢表
- 換發藥品生產許可證自查報告格式
- 吊籃四方驗收表
- 抹灰石膏原始記錄
- 復變函數與積分變換第四章級數
- 嚴重障礙量表SIB
評論
0/150
提交評論