




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章概率密度函數的估計參數估計的基本概念正態分布的監督參數估計(最大似然估計)總體分布的非參數估計(Parzen窗法,K近鄰法)分類器錯誤率的估計3.1引言
未知,需要利用樣本集來估計。
較好估計,重點估計
兩步法設計分類器(1)估計(2)利用第2章方法設計分類器
本章研究問題(1)如何利用樣本估計(2)估計量的性質(3)利用樣本集估計錯誤率的方法3.1引言—由樣本集估計參數估計
監督、非監督(最大似然估計、貝葉斯估計)非參數估計
Parzen窗法、K近鄰法3.2參數估計—基本概念統計量
利用包含總體信息的樣本構造的某種函數參數空間
未知參數的全體容許值構成的集合稱為參數空間。點估計、估計量、估計值
點估計即利用統計量作為對參數的估計量,利用樣本得到估計量的具體數值,稱為估計值。區間估計用區間作為取值的范圍的一種估計,該區間稱為置信區間,這類估計稱為區間估計。3.2參數估計—估計量的評價無偏性
如果參數的估計量的數學期望等于,則稱估計是無偏的。如果當樣本趨于無窮時估計才具有無偏性,則稱為漸進無偏。
有效性
如果一種估計的方差比另一種估計的方差小,則稱方差小的估計更有效。
一致性
如果對于任意給定的正數,總有,則稱是的一致估計。簡評:無偏性與有效性針對多次估計,不能保證一次估計性能;而在樣本無窮多時,一致性可保證每一次的估計量在概率意義上接近真實值。3.2參數估計—最大似然估計(監督)前提條件:(1)是確定而未知的;(2)樣本所屬類別已知,且是從各類總體中獨立抽取的;(3)形式已知(如正態),但參數未知(如)(4)i類樣本不影響j類信息。(類間獨立,可分別研究C類問題)3.2參數估計—最大似然估計(監督)基本思想:似然函數思想:如果在一次觀察中一個事件出現了,那么可以認為這個事件出現的可能性很大事件出現——樣本集H出現可能性大——取極大值(極大似然估計)3.2參數估計—最大似然估計(監督)計算過程:S個求偏導的方程構成方程組,求解得參數!為似然函數3.2參數估計—最大似然估計(監督)注意問題:(1)有時沒有唯一解。3.2參數估計—最大似然估計(監督)(2)求極大值無解(例:均勻分布情況)至少有一個為無窮大,無意義!此時可令樣本中最小與最大值為估計值。3.3正態分布參數的最大似然估計(監督)一維情況3.3正態分布參數的最大似然估計(監督)針對所有樣本樣本均值方差算術平均3.3正態分布參數的最大似然估計(監督)多維推廣:為向量是無偏估計,不是無偏估計,其無偏估計是3.3正態分布參數的最大似然估計(監督)算例:有10個學生,其中5個男生,5個女生。取身高體重兩個指標作為特征,有數據表男生女生x1x2x3x4x5x6x7x8x9x10X1身高(m)1.701.751.651.801.781.601.551.601.651.70X2體重(kg)657060657060454550553.3正態分布參數的最大似然估計(監督)男生女生3.3正態分布參數的最大似然估計(監督)10個樣本的均值:男生樣本的均值:女生樣本的均值:總體身高的方差:男生身高的方差:女生身高的方差:3.3正態分布參數的最大似然估計(監督)全體樣本協方差男生樣本協方差女生樣本協方差與最大似然估計的差別:(1)(2)最大似然估計中,為確定而未知的參數;貝葉斯估計中,為隨機變量。貝葉斯估計簡介非監督參數估計簡介非監督最大似然估計
需定義混合密度正態分布下的非監督參數估計
混合高斯分布,利用EM(期望最大化)算法求解各密度分量參數。3.4總體分布的非參數估計問題的提出
參數估計:總體分布已知,參數為未知(監督、非監督)非參數估計:總體分布未知,直接由樣本估計總體分布技術分類(依據體積的不同選取方法)3.4總體分布的非參數估計基本方法:向量x落入R中的概率現若抽取N個樣本,k個落入R,則設R小到令無變化,則3.4總體分布的非參數估計—Parzen窗法假定R為以x為中心的d維超立方體,棱長為h,則體積為定義窗函數,以找出落入V的樣本個數k以原點為中心的超立方體當樣本落入其中時
Parzen窗估計公式保證為概率密度3.4總體分布的非參數估計—Parzen窗法窗函數應滿足的要求:保證非負保證積分為1窗函數的選擇:除方窗外,還可選擇正態窗、指數窗等3.4總體分布的非參數估計—Parzen窗法表明距離越遠,貢獻越小3.4總體分布的非參數估計—Parzen窗法圖形解釋:某一點x的密度為其余各點的貢獻和每一樣本對該點所在位置貢獻最大3.4總體分布的非參數估計—Parzen窗法應用案例:對一維高斯分布和兩個均勻分布的估計3.4總體分布的非參數估計—k近鄰法問題的提出
Parzen窗法中窗寬(或體積)的選擇較為困難。
該式對初值敏感,初值太小,大部分體積是空的,密度估計不穩定,初值太大,估計的密度較平坦,無法反映真實分布,為解決此問題,產生了k近鄰法。3.4總體分布的非參數估計—k近鄰法思想:x周圍設一空胞,擴大至包含k個樣本空胞具有自適應性,密度高則體積小,密度低則體積大3.4總體分布的非參數估計—k近鄰法k的選取N越大,效果越好。經驗數據:一維時,數百個樣本二維時,數千個3.4總體分布的非參數估計—kN近鄰法應用案例:對一維高斯分布和兩個均勻分布的估計3.4非參數估計舉例—數字的Bayes分類數字特征的提取3.4非參數估計舉例—數字的Bayes分類計算先驗概率計算,再計算類條件概率密度數字i的第j個分量為1的概率數字i的第j個分量為0的概率3.4非參數估計舉例—數字的Bayes分類樣本X的類條件概率利用Bayes公式求后驗概率最大后驗概率對應的類別(0-9)即為得到的數字類別3.4非參數估計舉例—數字的Bayes分類3.5分類器錯誤率的估計3.5分類器錯誤率的估計已設計好分類器(樣本均為考試樣本)1、未知——隨機抽樣從總體隨機抽取N個樣本檢驗分類器,假定錯分數為,則錯誤率估值為是否是最好的估計?3.5分類器錯誤率的估計證明:每一樣本有正確分類、錯誤分類兩種情況,屬于貝努利試驗,N個樣本為N重貝努利試驗。設真實錯分概率為已給定,則的分布服從二項分布。最大似然估計前次錯分,后次正確的概率3.5分類器錯誤率的估計2、已知——選擇性抽取
3.5分類器錯誤率的估計未設計好分類器的情況(樣本即用于設計又用于檢驗)(再代入法)錯誤率偏小,甚至小于貝葉斯錯誤率U-法將樣本分為兩部分,一部分用于設計分類器,一部分用于檢驗分類器,問題的關鍵在于如何劃分樣本?3.5分類器錯誤率的估計樣本劃分法
若檢驗集>設計集,則錯誤率估計方差較小,但分類器性能不佳,N越大,效果越好!留一法(樣本少時采用)
N個樣本,N-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧裝備制造職業技術學院《生物制藥工藝學實驗》2023-2024學年第二學期期末試卷
- 山東省淄博市淄川區2025年小升初??家族e數學檢測卷含解析
- 濮陽科技職業學院《住區規劃設計》2023-2024學年第二學期期末試卷
- 六盤水幼兒師范高等??茖W?!队袡C化學(下)》2023-2024學年第二學期期末試卷
- 2025年心理咨詢師考試復習試卷及答案
- 2025年語言文學學科綜合能力測評試卷及答案
- 2025年游戲開發與設計專業考試試卷及答案
- 2025年新能源科學與工程專業考試試卷及答案
- 遂寧職業學院《英美文學導讀》2023-2024學年第一學期期末試卷
- 山西華澳商貿職業學院《土木工程施工與組織》2023-2024學年第二學期期末試卷
- 2024年司法考試真題及答案
- 天車檢驗報告
- 口腔護士進修總結匯報
- 土豆從種植后到收獲應如何澆水
- QCC品管圈之降低鼻腸管堵管率護理課件
- 2023年11月2024中咨公司校園公開招聘筆試歷年高頻考點-難、易錯點薈萃附答案帶詳解
- 人工智能在教育中的語文教學應用
- 消防救援-水域救援-冰域救援技術課件
- 30萬級潔凈車間溫濕度標準
- JGT334-2012 建筑外墻用鋁蜂窩復合板
- 量子力學主要知識點復習資料
評論
0/150
提交評論