




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、判別分析方法(Discriminant analysis)Discriminant analysis判別分析 用于判別樣本所屬類型的統(tǒng)計(jì)分析方法 基因識(shí)別:根據(jù)某一DNA序列的核苷酸組分、信號(hào)特征等指標(biāo),判別是否編碼蛋白序列? 醫(yī)學(xué)診斷:某一病人肺部存在陰影,判別: 肺結(jié)核?良性腫瘤?肺癌? 人類考古學(xué):根據(jù)頭蓋骨的特征,判別:民族、性別、生活年代? 股票分析預(yù)測: 氣象分析預(yù)測: 自然災(zāi)害分析預(yù)測: Discriminant analysis判別分析問題 設(shè)有k個(gè)m維的總體G1, G2, , Gk, (1). 它們的分布特征已知,可以表示為F1(x), F2(x), , Fk(x) (2).
2、 或者知道來自各個(gè)總體的樣本(訓(xùn)練樣本)。 對(duì)于給定的一個(gè)未知樣本X(檢測樣本),判別X屬于哪個(gè)總體。多元的、復(fù)雜的、高度綜合的統(tǒng)計(jì)分析問題Discriminant analysis Fisher判別法 距離判別法 Bayes判別法 逐步判別法 訓(xùn)練樣本訓(xùn)練集檢測樣本檢測集判別準(zhǔn)則判別效率學(xué)習(xí)檢測評(píng)價(jià)距離判別法距離判別的基本思想樣本與哪一類總體的距離最近,就判別它屬于哪一類總體。Discriminant analysis馬氏(Mahalanobis)距離定義:Mahalanobis距離設(shè)總體G為n維變量,即含有n個(gè)屬性指標(biāo)(x1, x2, , xn)。已知總體G中的 t個(gè)樣本Xk (xk1,
3、xk2, , xkn),k=1, 2, , t。總體均值可用樣本均值估計(jì):則對(duì)于任一點(diǎn)X(x1, x2, , xn) ,定義它與總體G的Mahalanobis距離為:Discriminant analysis其中,矩陣S(sij)nn為:矩陣S稱為協(xié)方差矩陣(covariance matrix),反映屬性指標(biāo)中第i個(gè)分量與第j個(gè)分量的相關(guān)性。特別地,當(dāng)n=1時(shí), Mahalanobis距離為:Discriminant analysisxp(x)xp(x)|x-|G1:N(,1)G2:N(,2)Discriminant analysis兩類總體的距離判別已知:考慮具有n個(gè)屬性的兩類總體G1、G2
4、, 已知G1的p個(gè)訓(xùn)練樣本, G2的q個(gè)訓(xùn)練樣本:問題:對(duì)于未知樣本點(diǎn)X(x1, x2, , xn),判別其類型?Discriminant analysisG1、G2的總體均值根據(jù)樣本均值估計(jì)得到:分別求出總體G1、G2的協(xié)方差矩陣S(1)、S(2):Discriminant analysis對(duì)于任一新樣本X(x1, x2, , xn),分別計(jì)算它到總體G1、G2的Mahalanobis距離:Discriminant analysis構(gòu)造判別函數(shù)W(X):判別準(zhǔn)則為:Discriminant analysis特例:考慮n=1的兩類正態(tài)總體:G1:N(1, 1)G2:N(2, 2)p(x)xG1
5、:N(1,1)G2:N(2,2)12Discriminant analysis不妨設(shè)2 1 , 2 1 ,且檢測值滿足2 x 1 ,則:其中于是,判別準(zhǔn)則為:Discriminant analysisp(x)xG1:N(1,1)G2:N(2,2)12*Discriminant analysis已知:考慮具有n個(gè)屬性的m類總體Gl ( l = 1, 2, , m) ,每類總體已知tl (l=1, 2, , m)個(gè)訓(xùn)練樣本:問題:對(duì)于未知樣本點(diǎn)X(x1, x2, , xn),判別其類型?多類總體的距離判別Discriminant analysis類似地,分別計(jì)算點(diǎn)X(x1, x2, , xn)到每
6、一類Gl的Mahalanobis距離d2(X, Gl )。其中Discriminant analysis比較找到其中的最小距離:點(diǎn)X(x1, x2, , xn)到類Gi的距離d2(X, Gi )最小,最后判別點(diǎn)X(x1, x2, , xn)屬于第 i 類。Discriminant analysisDiscriminant analysisBayes判別法Bayes判別的基本思想 在p維空間中找出一種分法,使得平均損失最小D1D2DjG1, G2 GkDiscriminant analysis目標(biāo)函數(shù)(平均損失)假定屬于第i類,把它判為第j類造成的損失為造成這一損失的概率為D1D2DjG1, G
7、2 GkDiscriminant analysis判別準(zhǔn)則如果取能使平均損失達(dá)到最小判別函數(shù)D1D2DjG1, G2 GkDiscriminant analysisFisher線性判別法Fisher判別的基本思想 將 m組n維的數(shù)據(jù)投影到某一個(gè)方向,使得投影后的組與組之間盡可能地分開。平面上兩類數(shù)據(jù)訓(xùn)練樣本的散點(diǎn)圖(兩組數(shù)據(jù)樣本在平面上存在一個(gè)合理的分界線L)x1x2L: c1x1+c2x2c=0令:F(x1,x2)=c1x1+c2x2 F(x1,x2): 判別函數(shù) c:判別值G1G2Fisher線性判別法Discriminant analysis已知:數(shù)據(jù)屬性有n個(gè),每個(gè)數(shù)據(jù)點(diǎn)為n維向量X:
8、已知總體數(shù)據(jù)分為兩類: G1和G2 ,總體G1有p個(gè)樣本點(diǎn),總體G2有q個(gè)樣本點(diǎn)。屬 性 (分量)12n總體G1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)總體G2 (i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)目標(biāo):求解在n維空間中總體G1和總體G2的最優(yōu)分界平面。Discriminant analysis定義線性判別函數(shù)為:其中Ci (i =
9、1, 2, , n)為常數(shù)(待定系數(shù))。若判別值為 C , 對(duì)于任何未知數(shù)據(jù)點(diǎn)X(x1, x2, , xn),代入判別函數(shù),依據(jù)F (x1, x2, , xn)與C值的比較,可以判別點(diǎn)X屬于哪一類。1、確定待定系數(shù)Ci (i = 1, 2, , n)2、確定判別值CDiscriminant analysis將類G1的p個(gè)點(diǎn)、類G2的q個(gè)點(diǎn)分別代入判別函數(shù):其中,確定待定系數(shù)CiDiscriminant analysis令:A與G1和G2兩類點(diǎn)的幾何中心的距離相關(guān)。顯然,判別函數(shù)F (x1, x2, , xn)應(yīng)該使A值越大越好。令:B與G1和G2兩類點(diǎn)的相對(duì)于各自幾何中心的離差相關(guān)。顯然,判別
10、函數(shù)F (x1, x2, , xn)應(yīng)該使B值越小越好。Discriminant analysis構(gòu)造函數(shù)I:選擇合適的待定系數(shù)Ci (i = 1, 2, , n),使得函數(shù)I(C1, C2, , Cn)達(dá)到極大值。Discriminant analysisDiscriminant analysisDiscriminant analysis消去非零的因子,得到求解待定系數(shù)(C1, C2, , Cn)的線性方程組:Discriminant analysis確定判別值C判別函數(shù)已知,不妨寫成:將G1的p個(gè)點(diǎn)、 G2的q個(gè)點(diǎn)分別代入判別函數(shù):對(duì)G1、G2的(p+q)個(gè)點(diǎn)的判別函數(shù)值取總體的平均值:顯
11、然,值是兩類點(diǎn)的判別函數(shù)值的加權(quán)平均,處于兩類判別函數(shù)平均值之間,也等價(jià)于兩類點(diǎn)的總體幾何中心的判別函數(shù)值。因此,將判別值C取為值:Discriminant analysisFisher線性判別的基本步驟屬 性 (分量)12nG1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)G2(i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)問 題已知數(shù)據(jù)樣本點(diǎn)分為兩
12、類: G1和G2 , G1有p個(gè)點(diǎn), G2有q個(gè)點(diǎn)。求出判別函數(shù)F (x1, x2, , xn)和判別值C 。對(duì)于任何未知數(shù)據(jù)點(diǎn)X(x1, x2, , xn),依據(jù)F (x1, x2, , xn)與C值的比較,判別點(diǎn)X屬于哪一類。Discriminant analysisSTEP 1先對(duì)樣本點(diǎn)數(shù)據(jù)Xi(1)(xi1 (1), xi2 (1), , xin (1)( i=1, , p)、 Xi(2)(xi1 (2), xi2 (2), , xin (2)( i=1, , q)分別計(jì)算以下求和以及平均值:Discriminant analysisSTEP 2計(jì)算di和Sij,注意對(duì)稱性Sij =
13、Sji :Discriminant analysisSTEP 3解線性代數(shù)方程組:若方程有解,得到判別函數(shù)F:Discriminant analysisSTEP 4將平均值代入判別函數(shù),然后計(jì)算判別值C:Discriminant analysisSTEP 5對(duì)未知數(shù)據(jù)X(x1, x2, , xn)進(jìn)行判別:將數(shù)據(jù)X(x1, x2, , xn)代入判別函數(shù)F,與判別值進(jìn)行比較,判別其屬于哪一類。Discriminant analysisFisher線性判別的應(yīng)用舉例x1x2樣本序號(hào)x1x2類別157124323782486253616251766189629542Discriminant ana
14、lysisDiscriminant analysisDiscriminant analysisDiscriminant analysisFisher判別法小結(jié) 本質(zhì)上基于微分尋優(yōu)的方法 局限 1、可能陷入局部最優(yōu)的判別結(jié)果; 2、對(duì)數(shù)據(jù)屬性各變量的要求較為苛刻,如正態(tài)性、相互獨(dú)立性等; Discriminant analysis判別效果的評(píng)價(jià)錯(cuò)判損失錯(cuò)判率N(G1|G2)N(G2|G1)Discriminant analysisp(x)xG1:N(1,1)G2:N(2,2)12*P(G1|G2)P(G2|G1)Discriminant analysis檢驗(yàn)判別效果的方法訓(xùn)練集的回判 訓(xùn)練集(L
15、earning set):訓(xùn)練樣本集檢測集(Test set):檢測樣本集(類別未知)利用訓(xùn)練集作為檢測集:用判別方法對(duì)已知類型的樣本進(jìn)行回判,統(tǒng)計(jì)判錯(cuò)的個(gè)數(shù)以及占樣本總數(shù)的比例,作為錯(cuò)判率的估計(jì)。特點(diǎn):容易低估錯(cuò)判率。 Discriminant analysis從訓(xùn)練集中構(gòu)造檢測集已知數(shù)據(jù)集訓(xùn)練集檢測集判別準(zhǔn)則判別效率5050學(xué)習(xí)檢測評(píng)價(jià)Discriminant analysis刀切法(Jack-knife Method)“舍一法(Leaveone-out)”“Lachenbruch刪除法”“交叉確認(rèn)法(Cross-validation)”基本思想:(1). 每次從訓(xùn)練樣本集中剔除1個(gè)樣本X ;(2). 利用其余的樣本(數(shù)量為pq1)作為訓(xùn)練集來訓(xùn)練得到判別準(zhǔn)則;(3). 根據(jù)判別準(zhǔn)則對(duì)樣本X 進(jìn)行判別;(4). 對(duì)訓(xùn)練樣本中的每個(gè)樣本依次重復(fù)進(jìn)行,記錄判別對(duì)錯(cuò)的個(gè)數(shù);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 項(xiàng)目管理過程中的反饋與改進(jìn)策略試題及答案
- 寧夏中衛(wèi)市本年度(2025)小學(xué)一年級(jí)數(shù)學(xué)統(tǒng)編版專題練習(xí)((上下)學(xué)期)試卷及答案
- 小學(xué)課題申報(bào)書范例
- 項(xiàng)目管理學(xué)術(shù)評(píng)價(jià)試題及答案
- 注會(huì)考生個(gè)性的試題與答案
- 2025年證券從業(yè)資格證考試關(guān)鍵考點(diǎn)試題及答案
- 2025年證券從業(yè)資格考試的練習(xí)題試題及答案
- 四川省瀘州市龍馬潭區(qū)2025年中考語文一模試卷(含答案)
- 準(zhǔn)確識(shí)別項(xiàng)目管理考試的題型和難度試題及答案
- 關(guān)于課題申報(bào)書字號(hào)
- 動(dòng)態(tài)心電圖及動(dòng)態(tài)血壓課件
- 小學(xué)數(shù)學(xué)《兩位數(shù)乘兩位數(shù)》作業(yè)設(shè)計(jì)案例
- 2024年基金應(yīng)知應(yīng)會(huì)考試試題及答案
- 小升初數(shù)學(xué)銜接講座
- HR用工風(fēng)險(xiǎn)課件
- 第一類醫(yī)療技術(shù)目錄(一甲醫(yī)院)
- 護(hù)理給藥制度課件
- 輥涂型卷煙接嘴膠動(dòng)態(tài)流變性能對(duì)其上機(jī)適用性的影響
- 《高一歷史百日維新》課件
- 攪拌站安全生產(chǎn)檢查與隱患排查表格清單
- DB36T+744-2023廢舊輪胎橡膠瀝青路面施工技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論