




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上判別分析的基本原理專心-專注-專業判別分析的基本原理和模型一、判別分析概述(一)什么是判別分析判別分析是多元統計中用于判別樣品所屬類型的一種統計分析方法,是一種在已知研究對象用某種方法已經分成若干類的情況下,確定新的樣品屬于哪一類的多元統計分析方法。判別分析方法處理問題時,通常要給出用來衡量新樣品與各已知組別的接近程度的指標,即判別函數,同時也指定一種判別準則,借以判定新樣品的歸屬。所謂判別準則是用于衡量新樣品與各已知組別接近程度的理論依據和方法準則。常用的有,距離準則、Fisher準則、貝葉斯準則等。判別準則可以是統計性的,如決定新樣品所屬類別時用到數理統計的顯著性
2、檢驗,也可以是確定性的,如決定樣品歸屬時,只考慮判別函數值的大小。判別函數是指基于一定的判別準則計算出的用于衡量新樣品與各已知組別接近程度的函數式或描述指標。(二)判別分析的種類按照判別組數劃分有兩組判別分析和多組判別分析;按照區分不同總體的所用數學模型來分有線性判別分析和非線性判別分析;按照處理變量的方法不同有逐步判別、序貫判別等;按照判別準則來分有距離準則、費舍準則與貝葉斯判別準則。二、判別分析方法(一)距離判別法基本思想:首先根據已知分類的數據,分別計算各類的重心,即分組(類)均值,距離判別準則是對于任給一新樣品的觀測值,若它與第類的重心距離最近,就認為它來自第類。因此,距離判別法又稱為
3、最鄰近方法(nearest neighbor method)。距離判別法對各類總體的分布沒有特定的要求,適用于任意分布的資料。兩組距離判別兩組距離判別的基本原理。設有兩組總體,相應抽出樣品個數為,每個樣品觀測個指標得觀測數據如下, 總體的樣本數據為: 該總體的樣本指標平均值為: 總體的樣本數據為: 該總體的樣本指標平均值為:現任取一個新樣品,實測指標數值為=(),要求判斷屬于哪一類?首先計算樣品與、兩類的距離,分別記為、,然后按照距離最近準則判別歸類,即樣品距離哪一類最近就判為哪一類;如果樣品距離兩類的距離相同,則暫不歸類。判別準則寫為:,如果,如果,待判,如果。其中,距離的定義很多,根據不同
4、情況區別選用。如果樣品的各個變量之間互不相關或相關很小時,可選用歐氏距離。采用歐氏距離時,= 然后比較和的大小,按照距離最近準則判別歸類。但實際應用中,考慮到判別分析常涉及到多個變量,且變量之間可能相關,故多用馬氏距離。馬氏距離公式為:其中、分別是、的均值和協方差陣。這時的判別準則分兩種情況給出:(1)當=時=令,同時記則所以判別準則寫成:,如果,如果,待判,如果。該規則取決于的值,因此被稱為判別函數,也可以寫成:,其中。被稱為線性判別函數。作為特例,當時,兩個總體的分布分別是和,判別函數為或(使用樣本資料代替總體參數時)不妨設,這時的符號取決于或。時,判;時,判。兩組距離判別法,簡單容易理解
5、,判別準則也是合理的,但是有時也會出現錯判。如下圖6.1,如果來自,但卻落入,被錯判為組,錯判的概率為圖中陰影的面積,記為,類似有,顯然=。圖6.1當兩總體靠的比較近時,即兩總體的均值差異較小的時候,無論用何種判別方法,錯判的概率都比較大,這時的判別分析也是沒有意義的。因此只有當兩總體的均值有顯著差異時,進行判別分析才有意義,為此,要對兩總體的均值差異性進行檢驗,對此在下文中敘述。(2)當時按照距離最近準則,類似地有:,如果,如果,待判,如果。仍然用作為判別函數,此時的判別函數是的二次函數。(3)關于兩組判別分析的檢驗由于判別分析是假設兩組樣品是取自不同總體,如果兩個總體的均值向量在統計上差異
6、不顯著,則進行判別分析意義不大。所以,兩組判別分析的檢驗,實際就是要經驗兩個正態總體的均值向量是否相等,為此,檢驗的統計量為: 其中: 給定檢驗水平,查分布表使,可得出,再由樣本值計算,若,則否定原假設,認為兩個總體的均值向量在統計上差異顯著,否則兩個總體的均值向量在統計上差異不顯著。3、多個總體的距離判別法類似兩個總體的討論推廣到多個總體。設有個總體,相應抽出樣品個數為,每個樣品觀測個指標得觀測數據如下,總體的樣本數據為: 該總體的樣本指標平均值為: 總體的樣本數據為: 該總體的樣本指標平均值為: 它們的樣本均值和協方差陣分別為: 、。一般的,記總體的樣本指標平均值為:(),。()當時此時,
7、判別函數為,相應的判別準則為: , 當時,對于一切 待判, 若有一個()當不相等時此時判別函數為相應的判別準則為: , 當時,對于一切 待判, 若有一個(二)費舍判別法費舍判別法是1936年提出來的,該方法對總體分布未提出什么特定的要求。1基本思想費舍判別法是基于統計上的費舍準則,即判別的結果應該使兩組間區別最大,使每組內部離散性最小。在費舍準則意義下,確定線性判別函數:其中為待求的判別函數的系數。判別函數的系數的確定原則是使兩組間區別最大,使每組內部離散性最小。有了判別函數后,對于一個新的樣品,將個指標的具體數值代入判別式中求出值,然后與判別臨界值進行比較,并判別其應屬于哪一組。2兩組判別分
8、析(1)方法原理設有兩組總體,相應抽出樣品個數為,每個樣品觀測個指標得觀測數據如下, 總體的樣本數據為: 第1個總體的樣本指標平均值為: 總體的樣本數據為: 第2個總體的樣本指標平均值為:根據判別函數,用表示組樣品的重心,以表示組樣品的重心。則兩組之間的離差用來表示,、內部的離差程度分別用和來表示,其中;。根據費舍準則,要使判別的結果滿足兩組間區別最大,每組內部離散性最小。則判別函數的系數應該能夠使:取得最大值。(2)判別系數的導出令 +根據數學分析求極值的原理,對上式兩邊取對數: 令 則 即 而 =令 有 則有 而 +=+=+令 =+有 則有 于是有 令 是一個常數因子,不依賴,它對方程組的
9、解只起到共同擴大倍的作用,不影響它的解之間的比例關系,因此也不會影響判別函數,所以,取,得方程組:即 解此方程即得,進而得判別函數:(3)判別準則由判別函數,可得兩組總體各自樣品的重心:對它們進行根據樣本的容量進行加權得:稱為兩組判別的綜合指標。據此可得判別準則為:如果,則對于給定的新樣品,若有則將該樣品判屬于組,若,則判其屬于組;如果,則對于給定的新樣品,若有則將該樣品判屬于組,若,則判其屬于組。(4)兩組判別分析的檢驗由于判別分析是假設兩組樣品是取自不同總體,如果兩個總體的均值向量在統計上差異不顯著,則進行判別分析意義不大。所以,兩組判別分析的檢驗,實際就是要檢驗兩個正態總體的均值向量是否
10、相等,為此,檢驗的統計量為: 其中: , 給定檢驗水平,查分布表使,可得出,再由樣本值計算,若,則否定原假設,認為兩個總體的均值向量在統計上差異顯著,判別函數有效,可用;否則兩個總體的均值向量在統計上差異不顯著,判別函數無效不可用。3、多組費舍判別分析(1)方法原理類似兩總體的費舍判別法,下面給出多總體的費舍判別法。設有個總體抽取樣品數分別為令。為第個總體的第個樣品的觀測向量。假定所建立的判別函數為 其中 記和分別是總體內的樣本均值向量和樣本協差陣,根據求隨機變量線性組合的均值和方差的性質可知,在上的樣本均值和樣本方差為記為總的均值向量,則 在多總體情況下,Fisher準則就是要選取系數向量,
11、使達到最大,其中是人為的正的加權系數,它可以取為先驗概率。如果取 ,并將 ,代入上式可化為:其中為組內離差陣,為總體之間樣本的協差陣,即 (2)判別函數判別系數(矩陣關于矩陣的廣義特征向量)的導出。為求的最大值,根據極值存在的必要條件,令=0,利用對向量求導的公式: 因此 這說明了及恰好是矩陣關于矩陣的廣義特征根及其對應的特征向量(因為根據定義有,設為階對稱矩陣,為階正定矩陣,若有或,則稱為關于矩陣的廣義特征根,是對應的特征向量)。由于一般都要求加權協差陣是正定的,因此由代數知識可知,上式非零特征根個數不超過,又因為為非負定的,所以非零特征根必定為正根,記為于是可構造個判別函數: 判別函數的判
12、別能力與判別函數的個數。由上述知,由于非零特征根有個,由此對應有個特征向量,即個判別函數,為了選取有效的判別函數,對于每個判別函數必須給出一個用以衡量判別能力的指標,衡量判別函數判別能力的指標定義為: 個判別函數的判別能力定義為如果達到某個人定的值(比如85%)則就認為個判別函數就夠了。(3)判別準則有了判別函數之后,如何對待判的樣品進行分類?Fisher判別法本身并未給出最合適的分類法,在實際工作中可以選用下列分類法之一進行分類。第一方法,當取=1時(即只取一個判別函數),此時有兩種可供選用的方法不加權法若則判加權法 將按大小次序排列,記為,相應的判別函數的標準差排為。令 則可作為與之間的分
13、界點。如果使得,則判。第二種方法,當取時(即取多個判別函數),也有類似兩種供選用的方法不加權法記 對待判樣品,計算 若,則判加權法考慮到每個判別函數的判別能力不同,記其中是由求出的特征根。若,則判。(三)貝葉斯判別法1.基本思想 設有個總體,它們的先驗概率分別為,密度函數為(在離散情形是概率函數),在觀測到一個樣品的情況下,可用貝葉斯公式計算它來自第g個總體的后驗概率:并且當時,判定來自第個總體。另外,有時為了合理考慮錯判所帶來的損失,還使用錯判損失最小的概念確定判別函數,這時,把錯判給第個總體的平均損失定義為:其中稱為損失函數。它表示本來是第個總體的樣品錯判為第個總體的損失。于是建立判別準則
14、為,如果則,判定來自第個總體。顯然考慮損失函數更為合理,但是由于實際應用中,由于不容易確定,經常在數學模型中假定各種錯判的損失皆相等,這樣,尋找使后驗概率最大實際上等價于使錯判損失最小。 根據上述思想,在假定協方差矩陣相等的條件下,即可以導出判別函數。2.多元正態總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態分布,下面給出元正態總體的Bayes判別法,以及判別函數的導出。(1)待判樣品的先驗概率和密度函數使用Bayes準則進行分析,首先需要知道待判總體的先驗概率和密度函數 (如果是離散情形則是概率函數)。對于先驗概率,一般可用樣品頻率來代替,即令,其中為用于建立判別函數的已知分類
15、數據中來自第總體樣品的數目,且,或者干脆令先驗概率相等,即,這時可以認為先驗概率不起作用。對于第g總體的密度函數,設元正態分布密度函數為:式中和分別是第g總體的均值向量(維)和協差陣(階)。把代入的表達式中,因為我們只關心尋找使最大的,而分式中的分母不論為何值都是常數,故可改令對取對數并去掉與無關的項,記為,則問題可化為(2)假設各組協方差陣相等,導出判別函數中含有個總體的協方差陣(逆陣及行列式值),而且對于還是二次函數,實際計算時工作量很大。如果進一步假定個總體協方差陣相同,即,這時中和兩項與無關,求最大時可以去掉,最終得到如下形式的判別函數與判別準則(如果協方差陣不等,則有非線形判別函數);上式判別函數也可以寫成多項式形式:其中,用樣本資料這里為, ,總樣本總協差為總協差陣的估計,為總協差陣的逆矩陣。(3)計算后驗概率進行計算分類時,主要根據判別式的大小,而它不是后驗概率,但是有了之后,就可以根據下式算出后驗概率: 因為 其中是中與無關的部分。所以由上式知使為最大的,其必為最大,因此我們只須把樣品代入判別式中:分別計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三江學院《綜合技能實訓》2023-2024學年第二學期期末試卷
- 上海健康醫學院《建筑給水排水工程》2023-2024學年第二學期期末試卷
- 內蒙古包頭市回民中學2025屆下學期學業水平監測期末聯考高三物理試題含解析
- 江西科技師范大學《食品感官及理化檢測》2023-2024學年第二學期期末試卷
- 山東信息職業技術學院《西方哲學史》2023-2024學年第二學期期末試卷
- 江蘇省蘇州市工業園區星灣中學2025年初三下學期5月考語文試題試卷含解析
- 深圳信息職業技術學院《中西醫結合全科醫學》2023-2024學年第二學期期末試卷
- 天全縣2025屆數學三下期末檢測試題含解析
- 江蘇旅游職業學院《園林植物生物技術》2023-2024學年第二學期期末試卷
- 級廣元中學2025屆高考適應性考試英語試卷含答案
- 心肺復蘇完整版本
- 220kV變電站電氣設備常規交接試驗方案
- 銀行比較新穎的沙龍活動
- 九年級道德與法治上冊 第二單元 民主與法治 第四課 建設法治中國教案 新人教版
- 北京市2024年中考歷史真題試卷(含答案)
- 學習《吳軍閱讀與寫作》 (50講 )
- 房產證代辦服務合同
- 尾礦庫基本知識
- 財會實操-體育館的賬務處理分錄
- DL∕T 1094-2018 電力變壓器用絕緣油選用導則
- 2024山東能源集團中級人才庫選拔高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
評論
0/150
提交評論