第5章-判別分析_第1頁
第5章-判別分析_第2頁
第5章-判別分析_第3頁
第5章-判別分析_第4頁
第5章-判別分析_第5頁
已閱讀5頁,還剩82頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第五章判別分析5.1判別分析的概念

5.2距離判別法

5.3費歇爾判別法

5.4貝葉斯判別法

5.5逐步判別法

5.6實例分析

判別分析5.1判別分析的概念

在生產、科研和日常生活中,我們經常需要根據觀測到的數據資料,對所研究的對象進行判別分類,即是根據歷史上劃分類別的有關資料和某種最優準則,確定一種判別方法,判定一個新的樣品歸屬于哪一類。例如某醫院有部分患有肺炎、肝炎、冠心病、高血壓、糖尿病等病人的資料,記錄了每個患者若干癥狀的指標數據,現在想利用現有的這些資料數據找出一種方法,使對于一個新的病人,當測得這些癥狀指標數據時,能夠判斷其患有哪一種疾病。在經濟學中,根據人均國民收入、人均工農業總產值、人均消費水平等多項指標來判斷一個國家所處的經濟發展階段。在氣象預報中,根據已有的氣象資料(氣溫、氣壓、濕度等)來判斷明天、后天是陰天還是晴天,是有雨還是無雨。在地質學中根據以往對礦物勘探資料(礦石的化學和物理性質和所含化學成分)的分析,判斷某一礦石把他應歸于哪一類礦石。總之,在實際問題中需要判別的問題幾乎無處不在。判別分析與聚類分析不同。判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數據,在此基礎上根據某些準則建立判別式,然后對未知類型的樣品進行分類。例如,我們有了患胃炎的病人和健康人的一些化驗指標,就可以從這些化驗指標發現兩類人的區別。把這種區別表示為一個判別公式,然后對懷疑患胃炎的人就可以根據其化驗指標用判別公式診斷。對于聚類分析來說,一批給定樣品要劃分的類型事先并不知道,正需要通過聚類分析來給以確定類型。正因為如此,判別分析與聚類分析往往要結合起來使用。用數學的語言來說,判別問題可以表述為:對于n個樣品,每個樣品有p個指標,已知每個樣品屬于某一k類別(總體)G1,G2,…,Gk,對于每類別其分布函數分別為f1(y),f2(y),…,fk(y),對于一個給定樣品y,我們要判斷出這個樣本來自哪個總體。判別分析的主要問題就是如何尋找最佳的判別函數和建立判別規則。研究判別分析的方法很多,根據不同的研究對象,判別分析方法有不同的分類:1)按判別的組數來分,有兩組判別分析和多組判別分析2)按區分不同總體所用的數學模型來分,有線性判別分析和非線性判別分析3)按判別對所處理的變量方法不同有逐步判別分析、序貫判別分析。4)按判別準則來分,有馬氏距離最小準則、費歇爾判別準則、貝葉斯判別準則、最小平方準則、最大似然準則等。聚類分析數據格式k判別分析數據格式第二節距離判別法

距離判別法就是根據已知分類的數據,分別計算各類的重心即分組(類)的均值,判別準則是對任給的一次觀測,若它與第i類的重心距離最近,就認為它來自第i類。距離判別法對各類(或總體)的分布,并無特別的要求。1、兩個總體的距離判別法2、多個總體的距離判別法x1x2…xp……………………均值…x1x2…xp……………………均值…總體的觀測數據

我們看到用距離判別所得到的準則是比較合理的。但從下圖又可以看出,用這個方法也會錯判。如X來自G1,但卻落入D2,被判為屬于G2,錯判的概率為圖中陰影的面積,記為P(2/1),類似有P(1/2),顯然例5.1某地區經勘探證明,A盆地是一個鉀鹽礦區,B盆地是一個鈉鹽礦區(不含鉀),其它盆地是否含鉀鹽有待作出判斷。今從A和B兩盆地各抽取5個鹽泉樣品;從其它盆地抽取8個鹽泉樣品,化驗其4個指標,具體數據見表5.3,試對其它盆地抽取的8個待判鹽泉樣品進行判別是否為含鉀性礦泉。鹽泉類別序號X1X2X3X4類別號含鉀鹽泉(A盆地)113.852.797.8049.60A222.314.6712.3147.80A328.824.6316.1862.15A415.293.547.5043.20A528.794.9016.1258.10A含鈉鹽泉(B盆地)62.181.061.2220.60B73.850.804.0647.10B811.400.103.502.10B93.662.402.1415.10B1012.100.015.681.80B待判鹽泉18.853.385.1726.10228.602.401.20127.00320.706.707.6030.2047.902.404.3033.2053.193.201.439.90612.405.104.4324.60716.803.402.3131.30815.002.705.0264.00解:把A盆地和B盆地可作兩個不同的總體,并假設兩個總體協方差陣相等。兩類總體中各有5個樣品,,另有8個待判樣品。首先進行假設檢驗。檢驗假設H0:由第3章假設檢驗可知,F統計量為,其中:利用SPSS軟件進行計算。由樣本值得F統計量為14.4644,對于給定的顯著水平α=0.01,查表得臨界值=11.4,由于,則拒絕H0,這說明A盆地和B盆地的鹽泉特征有顯著性的差異,因此進行判別分析是有意義的。下面進行判別分析。計算A盆地和B盆地的鹽泉特征的均值為=(21.812,4.106,11.982,52.17)T=(6.638,0.874,3.32,17.34)T;兩組間平方距離(即馬氏距離)為37.029得線性判別函數

對已知類別的樣品進行回判,回判結果見表5.4樣品序號W(X)原類號回判組別16.499332AA212.58205AA320.50165AA413.65669AA518.79822AA6-18.8952BB7-16.9721BB8-11.2342BB9-19.491BB10-27.1437BB表5.4已知類別的樣品回判結果回判結果給出對來自于A盆地和B盆地的10個樣品都判對了。樣品序號W(X)判別類別1-9.7919B2188.0569A339.11198A4-4.80197B5-16.8409B617.80348A756.31679A845.99197A下面對8個待判樣品進行判別分類,分類結果見下表待判樣品判別分類結果即第2、3、6、7、8五個鹽泉為含鉀鹽泉,其余三個為不含鉀鹽泉,即含鈉鹽泉。2、多個總體的距離判別法x1x2…xp……………………均值…x1x2…xp……………………均值…G1總體Gk總體第三節費歇爾判別法1、費歇爾判別原理

費歇爾(Fisher)判別方法是(1936)歷史上最早提出的判別方法之一,也叫線性判別法。它的基本思想是通過將多維數據投影到某一方向上,使得投影后類與類之間盡可能的分開,然后再選擇合適的判別準則,將待判的樣本進行分類判別。而衡量類與類之間是否分開的方法是借助于一元方差分析的思想,利用方差分析的思想來導出判別函數。費歇爾判別方法就是將各組樣本均值投影到某條直線上,得到各組樣本均值在該直線的投影坐標,投影坐標值距離越遠越容易判斷待判樣本屬于哪個組。因此,費歇爾判別方法就是要找一個由p個變量組成的線性函數,使得各類內點的函數值盡可能接近,而不同類間的函數值盡可能的遠離。圖5.2表示的是2維空間中的點投影到某個一維空間,即一條直線上,然后再對其進行判別,投影到不同的直線上,判別效果一般是不同的。投影坐標值距離越遠越容易判斷待判樣本屬于哪個組。ab圖5.2坐標投影2、費歇爾判別方法設有k個總體G1,G2,…,Gk,每個總體中含有ni個樣品,每個樣品觀測p個指標,假定所建立的判別函數為.其中c表示p維空間的一個方向,如果按這個方向做一條直線,表示向量x在這條直線上投影坐標

將屬于不同總體的樣品觀測值代入判別函數式,則得:

每個總體投影后的數據均為一元數據,對這k組數據進行一元方差分析,其組間平方和為其中:和分別為總體Gi的樣本均值和總樣本均值,并記A為組間離差陣:合并的組內平方和為其中合并的組內離差陣為因此,若k個總體的均值有顯著性差異,則比值應充分大。三、判別的步驟1、由各組樣本資料,計算各組樣本均值2、計算離差矩陣A3、計算各組樣本離差平方和E4、計算矩陣E-1A的前m個特征向量5、構造判別函數Yl(x)。6、判斷值得注意的是:參與構造判別式的樣品個數不宜太少,否則會影響判別式的優良性;其次判別式選用的指標不宜過多,指標過多不僅使用不方便,而且影響預報的穩定性。所以建立判別式之前應仔細挑選出幾個對分類特別有關系的指標,要使兩類平均值之間的差異盡量大一些。例5.2費歇爾于1936年發表的鳶尾花數據被廣泛地作為判別分析的例子。數據是對3種鳶尾花:剛毛鳶尾花(第一組)、變色鳶尾花(第二組)和弗吉尼亞鳶尾花(第三組)各抽取50個樣本,測量其花萼長(x1)、花萼寬(x2)、花瓣長(x3)、花瓣寬(x4),單位為mm,數據從略。解:由于計算的正特征根個數可求得兩個正特征根相應的標準化特征向量則判別式為:判別式的組均值為判別結果如表5.9所示判別為真實組IIIIIII5000II0482III0149由表5.9可知,判別效果還是可以的。從距離判別法來看,它存在以下不足:(1)判別方法與總體各自出現的概率的大小無關;(2)判別方法與錯判之后所造成的損失無關。從費歇爾判別法來看,它隨著總體個數的增加,建立的判別函數式個數也增加,因而計算起來比較麻煩。如果對多個總體的判別考慮的不是建立判別式,而是計算新給樣品屬于各總體的條件概率P(l/x),比較這k個概率的大小,然后將樣品判歸為來自概率最大的總體,這種判別方法稱為貝葉斯判別方法。第四節貝葉斯判別分析1、基本思想Bayes判別法的基本思想是假定對所研究的對象已有一定的認識,常用先驗概率來描述這種認識;然后抽取一個樣本,用樣本來修正已有的認識(先驗概率分布),得到后驗概率分布。各種統計推斷都是通過后驗概率分布來進行。2、多元正態總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態分布,下面給出p元正態總體的Bayes判別法。(1)判別函數的導出由前面的敘述可知,使用Bayes判別法作判別分析,首先要知道待判總體的先驗概率和密度函數。對于先驗概率,一般用樣品的頻率來代替。或者令先驗概率相等,這時可以認為先驗概率不起作用。(2)假設協差陣相等在實際中,若與均未知時,可以用估計量樣本均值向量和合并后的樣本協方差陣來替代。合并后的樣本協方差陣為(3)計算后驗概率例5.3(胃癌的鑒別)為了判別病人是胃癌、還是萎縮性胃炎。現對患有胃癌、萎縮性胃炎和非胃炎患者中個隨機抽取5個病人,每人化驗4項生化指標:血清銅蛋白(X1)、藍色反映(X2)、尿吲哚乙酸(X3)和中性硫化物(X4),具體數據見表5.10。試用貝葉斯判別分析,對這15個樣品進行判別歸類。類別序號血清銅蛋白藍色反應尿吲哚乙酸中性硫化物胃癌患者胃癌患者12281342011224513410403200167122741701507851001672014非胃癌患者萎縮性胃炎患者622512571471301006128150117769120133102610160100510非胃炎患者1118511551912170125641316514253141351082121510011772解由于三組判別函數分別為:判別原則:樣品屬于判別函數值最大的一組。回判結果如表5.11所示:類別序號原分類Actual回判組別后驗概率胃癌患者胃癌患者1110.9982110.9773110.9994130.5785110.999非胃癌患者萎縮性胃炎患者6220.4577220.7008230.5189220.66210220.616非胃炎患者11320.61612330.68113330.83914330.58715330.583誤判的樣本是4、8、11,回判后分別屬于3、3、2組,即非胃炎患者、非胃炎患者、萎縮性胃炎患者。第五節逐步判別分析前面討論的判別方法都是用已給的全部變量來建立判別函數,但這些變量在判別式中所起的作用一般來說是不同的,也就是說各變量在判別式中的判別能力是不同的,有的可能起的作用大一些,有些可能作用很小,將起作用很小的變量保留在判別式中,不僅會增加計算量,有時還會干擾影響判別效果;如果將起重要作用的變量忽略了,這時作出的判別效果也一定不好。因此就存在一個變量選擇的問題,即從p個變量中挑選出對區分k個總體有顯著性判別能力的變量,來建立判別函數,對k個總體進行判別歸類。判別分析的變量選擇方法很多,我們這里僅介紹逐步判別法。1、逐步判別原理逐步判別分析與逐步回歸法的基本思想類似,都是逐個引入變量,每次把一個判別能力最強的變量引入判別式,每引入一個新變量,對判別式的老變量逐個進行檢驗,如果其判別能力因新變量的引入而變得不顯著了(例如其作用被后引入的某一個變量的組合所代替),應及時把它從判別式中剔除,直到判別式中沒有不重要的變量需要剔除,而判別式以外的變量也沒有重要的變量需要引入判別式時逐步篩選結束。這個篩選過程實質就是作假設檢驗,通過檢驗找出顯著性變量,剔除不顯著性變量。這種通過逐步篩選變量使得建立的判別函數中僅保留判別能力顯著的變量的方法,就是逐步判別法。一個變量能否進入模型主要取決于協方差分析的F檢驗的顯著性水平。2、逐步判別法的檢驗統計量設有k個p維正態總體分別為,它們有相同的協方差陣。如果他們有差別也只能表現在均值向量上。今從k個正態總體中分別取個獨立樣本如下:第1個總體:第2個總體:第k個總體:今作條件假設:如果接受了H0這個假設,說明這k個總體的統計差異不顯著,在此基礎上建立的判別函數效果肯定不好,除非增加新變量。如果拒絕了這個假設H0,說明這個總體可以區分,建立的判別函數有意義,設每個,且未知.根據第3章的檢驗的似然比統計量為其中:是組間離差陣;因此值越小,表明相同總體間的差異越小,因此對于給定的顯著水平α,應由分布確定臨界值,當時,拒絕H0,否則接受H0。這里中的下標是強調含有l個變量。由于Wilks分布的數值表一般書上沒有,常常用下面的近似公式。Bartlett近似公式:統計量在H0成立的條件下。Rao近似公式:統計量在H0成立的條件下下面根據Rao近似公式給出引入變量與剔除變量的檢驗統計量(1)引入變量的檢驗統計量的構造假定計算l步,并且變量已選入(L不一定等于l),今考察第L+1步添加一個變量的判別能力,此時將變量分為兩組,一組為已選的前l個變量,另一組僅有一個變量,此時l+1個變量的組內離差陣和總離差陣仍分別記為由于同理于是有即其中:將上式代入Rao近似公式中得到引入變量的檢驗統計量:若,則變量的判別能力顯著,我們將判別能力顯著的變量中作用最大的變量(即使為最小的變量)作為入選變量;否則不能把該變量作為引入變量。需要說明的是,不管引入變量還是剔除變量,都需要對相應的矩陣E和T作一次消去變換,比如說,不妨設第一個引入變量是x1,這時就要對E和T同時進行消去第一列的變換得到E(1)和T(1),接著考慮第二個變量,經過檢驗認為顯著的變量,不妨設為x2,這時就要對E(1)和T(1)同時進行消去第二列的變換得到E(2)和T(2),對剔除變量也是如此。(2)剔除變量的檢驗統計量的構造考察對已入選變量xr的判別能力,可以設想已計算了L步,并引入了包括變量xr在內的l個變量(L不一定等于l)。今考察擬在第L+1步剔除變量xr的判別能力,為了方便起見,可以假設xr是第L步引入的,也即L-1步引入了不包括xr在內的l-1個變量。因此問題轉化為考查引入變量xr(其中l-1個變量已給定時)的判別能力,此時有對相應地E(l)和T(l),再作一次消去變換有:于是從而得到剔除變量的檢驗統計量:在已入選的所有變量中,找出具有最大Ar的(即使最小)的一個變量進行檢驗。若,則認為xr的判別能力不顯著,可以把它從判別式中剔除,否則保留變量xr。

2、逐步判別法的基本步驟(1)準備工作1)計算各總體(類)的樣本均值和總體均值。2)計算樣本的合并組內離差陣E和總離差陣T。3)規定顯著性水平α。(2)逐步篩選變量假設已計算了L步,在判別式中選入了l個變量,不妨設已選入,則第L+1步計算內容如下:1)計算全部變量的判別能力對未入選變量xi計算對已入選變量xj計算,2)在已入選變量中考慮剔除可能存在的最不顯著變量,取最大的Aj(即最小的)。假設。作F檢驗:

若,則認為xr的判別能力不顯著,可以把它從判別式中剔除,然后對E(l),T(l),作消去變換;若,則從未入選變量中選出最顯著變量,即要找出最小的Ai(即最大的),假設。作F檢驗:若,則變量xr的判別能力顯著,我們將判別能力顯著的變量中作用最大的變量(即使Ar為最小的變量)作為入選變量,然后對E(l),T(l),作消去變換。在第L+1步計算結束后,再重復上面的1)、2)直至不能剔除又不能引入新變量時,逐步計算結束。(3)建立判別式,對樣品判別分類經過第2步選出重要變量后,可用各種方法建立判別函數和判別準則。這里使用Bayes判別法建立判別式,假設共計算L+1步,最綜選出l個變量,設判別式為

將每個樣品分別代入k個判別式,若,則判x屬于第h總體。需要指出的是:在逐步計算中,每步都是先考慮剔除,然后考慮引入,但開始幾步一般是先考慮引入,而后才開始有剔除,在實際問題中,引入后又剔除的情況不多,而剔除后再引入的情況更少見。另一方面由于算法中用逐步判別選出的l個變量,一般不是所有l個變量組合中的最優組合(因為每次引入都是在保留已引入變量基礎上引入新變量)。但在l不大時,往往是最優組合。5.6實例分析實例5.1為研究某地區人口死亡狀況,已按某種方法將15個已知樣本單位分為3組,選擇判別變量為6個:X1:0歲組死亡率,X2:1歲組死亡率,X3:10歲組死亡率,X4:55歲組死亡率,X5:80歲組死亡率,X6:平均預期壽命,原始數據如表5.12所示。建立判別函數,判定另外4個地區屬于何組。試用Fisher判別分析法和Bayes判別分析法分別計算。x1x2x3x4x5類別134.167.441.127.8795.1969.31233.066.341.086.7794.0869.71336.269.241.048.9797.368.81440.1713.451.4313.88101.266.21550.0623.032.8323.74112.5263.31633.246.241.1822.9160.0165.42732.224.221.0620.7124.768.72841.1510.082.3232.84172.0665.852953.0425.744.0634.87152.0363.521038.0311.26.0727.84146.3266.821134.035.410.075.290.169.531232.113.020.093.1485.1570.831344.1215.021.0815.15103.1264.831454.1725.032.1125.15110.1463.731528.072.010.073.0281.2268.33待判50.226.661.0822.54170.665.2.待判34.647.331.117.7895.1669.3.待判33.426.221.1222.95160.3168.3.待判44.0215.361.0716.45

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論