多元統計分析6章_第1頁
多元統計分析6章_第2頁
多元統計分析6章_第3頁
多元統計分析6章_第4頁
多元統計分析6章_第5頁
已閱讀5頁,還剩29頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、PAGE PAGE 99第六章 判別分析6.1 什么是判別分析判別分析是判別樣品所屬類型的一種統計方法,其應用之廣可與加歸分析媲美。在生產、科研和日常生活中經常需要根據觀測到的數據資料,對所研究的對象進行分類。例如在經濟學中,根據人均國民收入、人均工農業產值、人均消費水平等多種指標來判定一個國家的經濟發展程度所屬類型;在市場預測中,根據以往調查所得的種種指標,判別下季度產品是暢銷、平常或滯銷;在地質勘探中,根據巖石標本的多種特性來判別地層的地質年代,由采樣分析出的多種成份來判別此地是有礦或無礦,是銅礦或鐵礦等;在油田開發中,根據鉆井的電測或化驗數據,判別是否遇到油層、水層、干層或油水混合層;在

2、農林害蟲預報中,根據以往的蟲情、多種氣象因子來判別一個月后的蟲情是大發生、中發生或正常; 在體育運動中,判別某游泳運動員的“苗子”是適合練蛙泳、仰泳、還是自由泳等;在醫療診斷中,根據某人多種體驗指標(如體溫、血壓、白血球等)來判別此人是有病還是無病。總之,在實際問題中需要判別的問題幾乎到處可見。判別分析與聚類分析不同。判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數據,在此基礎上根據某些準則建立判別式,然后對未知類型的樣品進行判別分類。對于聚類分析來說,一批給定樣品要劃分的類型事先并不知道,正需要通過聚類分析來給以確定類型的。正因為如此,判別分析和聚類分析往

3、往聯合起來使用,例如判別分析是要求先知道各類總體情況才能判斷新樣品的歸類,當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類,然后再用判別分析建立判別式以對新樣品進行判別。判別分析內容很豐富,方法很多。判別分析按判別的組數來區分,有兩組判別分析和多組判別分析;按區分不同總體的所用的數學模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出的問題,因此有不同的判別準則,如馬氏距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等,按判別準則的不同又提出多種判別方法。本章僅介紹四種常用的判別

4、方法即距離判別法、Fisher判別法、Bayes判別法和逐步判別法。6.2 距離判別法基本思想:首先根據已知分類的數據,分別計算各類的重心即分組(類)的均值,判別準則是對任給的一次觀測,若它與第i類的重心距離最近,就認為它來自第i類。距離判別法,對各類(或總體)的分布,并無特定的要求。1 兩個總體的距離判別法設有兩個總體(或稱兩類)G1、G2,從第一個總體中抽取n1個樣品,從第二個總體中抽取n2個樣品,每個樣品測量p個指標如下頁表。今任取一個樣品,實測指標值為,問X應判歸為哪一類?首先計算X到G1、G2總體的距離,分別記為和,按距離最近準則判別歸類,則可寫成:G1總體: G2總體: 變量樣品

5、變量樣品均值均值記如果距離定義采用歐氏距離,則可計算出然后比較和大小,按距離最近準則判別歸類。由于馬氏距離在多元統計分析中經常用到,這里斟對馬氏距離對上述準則做較詳細的討論。設、,、分別為G1、G2的均值向量和協有效期陣。如果距離定義采用馬氏距離即這時判別準則可分以下兩種情況給出:(1)當時考察及的差,就有:令則判別準則可寫成:當已知時,令則顯然,W(X)是的線性函數,稱W(X)為線性判別函數,a為判別系數。當未知時,可通過樣本來估計。設來自Gi的樣本,I=1,2。其中 線性判別函數為:當p=1時,若兩個總體的分布分別為和,判別函數,不妨設。這時時,判。我們看到用距離判別所得到的準則是頗為合理

6、的。但從下圖又可以看出,用這個判別法有時也會得出錯判。如X來自G1,但卻落入D2,被判為屬G2,錯判的概率為圖中陰影的面積,記為,類似有,顯然=。當兩總體靠得很近(即|小),則無論用何種辦法,錯判概率都很大,這時作判別分析是沒有意義的。因此只有當兩個總體的均值有顯著差異時,作判別分析才有意義。(2)當時按距離最近準則,類似地有:仍然用作為判別函數,它是X的二次函數。2 多個總體的距離判別法類似兩個總體的討論推廣到多個總體。設有k個總體G1, , Gk,它們的均值和協差陣分別為,從每個總體Gi中抽取ni個樣品,i=1,k,每個樣品測p個指標。今任取一個樣品,實測指標值為,問X應判歸為哪一類?G1

7、總體: Gk總體: 變量樣品 變量樣品均值均值記向量(1)當時此時判別函數為:相應的判別準則為:當,未知時可用其估計量代替,設從Gi中抽取的樣本為,則,的估計分別為其中 為Gi的樣本離差陣。(2)當不相等時此時判別函數為:相應的判別準則為:當未知時,可用的估計量代替,即例1 人文發展指數是聯合國開發計劃署于1990年5月發表的第一份人類發展報告中公布的。該報告建議,目前對人文發展的衡量應當以人生的三大要素為重點,衡量人生三大要素的指示指標分別要用出生時的預期壽命、成人識字率和實際人均GDP,將以上三個指示指標的數值合成為一個復合指數,即為人文發展指數。資料來源:UNDP人類發展報告1995年。

8、今從1995年世界各國人文發展指數的排序中,選取高發展水平、中等發展水平的國家各五個作為兩組樣品,另選四個國家作為待判樣品作距離判別分析。數據選自世界經濟統計研究1996年第1期類別序號國家名稱出生時的予期壽命(歲)x1成人識字率(%)1992x2調正后人均GDP1992x3第一類(高發展水平國家)12345美國日本瑞士阿根廷阿聯酋7679.57872.173.899999995.977.753745359537252425370第二類(中等發展水平國家)678910保加利亞古巴巴拉圭格魯吉亞南非71.275.37072.862.99394.991.29980.6425034123390230

9、03799待判樣品11121314中國羅馬尼亞希臘哥倫比亞68.569.977.669.379.396.993.890.31950284052335158本例中變量個數p=3,兩類總體各有5個樣品,即,有4個待判樣品,假定兩總體協差陣相等。兩組線性判別的計算過程如下: (2)計算樣本協差陣,從而求出類似地經計算 (3)求線性判別函數W(X)解線性方程組得(4)對已在類別的樣品判別分類對已知類別的樣品(通常稱為訓練樣品)用線性判別函數進行判別歸類,結果如下,全部判對。樣品號判別函數W(X)的值原類號判歸類別1234510.545112.697211.83236.8118.815311111111

10、11678910-2.4716-7.0898-10.7842-18.3788-11.97422222222222判別分析是假設兩組樣品取自不同總體,如果兩個總體的均值向量在統計上差異不顯著,作判別分析意義就不大。所謂判別效果的檢驗就是檢驗兩個正態總體的均值向量是否相等,根據第三章3.1可知檢驗的統計量為:其中 將上邊計算結果代入統計量后可得:故在檢驗水平下,兩總體間差異顯著,即判別函數有效。(6)對待判樣品判別歸類結果如下表:樣品號國 家判別函數W(X)的值判別類別11121314中 國羅馬尼亞希 臘哥倫比亞-24.47899-15.5813510.294434.182892211簡短分析:回

11、代率為百分之百,這與統計資料的結果相符,而待判的四個樣品的判別結果表明:中國、羅馬尼亞為中等發展水平國家即第二類,希臘、哥倫比亞為高發展水平國家即第一類,這是符合當時實際的,即與當時世界各國人文發展指數的水平相吻合。例2 對全國30個省市自治區1994年影響各地區經濟增長差異的制度變量:x1經濟增長率(%)、x2非國有化水平(%)、x3開放度(%)、x4市場化程度(%)作判別分析。資料來源:經濟理論與經濟管理1998年第1期類別序號地區x1x2x3x4第一組1遼寧11.257.2513.4773.412河北14.967.197.8973.093天津14.364.7419.4172.334北京1

12、3.555.6320.5977.335山東16.275.5111.0672.086上海14.357.6322.5177.357浙江2083.9415.9989.58福建21.868.0339.4271.99廣東1978.3183.0380.7510廣西1657.1112.5760.9111海南11.949.9730.769.2第二組12黑龍江8.730.7215.4160.2513吉林14.337.6512.9566.4214內蒙古10.134.637.6862.9615山西9.156.3310.366.0116河南13.865.234.6964.2417湖北15.355.626.0654.7

13、418湖南1155.558.0267.4719江西1862.886.458.8320甘肅10.430.014.6160.2621寧夏8.229.286.1150.7122四川11.462.885.3161.4923云南11.628.579.0868.4724貴州8.430.236.0355.5525青海8.215.968.0440.2626新疆10.924.758.3446.0127西藏15.621.4428.6246.01待判樣品28江蘇16.580.058.8173.0429安徽20.681.245.3760.4330陜西8.642.068.8856.37(1)兩類地區各變量的均值(2)計

14、算樣本協差陣,從而求出和(3)求線性判別函數解線性方程組得經計算(4)對已知類別的樣品回判由于為第一組,為第二組。樣品序號W(X) 原類號回歸組別10.9801571121.5031031131.8850841141.2728981152.0553511162.6450241176.2970841184.1458541198.4611641110-0.6665912111.0552431112-2.725142213-0.753782214-2.363462215-0.832162216-0.483752217-2.309532218-0.502152219-0.896632220-3.193

15、432221-5.105072222-1.346272223-1.379982224-4.187442225-7.423092226-5.650372227-3.952322上述回判結果表明,第一組中只有第10個樣品判組號為2,與原組號不同,其余樣品與原分組號相同;第二組中的各樣品回判組號都是2,即與原組號完全相同。我們仔細研究第10號樣品廣西的指標數據,可以看到它有可能是屬于原分經且時的錯分樣品。總的回代判對率達96.3%。(5)對待判樣品判別歸類,結果如下:樣品序號W(X)判歸類別282.3278251290.475173130-3.318292待判樣品中江蘇和安徽被判屬第一組,陜西被判屬

16、第二組,這與實際情況較吻合。6.3 費歇(Fisher)判別法Fisher判別法是1936年提出來的,該法對總體的分布并未提出什么特定的要求。1 不等協差陣的兩總體Fisher判別法(1)基本思想:從兩個總體中抽取具有p個指標的樣品觀測數據,借助方差分析的思想造一個判別函數或稱判別式:,其中系數、確定的原則是使兩組間的區別最大,而使每個組內部的離差最小。有了判別式后,對于一個新的樣品,將它的p個指標值代入判別式中求出y值,然后與判別臨界值(或稱分界點后面給出)進行比較,就可以判別它應屬于哪一個總體。(2)判別函數的導出假設有兩個總體G1、G2,從第一個總體中抽取n1個樣品,從第二個總體中抽取n

17、2個樣品,每個樣品觀測p個指標,列表如下:G1總體: G2總體: 變量樣品 變量樣品均值均值假設新建立的判別式為,今將屬于不同兩總體的樣品觀測值代入判別式中去,則得:對上邊兩式分別左右相加,再乘以相應的樣品個數,則有: 第一組樣品的“重心” 第二組樣品的“重心”為了使判別函數能夠很好地區別來自不同總體的樣品,自然希望:i)來自不同總體的兩個平均值相差愈大愈好。ii)對于來自第一個總體的要求它們的離差平方和愈小愈好,同樣也要求愈小愈好。綜合以上兩點,就是要求: 愈大愈好。記為兩組間離差。為兩組內的離差。則利用微積分求極值的必要條件可求出使I達到最大值的。為此將上式兩邊取對數:令 則 即 而 其中

18、 而 其中從而即令是常數因子,不依賴于k,它對方程組的解只起到共同擴大倍的作用,不影響它的解之間的相對比例關系。對判別結果來說沒有影響,所以取=1,于是方程組:即寫成矩陣形式為:所以 值得說明的是:本書有幾處利用極值原理求極值時,只給出必要條件的數學推導,而有關充分條件的論證省略了,因為在通常遇到的實際問題中,根據問題本身的性質就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值),為了避免用到較多的數學知識或數學上的推導,這里不追求數學上的完整性。有了判別函數之后,欲建立判別準則還要確定判

19、別臨界值(分界點)y0,在兩總體先驗概率相等的假設下,一般常取y0為與的加權平均值即如果由原始數據求得與滿足,則建立判別準則為:對一個新樣品代入判別函數中去所得值記為y,若yy0,則判定(見圖一);若yy0,則判定。如果,則建立判別準則為:若yy0,則判定(見圖二);若yy0,則判定(注:為直觀起見,給出兩個正態總體等方差情況下的圖形)。(3)計算步驟i)建立判別函數求的最大值點,根據極值原理,需解方程組可得到,寫出判別函數。ii)計算判別臨界值,然后根據判別準則對新樣品判別分類。iii)檢驗判別效果(當兩個總體協差陣相同且總體服從正態分布)。檢驗統計量:其中給定檢驗水平a, 查F分布表,確定

20、臨界值,若,則被否定,認為判別有效。否則認為判別無效。值得指出的是:參與構造判別式的樣品個數不宜太少,否則會影響判別式的優良性;其次判別式選用的指標不宜過多,指標過多不僅使用不方便,而且影響預報的穩定性。所以建立判別式之前應仔細挑選出幾個對分類特別有關系的指標,要使兩類平均值之間的差異盡量大些。例1 利用距離判別法中例1的人文發展指數的數據作Fisher判別分析。(1)建立判別函數利用前例計算的結果,可得Fisher判別函數的系數、為所以判別函數為(2)計算判別臨界值y0由于 所以 (3)判別準則判別準則為(4)對已知類別的樣品判別歸類序號國 家判別函數y的值原類號判歸類別1美 國12.212

21、2112日 本12.4812113瑞 士12.3731114阿根廷11.7450115阿聯酋11.9960116保加利亞10.5851227古 巴10.0078228巴拉圭9.5460229格魯吉亞8.59682210南 非9.397322上述回判結果表明:總的回代判對率為100%,這與統計資料的結果相符,而且與前面用距離判別法的結果也一致。(5)對判別效果作檢驗由于所以在檢驗水平下判別有效。(6)待判樣品判別結果如下:序號國 家判別函數y的值判屬類別11中 國7.8342212羅馬尼亞8.9464213希 臘12.1809114哥倫比亞11.41691判別結果與實際情況吻合。例2 用距離判別

22、法中例2的制度變量對30個省市自治區作Fisher判別分析。(1)建立判別式經計算得:判別式為(2)求判別臨界值y0,對所給樣品判別分類由于,當樣品代入判別工后,若,則判為第一組;若,則判為第二組。回判結果如下:樣品序號y值原類號回判組別10.7108141120.7317311130.7470111140.7225231150.7538211160.7774081170.9234911180.8374411191.01005411100.64494412110.71381711120.56260222130.64145622140.57706922150.63832122160.652257

23、21170.57922622180.65152122190.636574222200.5438722210.46740522220.61775722230.61640822240.5041122250.37468422260.44559322270.51351522等判樣品判別結果樣品序號y值判屬組號280.764721290.6906141300.5388753上述回判結果表明,第一組的第10號仍被回判為第2組,說明第10號樣品確為誤分。而第二組的第16號被回判為第一組,仔細研究其指標,發現其數據介于第1組和第2組之間,差別不顯著造成的。總的回代判對率為25/27=92.59%。關于待判的三

24、個樣品的判別結果與用距離判別法的相同,說明其判別結果是比較好的。2 多總體Fisher判別法類似兩總體Fisher判別法可給出多總體Fisher判別法。設有k個總體G1, , Gk,抽取樣品數分別為,令。為第i個總體的第a個樣品的觀測向量。假定所建立的判別函數為其中 記和分別是總體內x的樣本均值向量和樣本協差陣,根據求隨機變量線性組合的均值和方差的性質可知,在上的樣本均值和樣本方差為記為總的均值向量,則。在多總體情況下,Fisher準則就是要選取系數向量c,使達到最大,其中是人為的正的加權系數,它可以取為先驗概率。如果取,并將代入上式可化為:其中E為組內離差陣,A為總體之間樣本協差陣,即為求的

25、最大值,根據極值存在的必要條件,令,利用對向量求導的公式:因此 這說明及c恰好是A、E矩陣的廣義特征根及其對應的特征向量。由于一般都要求加權協差陣E是正定的,因此由代數知識可知,上式非零特征根個數m不超過min(k-1,p),又因為A為非負定的,所以非零特征根必為正根,記為,于是可構造m個判別函數:定義為:m0個判別函數的判別能力定義為:如果m0達到某個人定的值(比如85%)則就認為m0個判別函數就夠了。有了判別函數之后,如何對待判的樣品進行分類?Fisher判別法本身并未給出最合適的分類法,在實際工作中可以選用下列分類法之一去作分類。(1)當取m0=1時(即只取一個判別函數),此時有兩種可供

26、選用的方法i)不加權法若則判ii)加權法將按大小次序排列,記為,相應判別函數的標準差重排為。令則可作為與之間分界點。如果x使得,則判。(2)當取時,也有類似兩種供選用的方法i)不加權法記對待判樣品,計算若則判。ii)加權法考慮到每個判別函數的判別能力不同,記其中是由求出的特征根。若則判。6.4 貝葉斯(Bayes)判別法從上節看到Fisher判別法隨著總體個數的增加,建立的判別式也增加,因而計算起來還是比較麻煩的。如果對多個總體的判別考慮的不是建立判別式,而是計算新給樣品屬于各總體的條件概率。比較這k個概率的大小,然后將機關報樣品判歸為來自概率最大的總體,這種判別法稱為Bayes判別法。1 基

27、本思想Bayes判別法的基本思想總是假定對所研究的對象已有一定的認識,常用先驗概率來描述這種認識。設有k個總體G1, G2, , Gk,它們的先驗概率分別為(它們可以由經驗給出也可以估出)。各總體的密度函數分別為:(在離散情形是概率函數),在觀測到一個樣品x的情況下,可用著名的Bayes公式計算它來自第g總體的后驗概率(相對于先驗概率來說,將它又稱為后驗概率):并且當 時,則判X來自第h總體。有時還可以使用錯判損失最小的概念作判決函數。這時把x錯判歸第h總體的平均損失定義為其中稱為損失函數。它表示本來是第g總體的樣品錯判為第h總體的損失。顯然上式是對損失函數依概率加權平均或稱為錯判的平均損失。

28、當h=g時,有;當時,有。建立判別準則為如果則判定x來自第h總體。原則上說,考慮損失函數更為合理,但是在實際應用中不容易確定,因此常常在數學模型中就假設各種錯判的損失皆相等,即這樣一來,尋找h使后驗概率最大和使錯判的平均損失最小是等價的,即2 多元正態總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態分布,下面給出p元正態總體的Bayes判別法。(1)判別函數的導出由前面敘述已知,使用Bayes判別法作判別分析,首先需要知道待判總體的先驗概率和密度函數(如果是離散情形則是概率函數)。對于先驗概率,如果沒有更好的辦法確定,可用樣品頻率代替,即令,其中為用于建立判別函數的已知分類數據中來

29、自第g總體樣品的數目,且,或者干脆令先檢概率相等,即,這時可以認為先驗概率不起作用。p元正態分布密度函數為:、式中和分別是第g總體的均值向量(p維)和協差陣(p階)。把代入的表達式中,因為我們只關心尋找使最大的g,而分式中的分母不論g為何值都是常數,故可改令取對數并去掉與g無關的項,記為則問題化為(2)假設協方差陣相等中含有k個總體的協方差陣(逆陣及行列式值),而且對于x還是二次函數,實際計算時工作量很大。如果進一步假定k個總體協方差陣相同,即,這時中和兩項與g無關,求最大時可以去掉,最終得到如下形式的判別函數與判別準則(如果協方差陣不等,則有非線性判別函數);上式判別函數也可以寫成多項式形式

30、:此處 (3)計算后驗概率作計算分類時,主要根據判別式的大小,而它不是后驗概率,但是有了之后,就可以根據下式算出:因為其中是中與g無關的部分。所以 由上式知使y為最大的h,其必為最大,因此我們只須把樣品x代入判別式中:分別計算,。若則把樣品x歸入第h總體。例1 繼續用前面距離判別法例1的人文發展指數的數據作Bayes判別分析。這里組數k =2,指標數p =3, n1 = n2 = 5代入判別函數:得兩組的判別函數分別為:將原各組樣品進行回判結果如下:樣品序號原類號判別函數值判別函數值回判類別后驗概率11326.2073315.663011.000021345.9698333.273511.00

31、0031337.7240325.892611.000041298.3032291.492910.998951307.7082298.893910.999962258.5374261.009720.922272254.2452261.335820.999282221.8201232.604921.000092202.9712221.350221.0000102191.8280203.802721.0000回判結果表明,總的回代判對率為100%,這與統計資料的結果相符,并與前面的距離判別法、Fisher判別法的結果也相同。樣品序號國 家判別函數值判別函數值后驗概率判屬類號11中 國160.9455

32、185.42521.0000212羅馬尼亞202.2739219.59391.0000213希 臘329.3008319.00730.99997114哥倫比亞277.7460273.56380.98501待判樣品的結果表明,判屬類別與前面的判屬類別完全相同,即中國、羅馬尼亞屬于第二類,希臘、哥倫經亞屬于第一類。繼續用前面距離判別法例2的制度變量的數據作Bayes判別分析。由前知: 兩組的判別函數分別為:判別原則:若樣品的,則屬于第一組;若,則屬于第二組。回判結果如下:樣品序號原組號回判組號后驗概率146.153845.92303110.646905249.130348.37659110.755

33、545347.1404446.00474110.819119447.4513246.92781110.71058546.9109645.60499110.842992656.4183654.52272110.90639774.6020669.05436110.997328857.4050854.00861110.977493958.3922850.6805110.9996921037.3750338.79102110.7390981142.9994342.69357110.6638611232.5993636.07388220.9568861348.8247550.32792220.75555

34、61437.9665241.07936220.9392411532.6657334.24727220.7697421635.7629136.99605220.7023361728.4881731.54708220.9360891838.4788339.73073220.7061671936.4025338.04855220.780972036.5561940.49901220.9725652119.5386225.39307220.9958472228.4723130.56796220.8482532350.3219152.45129220.8525422426.2965131.2333322

35、0.989668259.55110817.72358220.999592619.2299925.62974220.9975882727.4302932.13198220.986965Bayes法的回判結果與距離判別法的結果是一樣的,其判對率為96.3%。待判樣品判別結果如下:樣品序號判屬組號后驗概率2847.3285145.7500710.8289832936.8516437.1258520.5681273023.4642927.5319720.983171在Bayes法下,關于待判的三個樣品的判別結果:江蘇判屬于第一組,安徽和陜西判屬于第二組。其中,安徽的判屬組別與前兩種方法不一樣,這與方法

36、本身有差異有關,但也與安徽的數據有關,其數據介于一組和二組之間,差別不顯著。6.5 逐步判別法前面介紹的判別方法都是用已給的全部變量來建立判別式的,但這些變量在判別式中所起的作用,一般來說是不同的,也就是說各變量在判別式中判別能力不同,有些可能起重要作用,有些可能作用低微,如果將判別能力低微的變量保留在判別式中,不僅會增加計算量,而且會產生干擾影響判別效果,如果將其中重要變量忽略了,這時作出的判別效果也一定不好。如何篩選出具有顯著判別能力的變量來建立判別式呢?由于篩選變量的重要性,近三十年來有大量的文章提出很多種方法,這里僅介紹一種常用的逐步判別法。1 基本思想逐步判別法與逐步回歸法的基本思想

37、類似,都是采用“有進有出”的算法,即逐步引入變量,每引入一個“最重要”的變量進入判別式,同時也考慮較早引入判別式的某些變量,如果其判別能力隨新引入變量而變為不顯著了(例如其作用被后引入的某幾個變量的組合所代替),應及時從判別式中把它剔除去,直到判別式中沒有不重要的變量需要剔除,而剩下來的變量也沒有重要的變量可引入判別式時,逐步篩選結束。這個篩選過程實質就是作假設檢驗,通過檢驗找出顯著性變量,剔除不顯著變量。2 引入剔除變量所用的檢驗統計量設有k個正態總體,它們有相同的協方差陣。因此如果它們有產左別也只能表現在均值向量上,今從k個總體分別抽取個樣品,;,令。今作統計假設如果接受這個假設,說明這k

38、個總體的統計差異不顯著,在此基礎上建立的判別函數效果肯定不好,除非增加新的變量。如果H0被否定,說明這k個總體可以區分,建立判別函數是有意義的,根據第三章3.1檢驗H0的似然比統計量為其中 由的定義可知:,而、的大小分別反映了同一總體樣本間的差異和k個總體所有樣本間的差異。因此,值越小,表明相同總體間的差異越小,相對地,樣本間總的差異越大,即各總體間有較大差異,因此對給定的檢驗水平a,應由分布確定臨界值,使當時拒絕H0,否則H0相容。這里標下角標是強調有p個變量。由于Wilks分布的數值表,一般書上沒有,所以常用下面的近似公式:Bartlett近似式:Rao近似式這里根據Rao近似式給出引入變

39、量和剔除變量的統計量。為此先復習線性代數的一個定理。設這里A11、A22是方陣且非奇異陣,則另外在篩選變量過程中,要計算許多行列式,在建立判別函數時往往還要算逆矩陣,因此需要有一套方便的計算方法,這就是消去變換法(見后面附錄)。(1)引入變量的檢驗統計量假定計算l步,并且變量已選入(L不一定等于l),今考察第l+1步添加一個新變量x1的的判別能力,此時將變量分成兩組,第一組為前L個已選入的變量,第二組僅有一個變量xr,此時L+1個變量的組內離差陣和總離差陣仍分別為E和T。其中 其中 由于 其中(注意:上式行列式里是一個數,所以可去掉行列式符號,又r相當于2。)同理其中于是即所以將上式代入Rao

40、近似式中得到引入變量的檢驗統計量:若,則x1判別能力顯著,我們將判別能力顯著的變量中最大的變量(即使Ar為最小的變量)作為入選變量記為。值得強調的是:不管引入變量還是剔除變量,都需要對相應的矩陣E和T作一次消去變換,比如說,不妨設第一個引入的變量是x1,這時就要對E和T同時進行消去第一列的變換得到和,接著考慮引入第二個變量,經過檢驗認為顯著的變量,不妨設是x2,這時就要對和同時進行消去第二列的變換得到和,對剔除變量也如此。(2)剔除變量的檢驗統計量考察對已入選變量xr的判別能力,可以設想已計算了l步,并引入了包括xr在內的某L個為量(L不一定等于l)。今考察擬在第l+1步剔除變量xr的判別能力

41、,為方便起見,可以假設xr是在第l步引入的,也即前l-1步引進了不包括xr在內的l-1個變量。因此問題轉化為考察第l步引入變量xr(在其它l-1個變量已給定時)的判別能力,此時有對相應的、,再作一次消去變換有:于是 從而得到剔除變量的檢驗統計量:在已入選的所有變量中,找出具有最大(即最小)的一個變量進行檢驗。若,則認為判別能力不顯著,可把它從判別式中剔除。3 具體計算步驟(1)準備工作i)計算各總體中各變量的均值和總均值以及和ii)規定引入變量和剔除變量的臨界值F進和F出(取臨界值,以保證逐步篩選變量過程必在有限步后停止)在利用電子計算機計算時,通常臨界值的確定不是查分布表,而是根據具體問題,

42、事先給定。由于臨界值是隨著引入變量或剔除變量的個數而變化的,但是當樣本容量n很大時,它們的變化甚微,所以一般取,如果想少選入幾個變量可取,等等。如果想多選入變量可取,等等,顯然如果取則全部變量都被引入。(2)逐步計算假設已計算l步(包括l=0),在判別式中引入了某L個變量,不妨設,則第l+1步計算內容如下:i)計算全部變量的“判別能力”對未選入變量計算對已選入變量計算ii)在已入選變量中考慮剔除可能存在的最不顯著變量,取最大的(即最小的)。假設,這里表示屬已入選變量。作F檢驗:剔除變量時統計量為:若,則剔除,然后對和作消去變換。若,則從未入選變量中選出最顯著變量,即要找出最小的(即最大的)。假

43、設,這里表示屬于未入選變量。作F檢驗:引入變量時統計量為若,則引入,然后對和作消去變換。在第l+1步計算結束后,再重復上面的i)、ii)直至不能剔除又不能引入新變量時,逐步計算結束。(3)建立判別式,對樣品判別分類經過第二步選出重要變量后,可用各種方法建立判別函數和判別準則,這里使用Bayes判別法建立判別式,假設共計算l+1步,最終選出L個變量,設判別式為:將每一個樣品(x可以是一個新樣品,也可以是原來n個樣品之一。)分別代入k個判別式yg中去。若,則第總體。順便指出兩點:(1)在逐步計算中,每步都是選考察剔除,后考慮引入,但開頭幾步一般都是先引入,而后才開始有剔除,實際問題中引入后又剔除的

44、情況不多,而剔除后再重新引入的情況更少見。(2)由算法中可知用逐步判別選出的L個變量,一般不是所有L個變量組合中最優的組合(因為每次引入都是在保留已引入變量基礎上引入新變量)。但在L不大時,往往是最優的組合。例1 再次利用人文發展指數的三項指標作逐步判別分析。(1)計算兩類各變量的均值、總均值、組內離差陣、總離差陣如下:x1x2x3分類均值第一類75.8894.085343.4第二類70.4491.743430.2總 均 值73.1692.914386.8組內離差陣為:總離差陣為:(2)逐步計算設引入變量的臨界值為F1,剔除變量的臨界值為F2,今取F1=F2=2。第一步:(L=0)(最小)本步

45、無剔除,考慮引進,故引進變量x3。對矩陣W、T同時對x3作消去變換得及如下:x1x2x3x1113.6246149.21010.002117244x2149.2101469.17950.005507967x3-0.002117244-0.0055079674.76106E-07x1155.6579206.4252-0.0019174x2206.4252547.0569516464E-05x30.0019174-1.6464E-058.88793E-08第二步:(L=1)(最小)本步無剔除(因只引進一個變量x3),考慮引進變量x1, 故引進變量x1。對矩陣、同時對x1作消去變換得、如下:x1x2

46、x3x10.008011.313181.86337E-05x2-1.31318273.23920.0027276x31.86337E-05-0.00272765.15558E-07x10.0064243451.326146-1.23177E-07x2-1.326146273.30690.002559x3-1.23177E-05-0.0025591.12497E-07第三步,(L=2)對已入選的變量計算:(最大)對未入選的變量計算:考慮x1的剔除:故x1不能剔除。考慮x2的引進:故x2不能剔除。至此既無變量剔除,又無變量引入,故逐步計算結束,這時引入的重要變量為x1(出生時預期壽命)與x3(調整

47、后人均GDP)。(3)計算結果(a)判別函數為(b)檢驗判別效果對參予選判別函數的已知分類的10個樣品進行回判結果如下:序號原分類號判別函數的值判別函數的值計算分類號后驗概率11300.0881290.752610.999921319.8506308.363111.000031311.6048300.982211.000041273.0019267.362510.996551287.2086279.343010.99966223.0012237.183120.960172229.2077237.457120.999782197.7588209.693221.000092176.8520196.

48、439821.0000102170.5633183.522121.0000回判結果表明,第一類、第二為的判對率均為100%。對未知分類的4個待判樣品的判別結果如下:樣品序號國 家值值后驗概率判屬類號11中 國140.0238165.47171.0000212羅馬尼亞176.7088195.21191.0000213希 臘304.5535295.40530.99989114哥倫比亞253.9222250.84250.95601從待判樣品結果表明:判屬類別與前面的結果完全一致,即中國、羅馬尼亞屬于第二類;希臘、哥倫比亞屬于第一類。總之,從逐步判別法所得的結果可看出,盡管這里沒有利用變量(成人識字率

49、),但所得的判別結果與利用全部變量所得的判別結果完全一致,這充分說明了三個變量在判別式中所起的作用不同。例2 再次對全國30個省市自治區1994年的影響各地區經濟增長差異的4項制度變量作逐步判別分析。(1)計算兩類地區各變量的均值、組內離差陣、總離差陣如下:(2)逐步計算取F1=2.5, F2=2第一步:(L=0)計算 (最小)本步無剔除,考慮引進x4,故引進x4。第二步:(L=1)計算 (最小)本步無剔除(因只引進一個x4),考慮引進x3,故引進x3。第三步:(L=2)對已入選的變量計算(最大)考慮x3的剔除故不能剔除對未入選變量計算(最小)考慮x2的引進,故x2不能引進。至此既無變量剔除又

50、無變量可引入,故逐步計算結束。(3)計算結果(a)判別函數為(b)檢驗判別效果回判結果如下:樣品序號原 組 號回判組號后驗概率1110.7547082110.6616633110.7812064110.753595110.6566336110.9347127110.9937738110.9260389110.99947910120.86670211110.78627912220.86231813220.63474114220.84839215220.69601816220.83535517220.97728718220.65476719220.94150220220.92850821220.9

51、9102922220.90271523220.58259824220.97271425220.99911426220.9965227220.986391待判樣品的判別結果如下:樣品序號判屬組號后驗概率2810.5857952920.9451783030.972422計算結果表明影響各地區經濟增長差異的制度變量主要是:市場化程度(x4)和開放度(x3),其回判的結果與實際是相符的。6.6 附 注這里不加證明的指出以下幾個結論:1 判別函數中分界點的選取分界點的選取對判別效果的影響還是很大的,如果選取不當,很可能使一個好的判別函數變得毫無分類的價值。對分界點的取法可以有各種不同的出發點。前邊曾給出的分界點為:但也可以人為地從經驗或問題的實際背景出發指定y0值,也可以把個值從小到大排隊,適當地取其中一點作分界點y0;或者可以取一個區間(),此處,然后規定如果想從數學上來討論還有平均錯判率最小法即使達到最小值的解或最小最大錯判率法即使兩個錯判概率與中最大的一個盡可能地小,它們都是從不同的出發點確定分界點,有舉的讀者,可查看本書后面列出的參考書。2 判別法則的評價無論用哪一種判別方法,去判斷樣品的歸屬問題,均不可能永遠作出正確的判斷,一般總會發生錯判,用錯判概率的大小來衡量判別效果是很自然的想法,那么如何來計算錯判的概率呢?比如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論