




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第5節主成分分析(PrincipalComponentsAnalysis,PCA)
第三章地理學中的經典統計分析方法1高級教育主要內容主成分分析概述主成分分析的基本原理主成分分析的計算步驟
主成分分析方法應用實例主成分分析的SPSS實現過程主成分分析的應用及需要注意的問題附:主成分分析與因子分析的區別2高級教育一、主成分分析概述3高級教育假定你是一個公司的財務經理,掌握了公司的所有數據,這包括眾多的變量,比如固定資產、流動資金、每一筆借貸的數額和期限、各種稅費、工資支出、原料消耗、產值、利潤、折舊、職工人數、職工的分工和教育程度等等。如果讓你向上級或有關方面介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎?
引子4高級教育當然不能。匯報什么?發現在如此多的變量之中,有很多是相關的。人們希望能夠找出它們的少數“代表”來對它們進行描述。需要把這種有很多變量的數據進行高度概括,用少數幾個指標簡單明了地把情況說清楚。5高級教育主成分分析(
PrincipalComponentsAnalysis)和因子分析(FactorAnalysis)就是把變量維數降低以便于描述、理解和分析的方法。主成分分析也稱為主分量分析,是一種通過降維來簡化數據結構的方法:如何把多個變量化為少數幾個綜合變量(綜合指標),而這幾個綜合變量可以反映原來多個變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨立,互不相關。這些綜合變量就叫因子或主成分,它是不可觀測的,即它不是具體的變量(這與聚類分析不同),只是幾個指標的綜合。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?6高級教育成績數據53個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。7高級教育從本例可能提出的問題能不能把這個數據表中的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學生排序呢?8高級教育事實上,以上的三個問題在地理學研究中,也會經常遇到。它所涉及的問題可以推廣到對企業、對學校、對區域進行分析、評價、排序和分類等。比如對n個區域進行綜合評價,可選的描述區域特征的指標很多,而這些指標往往存在一定的相關性(既不完全獨立,又不完全相關),這就給研究帶來很大不便。若選指標太多,會增加分析問題的難度與復雜性,選指標太少,有可能會漏掉對區域影響較大的指標,影響結果的可靠性。9高級教育這就需要我們在相關分析的基礎上,采用主成分分析法找到幾個新的相互獨立的綜合指標,達到既減少指標數量、又能區分區域間差異的目的。10高級教育
二、主成分分析的基本原理11高級教育(一)主成分分析的幾何解釋
例中數據點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,語文成績(x1)和數學成績(x2),分別由橫坐標和縱坐標所代表;每個學生都是二維坐標系中的一個點。12高級教育空間的點如果這些數據形成一個橢圓形狀的點陣(這在二維正態的假定下是可能的)該橢圓有一個長軸和一個短軸。在短軸方向上數據變化很少;在極端的情況,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。13高級教育?????????????????????????????????????假定語文成績(X1)和數學成績(X2)的相關系數ρ=0.6。設X1
和X2
分別為標準化后的分數,右圖為其散點圖。14高級教育那么隨機向量的方差—協方差矩陣為可以看出,在變量標準化的情況下的方差—協方差矩陣與其相關矩陣相等。由求矩陣特征值和特征向量的方法:令可以求出:15高級教育對應的特征向量分別為:顯然,這兩個特征向量是相互正交的單位向量。而且它們與原來的坐標軸X1
和X2
的夾角都分別等于45o。如果將坐標軸X1
和X2
旋轉45o,那么點在新坐標系中的坐標(Y1,Y2)與原坐標(X1,X2)有如下的關系:Y1和Y2均是X1
和X2的線性組合系數代表什么?16高級教育?????????????????????????????????????在新坐標系中,可以發現:雖然散點圖的形狀沒有改變,但新的隨機變量Y1
和Y2
已經不再相關。而且大部分點沿Y1
軸散開,在Y1軸方向的變異較大(即Y1的方差較大),相對來說,在Y2軸方向的變異較?。碮2
的方差較小)。17高級教育事實上,隨機變量Y1和Y2的方差分別為:可以看出,最大變動方向是由特征向量所決定的,而特征值則刻畫了對應的方差。這只是我們舉的一個例子,對于一般情況,數學上也能證明。18高級教育在上面的例子中Y1
和Y2
就是原變量X1和X2的第一主成分和第二主成分。實際上第一主成分Y1就基本上反映了X1
和X2
的主要信息,因為圖中的各點在新坐標系中的Y1
坐標基本上就代表了這些點的分布情況,因此可以選Y1
為一個新的綜合變量。當然如果再選Y2也作為綜合變量,那么Y1
和Y2
則反映了X1
和X2的全部信息。19高級教育從幾何上看,找主成分的問題就是找出p維空間中橢球體的主軸問題,就是要在x1~xp的相關矩陣中m個較大特征值所對應的特征向量。究竟提取幾個主成分或因子,一般有兩種方法:特征值>1累計貢獻率>0.8那么如何提取主成分呢?
(二)主成分分析的基本思想
20高級教育假定有n個地理樣本,每個樣本共有p個變量,構成一個n×p階的地理數據矩陣
(3.5.1)
綜合指標如何選取呢?這些綜合指標要想盡可能多地反映原指標的信息,綜合指標的表達式中要含有原指標,那么我們通常是取原指標的線性組合,適當調整它們的系數,使綜合指標間相互獨立且代表性好。21高級教育
定義:記x1,x2,…,xP為原變量指標,z1,z2,…,zm(m≤p)為新變量指標(3.5.2)
可以看出,新指標對原指標有多個線性組合,新指標對哪個原指標反映的多,哪個少,取決于它的系數。系數lij的確定原則:①
zi與zk(i≠k;i,k=1,2,…,m;j=1,2,…,p)相互無關;22高級教育
②
z1是x1,x2,…,xP的一切線性組合中方差最大者(最能解釋它們之間的變化),z2是與z1不相關的x1,x2,…,xP的所有線性組合中方差最大者;…;zm是與z1,z2,……,zm-1都不相關的x1,x2,…xP,的所有線性組合中方差最大者。
則新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xP的第1,第2,…,第m主成分。
23高級教育
從以上的分析可以看出,主成分分析的實質就是確定原來變量xj(j=1,2,…,
p)在諸主成分zi(i=1,2,…,m)上的荷載
lij(
i=1,2,…,m;
j=1,2,…,p)。從數學上可以證明,它們分別是相關矩陣(也就是x1,x2,…,xP的相關系數矩陣)m個較大的特征值所對應的特征向量。
24高級教育三、主成分分析的計算步驟25高級教育(一)計算相關系數矩陣
rij(i,j=1,2,…,p)為原變量xi與xj標準化后的相關系數,rij=rji,其計算公式為(3.5.3)
(3.5.4)
26高級教育
(二)計算特征值與特征向量1、解特征方程,求出特征值,并使其按大小順序排列;
2、分別求出對應于特征值的特征向量,要求=1,即,其中表示向量的第j個分量,也就是說為單位向量。27高級教育3、計算主成分貢獻率及累計貢獻率貢獻率累計貢獻率
一般取累計貢獻率達85%~95%的特征值所對應的第1、第2、…、第m(m≤p)個主成分。
28高級教育4、計算主成分載荷
在主成分之間不相關時,主成分載荷就是主成分zi與變量xj之間的相關系數(在數學上可以證明)
5、各主成分的得分
得到各主成分的載荷以后,可以按照(3.5.2)計算各主成分的得分
(3.5.5)
29高級教育(3.5.6)
每個地區的綜合評價值為:對各個主成分進行加權求和。權重為每個主成分方差的貢獻率。30高級教育四、主成分分析方法應用實例31高級教育(一)下面,我們根據表3.5.1給出的數據,對某農業生態經濟系統做主成分分析。
表3.5.1
某農業生態經濟系統各區域單元的有關數據
32高級教育33高級教育步驟如下:(1)將表3.5.1中的數據作標準差標準化處理,然后將它們代入公式(3.5.4)計算相關系數矩陣(表3.5.2)。表3.5.2相關系數矩陣
34高級教育
(2)由相關系數矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累計貢獻率已高達86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。
35高級教育表3.5.3特征值及主成分貢獻率
=4.661/8.998836高級教育
(3)對于特征值分別=4.6610、=2.0890、=1.0430,分別求出其特征向量e1,e2,e3,再用公式(3.5.5)計算各變量x1,x2,…,x9在主成分z1,z2,z3上的載荷(表3.5.4)。
37高級教育表3.5.4主成分載荷
上述計算過程,可以借助于SPSS或Matlab軟件系統實現。38高級教育
(1)從表3.5.4可以看出,第1主成分z1與x1,x5,x6,x7,x9呈現出較強的正相關,與x3呈現出較強的負相關,而這幾個變量則綜合反映了生態經濟結構狀況,因此可以認為第1主成分z1是生態經濟結構的代表。
(2)第2主成分z2與x2,x4,x5呈現出較強的正相關,與x1呈現出較強的負相關,其中,除了x1為人口總數外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認為第2主成分z2代表了人均資源量。
分析:主成分載荷是主成分與變量之間的相關系數。39高級教育
顯然,用3個主成分z1、z2、z3代替原來9個變量(x1,x2,…,x9)描述農業生態經濟系統,可以使問題更進一步簡化、明了。
(3)第3主成分z3與x8呈現出的正相關程度最高,其次是x6,而與x7呈負相關,因此可以認為第3主成分在一定程度上代表了農業經濟結構。
(4)另外,表3.5.4中最后一列(占方差的百分數),在一定程度上反映了3個主成分z1、z2、z3包含原變量(x1,x2,…,x9)的信息量多少。40高級教育接著還可以計算每個主成分的得分,組成一個新的數據集,作為進一步應用系統聚類分析方法進行區劃、分類的新的出發點。也可以用來綜合評價。進行區域差異分析41高級教育五、主成分分析的SPSS實現過程42高級教育以書上例子為例,將數據存為.sav文件,選Analyze-DataReduction-Factor進入主對話框;把x1~x9選入Variables,然后點擊Descriptive擊Extraction,在Method選擇一個方法(如果是主成分分析,則選PrincipalComponents),下面的選項可以隨意,比如要畫碎石圖就選Screeplot,另外在Extract選項可以按照特征值的大小選主成分(或因子),也可以選定因子的數目;之后回到主對話框(用Continue)。然后點擊Rotation,再在該對話框中的Method選擇一個旋轉方法(如果是不作旋轉就選None,我們選Varimax,方差最大正交旋轉法),在Display選Rotatedsolution(以輸出和旋轉有關的結果)和Loadingplot(以輸出載荷圖);之后回到主對話框(用Continue)。如果要計算因子得分就要點擊Scores,再選擇Saveasvariables(因子得分就會作為變量存在數據中的附加列上)和計算因子得分的方法(比如Regression);之后回到主對話框(用Continue)。這時點OK即可。43高級教育44高級教育45高級教育46高級教育47高級教育48高級教育49高級教育結果解釋KMO值大于0.5,Bartlett’sTest的Sig.大于0.05表明可用因子分析50高級教育結果解釋說明提取的幾個因子包含每個原變量的程度公因子方差51高級教育結果解釋這里的InitialEigenvalues就是特征值(數據相關陣的特征值)。頭三個成分特征值累積占了總方差的86.596%。后面的特征值的貢獻越來越少。52高級教育特征值的貢獻還可以從SPSS的所謂碎石圖看出53高級教育怎么解釋這三個主成分。前面說過主成分是原始九個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。
這里每一列代表一個主成分作為原來變量線性組合的系數(比例)。比如第一主成分寫成九個原先變量的線性組合,系數(比例)為0.739,0.123,-0.964,0.042,0.813,0.819,0.933,0.197,0.964。54高級教育如用x1~x9分別表示原先的九個變量,而用y1,y2,y3,
表示新的主成分,那么,原先九個變量x1,x2,x3,x4,x5,x6與第一和第二第三主成分y1,y2,y3的關系為:y1=0.739x1+0.123x2-0.964x3+0.042x4+0.813x5+0.819x6+0.933x7+0.197x8+0.964x9
…………這些系數稱為主成分載荷(loading),它表示主成分和相應的原先變量的相關系數。相關系數(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸觯谝恢鞒煞謱Ω鱾€變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關了。55高級教育X1=0.773y1-0.483y2+0.044y3……56高級教育計算因子得分可以根據前面的因子得分公式(因子得分系數和原始變量的標準化值的乘積之和),算出每個樣本的第一個因子、第二個因子和第三個主成分的大小,即算出每個樣本的因子得分f1,f2和f3。人們可以根據這三套因子得分對樣本分別排序。當然得到因子得分只是SPSS軟件的一個選項(可將因子得分存為新變量、顯示因子得分系數矩陣)57高級教育58高級教育六、主成分分析的應用
59高級教育
根據主成分分析的定義及性質,我們已大體上能看出主成分分析的一些應用。概括起來說,主成分分析主要有以下幾方面的應用。
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即使只有一個主成分Yl(即m=1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。60高級教育
2.有時可通過因子負荷aij的結構,弄清X變量間的某些關系。
3.
多維數據的一種圖形表示方法。我們知道當維數大于3時便不能畫出幾何圖形,多元統計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布狀況,由圖形可直觀地看出各樣品在主分量中的地位。61高級教育
4.由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重要的實際意義,為了使模型本身易于做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合,用主成分分析篩選變量,可以用較少的計算量來選擇變量,獲得選擇最佳變量子集合的效果。62高級教育附、主成分分析與因子分析的區別63高級教育因子分析主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找幾個成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數學模型上,因子分析和主成分分析有不少區別。而且因子分析的計算也復雜得多。根據因子分析模型的特點,它還多一道工序:因子旋轉(factorrotation);這個步驟可以使結果更好。64高級教育對于計算機,因子分析并不費事。從輸出的結果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關系數。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。65高級教育主成分分析與因子分析的公式上的區別主成分分析因子分析(m<p)因子得分主成分載荷旋轉之后的因子載荷因子得分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 含連帶責任保證人借款合同
- 企業外包服務合同樣本
- 糖尿病教學教案
- 輻射臺使用過程中突發意外情況的應急預案及流程
- 供熱公司清運合同樣本
- 懸浮式拼裝運動地板施工方案
- 除數是兩位數的除法教案
- 初中物理教學經驗介紹
- 中日雙語外貿合同樣本
- 中山辦公家具購銷合同標準文本
- 2025年度智能硬件產品全國區域獨家代理合同3篇
- 辦公室安全知識培訓課件
- 2025年四川省成都市青白江區招聘50人歷年高頻重點提升(共500題)附帶答案詳解
- 2025年浙江嘉興市眾業供電服務限公司招聘38人高頻重點提升(共500題)附帶答案詳解
- 【課件】第12課+理想與典范-古希臘與古羅馬美術+課件高中美術人教版(2019)美術鑒賞
- 建筑行業安全隱患舉報獎勵機制
- 公司事故隱患內部報告獎勵機制
- Unit10 How to stay safe 教學設計-2023-2024學年教科版(廣州)英語五年下冊
- 小學生詩詞大賽練習資料
- 鋁板幕墻監理細則
- 全過程工程咨詢管理服務方案投標方案(技術方案)
評論
0/150
提交評論