主成分分析原理和實現_第1頁
主成分分析原理和實現_第2頁
主成分分析原理和實現_第3頁
主成分分析原理和實現_第4頁
主成分分析原理和實現_第5頁
已閱讀5頁,還剩39頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關于主成分分析的原理與實現1第1頁,共44頁,2022年,5月20日,17點25分,星期四2假定你是一個公司的財務經理,掌握了公司的所有數據,這包括眾多的變量,比如固定資產、流動資金、每一筆借貸的數額和期限、各種稅費、工資支出、原料消耗、產值、利潤、折舊、職工人數、職工的分工和教育程度等等。如果讓你向上級或有關方面介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎? 引子第2頁,共44頁,2022年,5月20日,17點25分,星期四3當然不能。匯報什么?發現在如此多的變量之中,有很多是相關的。人們希望能夠找出它們的少數“代表”來對它們進行描述。需要把這種有很多變量的數據進行高度概括,用少

2、數幾個指標簡單明了地把情況說清楚。第3頁,共44頁,2022年,5月20日,17點25分,星期四4主成分分析( Principal Components Analysis )和因子分析(Factor Analysis)就是把變量維數降低以便于描述、理解和分析的方法。主成分分析也稱為主分量分析,是一種通過降維來簡化數據結構的方法:如何把多個變量化為少數幾個綜合變量(綜合指標) ,而這幾個綜合變量可以反映原來多個變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨立,互不相關。這些綜合變量就叫因子或主成分,它是不可觀測的,即它不是具體的變量(這與聚類分析不同),只是幾個指標的綜合。在引入主成

3、分分析之前,先看下面的例子。什么是主成分分析法?第4頁,共44頁,2022年,5月20日,17點25分,星期四5成績數據53個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。 第5頁,共44頁,2022年,5月20日,17點25分,星期四6從本例可能提出的問題能不能把這個數據表中的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學生排序呢?第6頁,共44頁,2022年,5月20日,17點25分,星期四7事實上,以上的三個問題在地理學研究中,也會經常遇到。它所涉及的問題可以推廣到對企業、對學校、對區域進行分析、評價、排序和分類等

4、。比如對n個區域進行綜合評價,可選的描述區域特征的指標很多,而這些指標往往存在一定的相關性(既不完全獨立,又不完全相關),這就給研究帶來很大不便。若選指標太多,會增加分析問題的難度與復雜性,選指標太少,有可能會漏掉對區域影響較大的指標,影響結果的可靠性。第7頁,共44頁,2022年,5月20日,17點25分,星期四8這就需要我們在相關分析的基礎上,采用主成分分析法找到幾個新的相互獨立的綜合指標,達到既減少指標數量、又能區分區域間差異的目的。第8頁,共44頁,2022年,5月20日,17點25分,星期四9 二、主成分分析的基本原理第9頁,共44頁,2022年,5月20日,17點25分,星期四10

5、(一)主成分分析的幾何解釋例中數據點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,語文成績(x1)和數學成績(x2),分別由橫坐標和縱坐標所代表;每個學生都是二維坐標系中的一個點。第10頁,共44頁,2022年,5月20日,17點25分,星期四11空間的點如果這些數據形成一個橢圓形狀的點陣(這在二維正態的假定下是可能的)該橢圓有一個長軸和一個短軸。在短軸方向上數據變化很少;在極端的情況,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。第11頁,共44頁,2022年,5月20日,17點25分,星期四

6、12假定語文成績 (X1) 和數學成績 (X2) 的相關系數= 0.6 。設 X1 和 X2 分別為標準化后的分數,右圖為其散點圖。第12頁,共44頁,2022年,5月20日,17點25分,星期四13那么隨機向量的方差協方差矩陣為可以看出,在變量標準化的情況下的方差協方差矩陣與其相關矩陣相等。由求矩陣特征值和特征向量的方法:令可以求出:第13頁,共44頁,2022年,5月20日,17點25分,星期四14對應的特征向量分別為:顯然,這兩個特征向量是相互正交的單位向量。而且它們與原來的坐標軸 X1 和 X2 的夾角都分別等于45 。如果將坐標軸 X1 和 X2 旋轉45 ,那么點在新坐標系中的坐標

7、(Y1,Y2)與原坐標(X1,X2)有如下的關系: Y1和Y2均是X1 和 X2的線性組合系數代表什么?第14頁,共44頁,2022年,5月20日,17點25分,星期四15在新坐標系中,可以發現:雖然散點圖的形狀沒有改變,但新的隨機變量 Y1 和 Y2 已經不再相關。而且大部分點沿 Y1 軸散開,在 Y1 軸方向的變異較大(即 Y1的方差較大) ,相對來說,在 Y2軸方向的變異較?。?Y2 的方差較?。?。第15頁,共44頁,2022年,5月20日,17點25分,星期四16事實上,隨機變量 Y1和 Y2的方差分別為:可以看出,最大變動方向是由特征向量所決定的,而特征值則刻畫了對應的方差。這只

8、是我們舉的一個例子,對于一般情況,數學上也能證明。 第16頁,共44頁,2022年,5月20日,17點25分,星期四17在上面的例子中 Y1 和 Y2 就是原變量 X1和 X2的第一主成分和第二主成分。實際上第一主成分 Y1 就基本上反映了 X1 和X2 的主要信息,因為圖中的各點在新坐標系中的 Y1 坐標基本上就代表了這些點的分布情況,因此可以選 Y1 為一個新的綜合變量。當然如果再選 Y2也作為綜合變量,那么 Y1 和 Y2 則反映了 X1 和 X2的全部信息。 第17頁,共44頁,2022年,5月20日,17點25分,星期四18 從幾何上看,找主成分的問題就是找出p維空間中橢球體的主軸問

9、題,就是要在x1xp的相關矩陣中m個較大特征值所對應的特征向量。 究竟提取幾個主成分或因子,一般有兩種方法:特征值1累計貢獻率0.8那么如何提取主成分呢? (二)主成分分析的基本思想第18頁,共44頁,2022年,5月20日,17點25分,星期四19假定有n個地理樣本,每個樣本共有p個變量,構成一個np階的地理數據矩陣(3.5.1) 綜合指標如何選取呢?這些綜合指標要想盡可能多地反映原指標的信息,綜合指標的表達式中要含有原指標,那么我們通常是取原指標的線性組合,適當調整它們的系數,使綜合指標間相互獨立且代表性好。第19頁,共44頁,2022年,5月20日,17點25分,星期四20 定義:記x1

10、,x2,xP為原變量指標,z1,z2,zm(mp)為新變量指標(3.5.2) 可以看出,新指標對原指標有多個線性組合,新指標對哪個原指標反映的多,哪個少,取決于它的系數。系數lij的確定原則: zi與zk(ik;i,k=1,2,m; j= 1,2,p )相互無關;第20頁,共44頁,2022年,5月20日,17點25分,星期四21 z1是x1,x2,xP的一切線性組合中方差最大者(最能解釋它們之間的變化),z2是與z1不相關的x1,x2,xP的所有線性組合中方差最大者; zm是與z1,z2,zm1都不相關的x1,x2,xP, 的所有線性組合中方差最大者。 則新變量指標z1,z2,zm分別稱為原

11、變量指標x1,x2,xP的第1,第2,第m主成分。 第21頁,共44頁,2022年,5月20日,17點25分,星期四22 從以上的分析可以看出,主成分分析的實質就是確定原來變量xj(j=1,2 , p)在諸主成分zi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。 從數學上可以證明,它們分別是相關矩陣(也就是x1,x2,xP 的相關系數矩陣)m個較大的特征值所對應的特征向量。 第22頁,共44頁,2022年,5月20日,17點25分,星期四23三、主成分分析的計算步驟第23頁,共44頁,2022年,5月20日,17點25分,星期四24(一)計算相關系數矩陣 rij(

12、i,j=1,2,p)為原變量xi與xj標準化后的相關系數, rij=rji,其計算公式為(3.5.3) (3.5.4) 第24頁,共44頁,2022年,5月20日,17點25分,星期四25 (二)計算特征值與特征向量 1、解特征方程,求出特征值,并使其按大小順序排列 ; 2、分別求出對應于特征值 的特征向量 ,要求 =1,即,其中表示向量 的第j個分量,也就是說 為單位向量。第25頁,共44頁,2022年,5月20日,17點25分,星期四263、計算主成分貢獻率及累計貢獻率 貢獻率累計貢獻率 一般取累計貢獻率達85%95%的特征值所對應的第1、第2、第m(mp)個主成分。 第26頁,共44頁,

13、2022年,5月20日,17點25分,星期四27 4、計算主成分載荷 在主成分之間不相關時,主成分載荷就是主成分zi與變量xj之間的相關系數(在數學上可以證明) 5、各主成分的得分 得到各主成分的載荷以后,可以按照(3.5.2)計算各主成分的得分 (3.5.5) 第27頁,共44頁,2022年,5月20日,17點25分,星期四28(3.5.6) 每個地區的綜合評價值為:對各個主成分進行加權求和。權重為每個主成分方差的貢獻率。第28頁,共44頁,2022年,5月20日,17點25分,星期四29四、SPSS在主成分分析中的應用第29頁,共44頁,2022年,5月20日,17點25分,星期四30以全

14、國31個省市的8項經濟指標為例,進行主成分分析。第一步:錄入或調入數據(圖1)。圖1 原始數據(未經標準化)第30頁,共44頁,2022年,5月20日,17點25分,星期四31第31頁,共44頁,2022年,5月20日,17點25分,星期四32 設置描述(Descriptives)選項。單擊描述按鈕, 彈出描述對話框選中單變量描述性(Univariate descriptives)復選項,則輸出結果中將會給出原始數據的抽樣均值、方差和樣本數目選中原始分析結果(Initial solution)復選項,則會給出主成分載荷的公因子方差(這一欄數據分析時有用)。在相關矩陣(Correlation M

15、atrix)欄中,選中系數(Coefficients)復選項,則會給出原始變量的相關系數矩陣;選中行列式(Determinant)復選項,則會給出相關系數矩陣的行列式,如果希望在Excel中對某些計算過程進行了解,可選此項,否則用途不大。其它復選項一般不用,但在特殊情況下可以用到。設置完成以后,單擊Continue按鈕完成設置(圖5)。第32頁,共44頁,2022年,5月20日,17點25分,星期四33 打開抽取對話框。因子提取方法主要有7種,在方法(Method)欄中可以看到,系統默認的提取方法是主成分.因此對此欄不作變動,就是認可了主成分分析方法。 設置抽取(Extraction)選項。在

16、分析(Analyze)欄中,選中相關性矩陣(Correlation matirx)復選項,則因子分析基于數據的相關系數矩陣進行分析;如果選中協方差矩陣(Covariance matrix)復選項,則因子分析基于數據的協方差矩陣進行分析。對于主成分分析而言,由于數據標準化了,這兩個結果沒有分別,因此任選其一即可。第33頁,共44頁,2022年,5月20日,17點25分,星期四34在輸出(Display)欄中,選中Unrotated factor solution(非旋轉因子解)復選項,則在分析結果中給出未經旋轉的因子提取結果。對于主成分分析而言,這一項選擇與否都一樣;對于旋轉因子分析,選擇此項,

17、可將旋轉前后的結果同時給出,以便對比。選中Scree Plot(碎石圖),則在分析結果中給出特征根按大小分布的折線圖以便我們直觀地判定因子的提取數量是否準確。第34頁,共44頁,2022年,5月20日,17點25分,星期四35在抽取欄中,有兩種方法可以決定提取主成分(因子)的數目。一是根據特征根(Eigenvalues)的數值,系統默認的是=1。我們知道,在主成分分析中,主成分得分的方差就是對應的特征根數值。如果默認=1 ,則所有方差大于等于1的主成分將被保留,其余舍棄。如果覺得最后選取的主成分數量不足,可以將值降低,例如取=0.9;如果認為最后的提取的主成分數量偏多,則可以提高值,例如取=1

18、.1 。主成分數目是否合適,要在進行一輪分析以后才能肯定。因此,特征根數值的設定,要在反復試驗以后才能決定。一般而言,在初次分析時,最好降低特征根的臨界值(如取=0.8),這樣提取的主成分將會偏多,根據初次分析的結果,在第二輪分析過程中可以調整特征根的大小。第35頁,共44頁,2022年,5月20日,17點25分,星期四36第二種方法是直接指定主成分的數目即因子數目,這要選中Number of factors復選項。主成分的數目選多少合適?開始我們并不十分清楚。因此,首次不妨將數值設大一些,但不能超過變量數目。本例有8個變量,因此,最大的主成分提取數目為8,不得超過此數。在我們第一輪分析中,采

19、用系統默認的方法提取主成分。 需要注意的是:主成分計算是利用迭代(Iterations)方法,系統默認的迭代次數是25次。但是,當數據量較大時,25次迭代是不夠的,需要改為50次、100次乃至更多。對于本例而言,變量較少,25次迭代足夠,故無需改動。設置完成以后,單擊Continue按鈕完成設置。第36頁,共44頁,2022年,5月20日,17點25分,星期四37 選中保存為變量(Save as variables)欄,則分析結果中給出標準化的主成分得分(在數據表的后面)。至于方法復選項,對主成分分析而言,三種方法沒有分別,采用系統默認的“回歸”(Regression)法即可。 選中顯示因子得

20、分系數矩陣(Display factor score coefficient matrix),則在分析結果中給出因子得分系數矩陣及其相關矩陣。 設置完成以后,單擊Continue按鈕完成設置。 設置得分(Scores)設置。第37頁,共44頁,2022年,5月20日,17點25分,星期四38 其它對于主成分分析而言,旋轉項(Rotation)可以不必設置;對于數據沒有缺失的情況下,選項(Option)項可以不必理會。 全部設置完成以后,點擊OK確定,SPSS很快給出計算結果 實例:全國31個省市的8項經濟指標第38頁,共44頁,2022年,5月20日,17點25分,星期四39按順序排列的主成分

21、得分的方差(Total),在數值上等于相關系數矩陣的各個特征根全部解釋方差表(Total Variance Explained)每一個主成分的方差百分比(% of Variance): 由于全部特征根的總和等于變量數目,即有m=i=8,故每一一個特征根的方差百分比為i/m從左邊欄目中提取的三個主成分及有關參數 第39頁,共44頁,2022年,5月20日,17點25分,星期四40主成分的數目可以根據相關系數矩陣的特征根來判定,根據值決定主成分數目的準則有三:i 只取1的特征根對應的主成分從Total Variance Explained表中可見,第一、第二和第三個主成分對應的值都大于1,這意味著這三個主成分得分的方差都大于1。本例正是根據這條準則提取主成分的。ii 累計百分比達到80%85%以上的值對應的主成分在Total Variance Explained表可以看出,前三個主成分對應的值累計百分比達到89.324%,這暗示只要選取三個主成分,信息量就夠了。iii 根據特征根變化的突變點決定主成分的數量從特征根分布的折線圖(碎石圖)上可以看到,第4個值是一個明顯的折點,這暗示選取的主成分數目應有p4。那么,究竟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論