




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1利用SPSS進行主成分分析【例子】 以全國 31個省市的 8 項經濟指標為例,進行主成分分析 第一步:錄入或調入數據(圖 1)省份國內生產|居民消費固定資產|職工工資貨物周轉|消費價格商品零售工業產值11394.092505.00513 018144.00373.9011730112.60343.432920.112720,。345 46E501.003429011520110 60532.5132849.521250.00704 S74339.002033.3011520115.S01234.3541092.461250 00290 904721.00717.3011S.901156069
2、7.255632.061367.00250.234134.007B1 70117.60116.60419 3962793.372397 00337.994911.00137170115.10114 001940.557吉林11為.201872.00320.454430.00497 40115.20114.20762.47B黑耘江黑耘江2014.532334.00435.734145.00924.80115.10114.301240.3792462.575343. 99S.469279.00207.40118.70113.001642.95105155.251926 001434.955943.
3、001025.50115.90114.302026.64113524.792249. 1006.39B619.D0754 40115.60113.5091E 59122003.581254.00474.004E09.D0908.30114.S0112.70824.14132160.522320 U0563 975357.00皿30115.20114.40433.671431西1205.111182.002E2.E44211.00411.70115.90115.90571.34156002.341527,。1229 55勺皈001196,印117 E0114 202207.5916河南30027
4、4103J.UU670 354344.001574.4011560114 901367.92172391.421527.00671.634665.00S4S.00120.00llhoU1220.72182195701406.00422.614797.001011.B0119.00115.50日43,3319rw5381.722699.001639.336250.0065E.90114.00111.601396 3520廣西1606.151314.003S2.595106.00536.00113.40116.40554.97213B4.171S14.00198.355340.00232.1011
5、3.50111.3064.33223534.00261.00022 544645.00902.30118.50117.001431.8123630.07942 00150.944475.00301.10121.40117.20324 72241206.6S1261 00334.00S149.D0310.40121.30119.10716.552555.96qw.oo17 877382.004.20I17.3D114.9Q5 57261000.031208 00300 2713施00500.90119.00117.00600.9627甘礦553.351007.00114.E15493.00507
6、.00119.B011E.60466.792B青礦166.31i446.nn47 7G6763.0061.B01130011E30105.9029169.761355.UU01 sa5073.00121.30117 10115.30114.4030K K 疆疆S34.571469.00376 S55348.00339.00119 70116.70426.76圖1原始數據(未經標準化)第二步:打開“因子分析”對話框。沿著主菜單的Analyze一 Data Reduction一 Factor -”的路徑(圖 2)打開因子分析 選項框(圖 3)。國全國 30 個省市區箸濟發展的 8 哽指曲-SPSS
7、 Data EditorFile Edit View Data Transform Analyze Graphs Utifitie Window Help行舊|昌|回三Id回ReportsDescriptive Statistics Compare MeansGeneral Linear Model CarrelateRegressionClassiF剽垂腐16:省份國西生另匚職工工資1匕京1394.E18144.002夭津920.166501.003河北2849.EData Reduction1Factor.4山1092.2111 .ScaleNonparametric Tests Mu|t
8、ipie Response5F 蒙832.E34134.006遼寧2793.394911同圖2打開因子分析對話框的路徑2第三步:選項設置首先,在源變量框中選中需要進行分析的變量,點擊右邊的箭頭符號,將需要的變量調入變量(Variables)欄中(圖 3)。在本例中,全部 8 個變量都要用上,故全部調入(圖 4)。因無特殊需要,故不必理會 Value”欄。下面逐項設置。圖4將變量移到變量欄以后1.設置 Descriptives 選項。單擊 Descriptives按鈕(圖 4),彈出 Descriptives對話框(圖 5)。Variables:產費產資轉格售值生消資工周價零產內民芝工物費品吐國
9、居固職貸消商TDescrip+ives.Extraction.Selection Variable:Value.圖3因子分析選項框3圖5描述選項框在 Statistics 欄中選中 Univariate descriptives 復選項,則輸出結果中將會給出原始數 據的抽樣均值、方差和樣本數目(這一欄結果可供檢驗參考);選中 Initial solution 復選項,則會給出主成分載荷的公因子方差(這一欄數據分析時有用)。在 Correlation Matrix 欄中,選中 Coefficients 復選項,則會給出原始變量的相關系 數矩陣(分析時可參考);選中 Determinant復選項,
10、則會給出相關系數矩陣的行列式, 如果希望在 Excel 中對某些計算過程進行了解,可選此項,否則用途不大。其它復選項 一般不用,但在特殊情況下可以用到(本例不選)。設置完成以后,單擊 Continue按鈕完成設置(圖 5)。2.設置 Extraction 選項。打開 Extraction 對話框(圖 6)。因子提取方法主要有 7 種,在 Method 欄中可以看 到,系統默認的提取方法是 主成分(rPi/了 c&o 安 g),因此對此欄不作變動, 就是認可了主成分分析方法。在 Analyze欄中,選中 Correlation matirx 復選項,則因子分析基于數據的相關系數 矩陣進行
11、分析;如果選中 Covariance matrix 復選項,則因子分析基于數據的協方差矩陣 進行分析。對于主成分分析而言,由于數據標準化了,這兩個結果沒有分別,因此任選 其一即可。在 Display 欄中,選中 Unrotatedfactorsolution(非旋轉因子解)復選項,則在分析 結果中給出未經旋轉的因子提取結果。對于主成分分析而言,這一項選擇與否都一樣; 對于旋轉因子分析,選擇此項,可將旋轉前后的結果同時給出,以便對比。選中 Scree PlotC山麓”圖),則在分析結果中給出特征根按大小分布的折線圖(形如山麓截面,故得名),以便我們直觀地判定因子的提取數量是否準確。在 Extra
12、ct欄中,有兩種方法可以決定提取主成分(因子)的數目。一是根據特征根(Eigenvalues)的數值,系統默認的是 知=1。我們知道,在主成分分析中,主成分得分的方差就是對應的特征根數值。如果默認,-c=1,則所有方差大于等于 1 的主成分將被保留,其余舍棄。如果覺得最后選取的主成分數量不足,可以將,七值降低,例如取如=0。;如果認為最后的提取的主成分數量偏多,則可以提高九值,例如取勾=1.1。主成分數目是否合適,要在進行一輪分析以后才能肯定。因此,特征根數值 的設定,要在反復試驗以后才能決定。一般而言,在初次分析時,最好降低特征根的臨4界值(如取 舄=0.8),這樣提取的主成分將會偏多,根據
13、初次分析的結果,在第二 輪分析過程中可以調整特征根的大小。第二種方法是直接指定主成分的數目即因子數目,這要選中Number of factors復選項。主成分的數目選多少合適?開始我們并不十分清楚。因此,首次不房將數值設大一 些,但不能超過變量數目。本例有8 個變量,因此,最大的主成分提取數目為8,不得超過此數。在我們第一輪分析中,采用系統默認的方法提取主成分。需要注意的是:主成分計算是利用迭代(Iterations)方法,系統默認的迭代次數是 25次。但是,當數據量較大時,25次迭代是不夠的,需要改為 50次、100次乃至更多 對于本例而言,變量較少,25次迭代足夠,故無需改動。設置完成以后
14、,單擊 Continue按鈕完成設置(圖 6)。3.設置 Scores設置選中 Save as variables欄,則分析結果中給出標準化的主成分得分(在數據表的后 面)。至于方法復選項,對主成分分析而言,三種方法沒有分別,采用系統默認的“回P Save as variablesMethod* Regression廣旦artlett廠Anderson-Rubin9 Display factor score coefficient matrix圖7因子得分對話框選中 Display factor score coefficient matrix ,則在分析結果中給出因子得分系數矩陣 及其相關矩
15、陣。歸”(Regression)法即可。圖6提取對話框Factor AiHelp |5設置完成以后,單擊 Continue按鈕完成設置(圖 7 )。4.其它。對于主成分分析而言,旋轉項( Rotation)可以不必設置;對于數據沒有缺失的情 況下,Option 項可以不必理會。全部設置完成以后,點擊OK確定,SPSS很快給出計算結果(圖 8)。73Factor AnalysisDescriptive Stad$tfiMeanstd. DeviationAnaly$i$ N國匹主尸1霽 LD931474.3060330居民消費1745.933051.6419330固定資產511=5083432,
16、0054830職工工暨545由 31310.2180530貨物周轉北弗湖三30117.29672.0253130商品零售114.9D671.0980830工業產值862.9930534.5672&3DCorrelation Matrix*居民陶費固戲產職工工覺隋物周特消費僑格商品零罟產值Correlator)國 PD生產1.000.267.951.191.617-.273-.264J74居炭消費&71.Q0D426.71B-451-.235-999.363固定遂產.951.4261.D00,00.-131-.280-.35S.792職工 I資.191.7101.000-.356
17、-.539104魅物周轉C17-.151-431-.3561.000-253皿-699帶牌價咯-.235-.260-.135.2531.000崩 3-.125商品零售-.264-.593-3S9.539.0221.000.192工皈唯.874.363,792.104.659-.125-.1921.000a. Determinant 1.133E-CH圖8主成分分析的結果第四步,結果解讀。在因子分析結果(Output)中,首先給出的 Descriptive Statistics,第一列 Mean對應的變量的算術平均值,計算公式為Xj=iXjniA第二列 Std. Deviation對應的是樣本標
18、準差,計算公式為氣=土/(xjXj)21,2n -1舊第三列 Analysis N 對應是樣本數目。這一組數據在分析過程中可作參考。6Descriptive StatisticsMeanStd. DeviationAnalysis N國內生產1921.0931474.8060330居民消費1745.933861.6419330固定資產511.5083402.8854830職工工資5457.6331310.2180530貨物周轉666.1400459.9669930消費價格117.28672.0253130商品零售114.90671.8980830工業產值862.9980584.5872630接
19、下來是 CorrelationMatrix(相關系數矩陣),一般而言,相關系數高的變量,大多會進入同一個主成分,但不盡然,除了相關系數外,決定變量在主成分中分布地位的 因素還有數據的結構。相關系數矩陣對主成分分析具有參考價值,畢竟主成分分析是從 計算相關系數矩陣的特征根開始的。相關系數陣下面的 Determinant=1.133E-0.4是相關 矩陣的行列式值,根據關系式 d et* - R) = 0 可知,det( K)=det( R),從而Determinant=1.133E-0.4=X*祛衫泌祐方*萬*%。這一點在后面將會得到驗證。Correlation Matrixa國內 生產居民 消
20、費固定資產職工 工資物轉貨周消費價格商品 零售工業產值國內生產1.000.267.951.191.617-.273-.264.874居民消費.2671.000.426.718-.151-.235-.593.363固定資產.951.4261.000.400.431-.280-.359.792職工工資.191.718.4001.000-.356-.135-.539.104貨物周轉.617-.151.431-.3561.000-.253.022.659消費價格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.763
21、1.000-.192工業產值.874.363.792.104.659-.125-.1921.000a. Determinant = 1.133E-04在 Communalities(公因子方差)中,給出了因子載荷陣的 初始公因子方差(Initial)和提取公因子方差(Extraction ),后面將會看到它們的含義。CommunalitiesInitialExtraction國內生產1.000.945居民消費1.000.800固定資產1.000.902職工工資1.000.875貨物周轉1.000.857消費價格1.000.957商品零售1.000.929工業產值1.000.903Extract
22、ion Method: Principal Component Analysis.在 Total Variance Explained(全部解釋方差)表的 Initial Eigenvalues(初始特7征根)中,給出了按順序排列的主成分得分的方差(Total),在數值上等于相關系數矩陣的各個特征根 入,因此可以直接根據特征根計算每一個主成分的方差百分比(% ofVariance)。由于全部特征根的總和等于變量數目,即有m=習入=8,故第一個特征根的方差百分比為 Rm=3.755/8=46.939 ,第二個特征根的百分比為 切 m=2.197/8= 27.459,其余依此類推。 然后可以算出方
23、差累計值(Cumulative %)。在 ExtractionSums of Squared Loadings,給出了從左邊欄目中提取的三個主成分及有關參數,提取的 原則是滿足 41,這一點我們在 圖 6 所示的對話框中進行了限定。Total V ariance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative%Total% of VarianceCumulative%13.75546.93946.939 :3.75546.93946.9392
24、2.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000Extraction Method: Principal Component Analysis.Scree PlotComponent Number圖8特征根數值衰減折線圖(山麓圖)主成分的數目可以根據相關系數矩陣的特征根來判定,如前所說,相關系數矩陣的特epavnegE8征根剛好等于主成分
25、的方差,而方差是變量數據蘊涵信息的重要判據之一。根據能決定主成分數目的準則有三:i只取A1的特征根對應的主成分從 Total Variance Explained表中可見,第一、第二和第三個主成分對應的膻都大于 1,這意味著這三個主成分得分的方差都大于1。本例正是根據這條準則提取主成分的。ii累計百分比達到80%85%以上的 膻對應的主成分在 Total Variance Explained表可以看出,前三個主成分對應的游累計百分比達到 89.584%,這暗示只要選取三個主成分,信息量就夠了。iii根據特征根變化的突變點決定主成分的數量從特征根分布的折線圖(Scree Plot)上可以看到,第
26、 4 個膻是一個明顯的折點,這 暗示選取的主成分數目應有 p 4 (圖 8)。那么,究竟是 3 個還是 4 個呢?根據前面兩條 準則,選 3 個大致合適(但小有問題)。在 Component Matrix (成分矩陣)中,給出了主成分載荷矩陣,每一列載荷值都顯 示了各個變量與有關主成分的相關系數。以第一列為例,0.885 實際上是國內生產總值(GDP) 與第一個主成分的相關系數。將標準化的 GDP 數據與第一主成分得分進行回歸,決定系數 R2=0.783(圖 9),容易算出 R=0.885,這正是 GDP 在第一個主成分上的載荷。Component MatrixaComponent123國內生
27、產.885.384.121居民消費.607-.598.271固定資產.912.161.212職工工資.466-.722.368貨物周轉.486.738-.275消費價格-.509.252.797商品零售-.620.594.438工業產值.823.427.211Extraction Method: Principal Component Analysis. a. 3 components extracted.下面將主成分載荷矩陣拷貝到 Excel上面作進一步的處理:計算公因子方差和方差 貢獻。首先求行平方和,例如,第一行的平方和為h12=0.88492+0.38362+0.12092=0.944
28、9這是公因子方差。然后求列平方和,例如,第一列的平方和為SI2=0.88492+0.60672+,+0.82272=3.7551這便是方差貢獻(圖 10)。在 Excel中有一個計算平方和的命令 sumsq,可以方便地算出 一組數據的平方和。顯然,列平方和即方差貢獻。事實上,有如下關系成立:相關系數矩陣的特征根=方差貢獻=主成分得分的方差至于行平方和,顯然與前面 公因子方差(Communalities )表中的 Extraction列對應的數 據一樣。如果我們將8個主成分全部提取,則主成分載荷的行平方和都等于1 (圖 11),即有 n=1,S=九。到此可以明白:在 CommunalitieS中
29、,Initial對應的是初始公因子方差, 實際上是全部主成分的公因子方差; Extraction對應的是提取的主成分的公因子方差 ,我 們提取了 3個主成分,故計算公因子方差時只考慮 3 個主成分。9國內生產總值圖9國內生產總值(GDP的與第一主成分的相關關系(標準化數據)ABCD|_ E5第一主成分第二主成分第三主成分公因子方差6國內生產0. 8849000. 3836190.1208860. 9448247居民消費0. 606719-0. 5981770. 2713130. 7995348固定資產0. 9116870.1611060. 2119970. 9020719職工工資0. 4662
30、22-0. 7224100. 3679380. 87461710貨物周轉0. 4858310. 738275-0. 2752520. 85684511銷費價格-0. 5085630. 2519090. 7966330. 95671812荷品零售-0. 6195890. 5943750. 4375550. 92862713工業產值0. 8227290. 4267370. 2109700. 90349614方差貢獻3.7551332.196704L2148957.16673315特征根3. 7551332.1967041.2148957. 166733圖10主成分方差與方差貢獻Component
31、MatrixaComponent12345678國內生產.885.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消費.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定資產.912.161.212-.270-7.71E-028.271E-028.113E-02-7.36E-02職工工資.466-.722.368-.164.304-1.64E-02-7.62E-023.949E-03貨物周轉.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消費價格-
32、.509.252.797.0722.716E-02-.161.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工業產值.823.427.211.209-9.38E-02-.137-.157-2.30E-02Extraction Method: Principal Component Analysis.a. 8 components extracted.101ABCDEFGHIJ12345678公因子方差公因子方差2國內生產0.8B490. 38360.1209 -0. 2032-0.06870. 01140.02
33、420. 091913居民消費0. 6067 -0,5930. 27130. 4085 -0. 07610, 15680. 0552 0.013214固定流產0.91171G1L0. 212 -0. 2705-0. 07710. 08270.0811-(, 0741 I5職工工資0. 4662 -0.7220. 3679-0. 16350. 30421-0,016-0.0760.003916貨物周轉0. 4858 0.7383-0.2750. 211840. 305020. 02250. 06S5 -0. 00617消費價格-0, 5092519 0. 79660071760. 02716-0
34、.1610.10710.00241 1S商品零售-0. 620.59440. 4376 -0. 02670. 035310. 2468-0.0920.001619工業產值0. 8227 0.42670. 211 0.20S88-0. 0938-0, 137-0.157-0. 023110方差靈獻方差靈獻3. 7551 2.1967L 2149 0. 402440. 212S 0.13S0. 06540. 01468 111 特征根特征根3.75512.19671. 21490.402440. 21280.13S0.。睫土0. 01461.133E-04圖11全部主成分的公因子方差和方差貢獻提取
35、主成分的原則上要求公因子方差的各個數值盡可能接近,亦即要求它們的方差極小,當公因子方差完全相等時,它們的方差為0,這就達到完美狀態。實際應用中,只要公因子方差數值彼此接近(不相差太遠)就行了。從上面給出的結果可以看出:提 取 3 個主成分的時候,居民消費的公因子方差偏小,這暗示提取3個主成分,居民消費方面的信息可能有較多的損失。至于方差貢獻,反映對應主成分的重要程度,這一點從方 差的統計學意義可以得到理解。在圖 11中,將最后一行的特征根全部乘到一起,得 0.0001133 ,這正是相關系數矩 陣的行列式數值(在Excel中,求一組數據的乘積之和的命令是product )。最后說明 Compo
36、nentscore Coefficient Matrix (成分得分系數矩陣)和 Component Score Covariance Matrix(成分得分協方差矩陣),前者是主成分得分系數,后者是主成分得分的協方差即相關系數。從Component Score Covariance Matrix可以看出,標準化主成分得分之間的協方差即相關系數為0 (j豐k)或 1 (j=k),這意味著主成分之間彼此正交即垂直。初學者常將 Component Score Coefficient Matrix表中的數據當成主成分得分或因子得分, 這是誤會。 成分得分系數矩陣的數值是主成分載荷除以相應的特征根得到
37、的結 果。 在 ComponentMatrix表中,將第一列數據分別除以為=3.755,第二列數值分別除以為=2.197, 立即得到 ComponentScore Coefficient ;反過來,如果將 Component Score Coefficient Matrix 表中的各列數據分別乘以方=3.755 , *=2.197,則可將其還原為主成分載荷即 Component Matrix中的數據。Component Score Coefficient MatrixComponent123國內生產.236.175.100居民消費.162-.272.223固定資產.243.073.174職工工
38、資.124-.329.303貨物周轉.129.336-.227消費價格-.135.115.656商品零售-.165.271.360工業產值.219.194.174Extraction Method: Principal Component Analysis. Component Scores.11Component Scor e Covariance Matr ixComponent12311.000.000.0002.0001.000.0003.000.0001.000Extraction Method: Principal Component Analysis. Component Sco
39、res.實際上, 主成分得分在原始數據所在的 SPS對前數據欄中給出, 不過給出的都是標 準化的主成分得分 (圖12a);將各個主成分乘以相應的/ 波叫寺征根的二次方根可以將其 還原為未經標準化的主成分得分。圖12兩種主成分得分計算標準化主成分得分的協方差或相關系數,結果與Component Score Covariance得分1 |得分2得分 3.42743-1.52320.49020.33935-1 78001-1.06264700551.58632-1.19211-5102B.26259-51833-03667.48824- 34594.85022.66619-.56565-19958-
40、28604-1 09746.27330.22055-642881 64990-2.211322.615631 84235,05093.34924.97196- 32761.20459.22957.08007*1.68897.21602-.62016-.59561-71726.20176-.479531 54S011.39467.49539.527421,44744-.85361-.14599.977271.03843-.21177.7167323108j-.67419.08630-.59311.25733.33602)-.29055-1.54444-2.18402.293711.33351.77269-1.44632.396411.10800-1.04217.48771171494-1.040231.36153.01475-.91716.47657.41703-1.09189.11265.62990)-1 21110-.72568.23914-1.11530-.67162-44176- 88905-.02915.92508得分一得分二得分三.64250-2.29500.54B70
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建設施工合同延期協議
- 專利合伙開公司合同協議
- it服務合同外包協議
- 上海鏈家合同協議
- 合同變更免責協議書范本
- 合同法家庭財產協議
- 三方消費協議合同模板
- 合同訂購獸藥協議
- 專業包裝修工程合同協議
- 店面轉買定金合同協議
- DB13T 1563-2012 淡水池塘標準化改造技術規范
- 偏頭痛PPT課件(PPT 43頁)
- 語料庫在英語教學中的應用.課件
- 工程管理專業畢業論文——施工組織設計
- 最新國際貿易術語培訓
- 2021年高考真題--化學(江蘇卷)(附解析)
- 項目功能需求調研表通用精選文檔
- 基于節約里程法的大潤發超市濟南地區配送路徑優化研究
- 工廠個人簡歷登記表格
- JJG機動車檢測專用軸輪重儀檢定規程
- 化工概論:典型化工工藝
評論
0/150
提交評論