多元統計方法之主成分分析_第1頁
多元統計方法之主成分分析_第2頁
多元統計方法之主成分分析_第3頁
多元統計方法之主成分分析_第4頁
多元統計方法之主成分分析_第5頁
已閱讀5頁,還剩95頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、主成分分析Principal Component Analysis, PCA多元統計方法中國計量學院理學院數學系1 引言2 主成分分析的基本概念 主成分分析的目標 主成分分析的數學模型 主成分的幾何解釋 主成分的幾個性質 主成分的選取和使用條件 主成分分析的算法3 主成分分析的應用案例(采用基本的Matlab命令)4 Statistics Toolbox中的主成分分析函數及應用5 SPSS在主成分分析中的使用及案例中國計量學院理學院數學系 在學生學習過程中,已經修完p門課程,其成績為x1,x2,xp,如何評價每個學生的綜合能力?假設每門課程有權重c1,c2,cp,則加權之和為:s= c1x1+

2、c2x2+cpxp。 每個學生對應這樣一個成績,假設有n個學生,其成績分別為:s1,s2,sn。如果這些值很分散,表明每個人的綜合能力能很好地區分。關鍵是如何確定權重c1,c2,cp?在數學上反映的問題是什么呢? 1. 引言 中國計量學院理學院數學系 基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數幾個線性組合來解釋原來變量絕大多數信息的一種多元統計方法。 一方面人們為了避免遺漏重要的信息而考慮盡可能多的指標, 另一方面隨著考慮指標的增多增加了問題的復雜性,同時由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信

3、息的重疊有時甚至會抹殺事物的真正特征與內在規律。中國計量學院理學院數學系 一項十分著名的工作是美國的統計學家斯通(stone)在1947年關于國民經濟的研究。他曾利用美國1929一1938年各年的數據,得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產資料、純公共支出、凈增庫存、股息、利息外貿平衡等等。 在進行主成分分析后,竟以97.4的精度,用三個新變量就取代了原17個變量。根據經濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經濟發展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化

4、率I以及時間t因素做相關分析,得到下表:中國計量學院理學院數學系F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121中國計量學院理學院數學系2. 主成分分析的基本概念 主成分分析的目標主成分分析,亦稱主分量分析.數學本質利用降維技術,將多個變量(指標)歸少數綜合指標.結為線性無關的幾個(少數)主成分(綜合指標).目標化簡多指標系統,構造方便系統分析的中國計量學院理學院數學系 主成分分析的數學模型 適合用主成分分析的數據具有如下結構:樣本指 標 主成分分析最

5、大的問題是受量綱的影響,因此,實際應用中,需要對數據進行標準化。一般使用協方差矩陣或相關系數矩陣R進行分析。x11x21x31xn1中國計量學院理學院數學系設原始 樣本點變量 型數據資料陣其中 求線性組合(主成分) Fi表示第i個主成分,也即中國計量學院理學院數學系 這是由于一個主成分不足以代表原來的p個變量的信息。因此需要尋找第二個乃至第三、四個主成分,原則上,第二個主成分不應該再包含第一個主成分的信息,統計上的描述就是讓這兩個主成分的協方差為零,幾何上就是這兩個主成分的方向正交。滿足條件 中國計量學院理學院數學系F 2F 1X 1X 2 主成分的幾何解釋 以最簡單的二元正態變量來說明主成分

6、的幾何意義 . 其 n 個樣本點 的散布大致為一個橢圓.n 個點的在平面上作一個坐標變換,即按坐標 X1 和 X2 呈現某種線性相關性 .逆時針方向旋轉角度 .在坐標系 X1 OX2 中,取新坐標軸,在橢圓長軸方向取F1 , 短軸方向取F2 .根據旋軸變換公式新老坐標之間有關系 n 個點的坐標 F1 和 F2 幾乎不相關.在坐標系 F1 OF2 中,F 2F 1X 1X 2在 F1 軸上的方差達到最大,在此方向上所含的有關 n 個樣品間差異的信息是最多的 ,故稱 F1 為 第一主成分 .在和 F1 正交的軸 F2 上方差較小,稱 F2 為 第二主成分 .因此,用一維空間代替二維空間時,選用 F

7、1 可使信息的損失降到最小.這種系統簡化方法體現了抓事物主要矛盾的哲學思維.=? 主成分的幾個性質矩陣為 , 的特征值為 單位特征向量為 令 則 記 定理 設 p 個 n 維隨機向量 的協方差相應的說明 主成分就是以協方差矩陣的單位特征向量之間互不相關,主成分的名次是按特征根取值大小的順為系數的線性組合,主成分方差為的特征值,主成分序排列的.推論1的協差陣為對角陣主成分推論2 主成分的總方差 推論4 推論5 推論3 原始變量與主成分之間的相關系數 中國計量學院理學院數學系 主成份的選取與使用條件 方差貢獻率 第 k 個主成分的方差貢獻率 前 k 個主成分的累積方差貢獻率 在解決實際問題時, 一

8、般不是取 p個主成分, 而是根據累計貢獻率的大小取前 k個, 累計貢獻率達到85%; 這樣就基本包含了全部測量指標所具有的信息, 這樣即減少了變量的個數有便于對實際問題的分析和研究 . 使用條件 主成分分析適宜用于大樣本的場合.主成分分析要求變量之間有一定的相關關系: 主成分分析的算法 設有n個樣品,每個樣品觀測p項指標,將原始數據寫成矩陣 將原始數據標準化(這里為了書寫方便,不妨設上邊矩陣已標準化了)。 建立變量的相關系數陣 求得特征根 及相應的單位特征向量 寫出主成分包括對主成分的解釋中國計量學院理學院數學系 在企業經濟效益的評價中,涉及的指標往往很多。為了簡化系統結構,抓住經濟效益評價中

9、的主要問題,我們可由原始數據矩陣出發求主成分。在對我國部分省、市、自治區獨立核算的工業企業的經濟效益評價中,涉及到9項指標,原始數據見表5-7,即樣品數n=28,變量數p=9。3. 主成分分析的應用案例 數據文件為czsr2003.txt.中國計量學院理學院數學系 100固定資產原值實現值(%)100元固定資產原值實現利稅(%)100元資金實現利稅(%)100元工業總產值實現利稅(%)100元銷售收入實現利稅(%)每噸標準煤實現工業產值(元)每千瓦時電力實現工業產值(元)全員勞動生產率(元/人.年)100元流動資金實現產值(元)北京(1)119.2930.9829.9225.9715.4821

10、783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7內蒙(5)54.799.249.5416.866.278941.87564225.4遼寧(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龍江(8)7

11、5.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江蘇(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表3-1中國計量學院理學院數學系 江西

12、(14)94.9414.714.1815.496.6916692.2410463274.4山東(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309廣東(19)136.4423.6420.8317.337.8529593.7116259334廣西(20)100.7222.0420

13、.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5貴州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陜西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肅(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551

14、.319246176.49寧夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266續表3-1中國計量學院理學院數學系clear load czsr2003.txt n,p=size(czsr2003);MEAN=mean( czsr2003) ; %求各變量的均值STD=std( czsr2003); %求各變量的標準差MEAN=ones(n,p)*diag(MEAN);STD=ones(n,p)*diag(STD);x=(czsr2003-MEAN)./STD; %原始

15、數據標準化 原始數據標準化 R=cov(x); 注釋: 由于數據已經過標準化處理,故x的協方差矩陣等于其相關系數矩陣,即R=corrcoef(x).2. 建立變量的協方差矩陣 V,D=eig(R); 注釋: 函數eig的功能是對矩陣R進行正交對角化變換,矩陣D是以R的特征值為對角元的對角矩陣(對角元按從小到大的順序排列),矩陣V是正交變換矩陣。3. 求得特征根及相應的單位特征向量中國計量學院理學院數學系DD= ; %將特征值對角矩陣D改寫為列向量DDfor i=p:-1:1 %此處要注意eig函數的輸出D中特征值的排列順序DD=DD;D(i,i);end OFFER=DD/sum(DD); %

16、計算特征值的方差貢獻率 cumOFFER=cumsum(DD)/sum(DD); %計算特征值的方差累計貢獻率 OUTCOME=DD,OFFER,cumOFFER %綜合輸出計算結果 4. 寫出主成分 計算主成分的方差貢獻率和累計方差貢獻率OUTCOME = 6.1499 0.6833 0.6833 1.4729 0.1637 0.8470 0.6974 0.0775 0.9245 0.3178 0.0353 0.9598 0.1900 0.0211 0.9809 0.1160 0.0129 0.9938 0.0291 0.0032 0.9970 0.0243 0.0027 0.9997 0.

17、0024 0.0003 1.0000OUTCOME=DD,OFFER,cumOFFER %綜合輸出計算結果中國計量學院理學院數學系 選取主成分 根據特征值的方差累計貢獻率,取前2個(貢獻率達84.70%)或前3個(貢獻率達92.45%)主成分即可。PCACOV=V(:,end:-1:end-2) %輸出正交單位化的特征向量矩陣V的前3列 PCACOV = 0.3756 0.2595 -0.0141 0.3934 -0.1344 -0.0853 0.3753 -0.2653 -0.1074 0.0935 -0.7113 -0.5223 0.1746 -0.4913 0.8022 0.3721 0

18、.1650 -0.2246 0.3616 0.2254 0.0424 0.3513 0.0524 0.0830 0.3626 0.1268 0.0747 (3) 分析并命名主成分 對所選主成分作經濟解釋。主成分分析的關鍵在于能否給主成分賦予新的意義,給出合理的解釋,這個解釋應根據主成分的計算結果結合定性分析來進行。主成分是原來變量的線性組合,在這個線性組合中,各變量的系數有大有小,有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量的屬性的作用。 線性組合中個變量的系數的絕對值大者表明該主成分主要綜合了絕對值大的變量,有幾個變量系數大小相當時,應認為這一主成分是這幾個變量的總和,這

19、幾個變量綜合在一起應賦予怎樣的經濟意義,要結合經濟專業知識,給出恰如其分的解釋,才能達到深刻分析經濟成因的目的。 第一主成分的線性組合中除了100元工業總產值實現利稅和100元銷售收入實現利稅外,其余變量的系數相當,所以第一主成分可看成是x1, x2, x3, x6, x7, x8, x9 的綜合變量。可以解釋為第一主成分反映了工業生產中投入的資金、勞動力所產生的效果,它是“投入”與“產出”之比。第一主成分所占信息總量為68.3%,在我國目前的工業企業中,經濟效益首先反映在投入與產出之比上,其中固定資產的有效所產生的經濟效益更大一些。第一主成分的系數取為0.3756 0.3934 0.3753

20、 0.0935 0.1746 0.3721 0.3616 0.3513 0.3626中國計量學院理學院數學系 第二主成分是把工業生產中所得總量(即工業總產值和銷售收入)與局部量(即利稅)進行比較,反映了“產出”對國家所作的貢獻。這樣,在抓企業經濟效益活動中,就應注重投入與產出之比和產出對國家所作的貢獻,抓住了這2個方面,經濟效益就一定會提高。第二主成分的系數取為0.2595 -0.1344 -0.2653 -0.7113 -0.4913 0.1650 0.2254 0.0524 0.1268中國計量學院理學院數學系 第三主成分你又如何解釋呢?第三主成分的系數取為-0.0141 -0.0853

21、-0.1074 -0.5223 0.8022 -0.2246 0.0424 0.0830 0.0747如何解釋第二、三主成分主成份系數的負號,可能需要更多的經濟學理論的支持。中國計量學院理學院數學系主成分分析的應用案例二 下列數據是2003年全國31個省市自治區11項指標的財政收入數據(單位:萬元)。 地區編號:1.北京、2.天津、3.河北、4.山西、5.內蒙古、6.遼寧、7.吉林、8.黑龍江、9.上海、10.江蘇、11.浙江、12.安徽、13.福建、14.江西、15.山東、16.河南、17.湖北、18.湖南、19.廣東、20.廣西、21.海南、22.重慶、23.四川、24.貴州、25.云南、

22、26.西藏、27.陜西、28.甘肅、29.青海、30.寧夏、31.新疆補充:指標編號:1.增值稅、2.營業稅、3.企業所得稅、4.個人所得稅、5.城市維護建設稅、6.印花稅、7.耕地占用稅、8.行政性收費收入、9.罰沒收入、10.專項收入、11.其他收入中國計量學院理學院數學系OUTCOME = 8.5003 0.7728 0.7728 1.0981 0.0998 0.8726 0.8206 0.0746 0.9472 0.2622 0.0238 0.9710 0.1347 0.0122 0.9833 0.0969 0.0088 0.9921 0.0521 0.0047 0.9968 0.02

23、25 0.0020 0.9988 0.0066 0.0006 0.9994 0.0050 0.0005 0.9999 0.0011 0.0001 1.0000 (1) (2)步驟略去,看結果:中國計量學院理學院數學系PCACOV = 0.3357 0.0975 -0.0581 0.3224 0.2269 0.2466 0.3256 0.2465 0.1586 0.3190 0.2154 0.2960 0.3273 -0.0114 -0.1988 0.3183 0.2461 0.2628 0.2381 0.0979 -0.7299 0.2797 -0.4337 -0.0160 0.3011 -0

24、.3115 -0.2335 0.3267 -0.0275 -0.1187 0.1867 -0.6897 0.3358中國計量學院理學院數學系 (3) 分析并命名主成分 PCACOV的三個列向量應為三個主成分的系數向量,而每一個系數向量在一定程度上代表了相應變量與該主成分的相關性(與相關系數相差一個常數)。 因此,如果從稅收對財政收入貢獻的角度理解,考慮PCACOV的第一列向量中元素絕對值的大小和最大特征值的方差貢獻率(77.28%),可以認為: 第一主成份由增值稅、營業稅、企業所得稅、個人所得稅、城市維護建設稅、印花稅和專項收入組成的綜合指標(企業稅賦指數);按通常的理解稅收與財政收入是正相關

25、的,因此,第一主成份系數取為:0.3357 0.3224 0.3256 0.3190 0.3273 0.3183 0.2381 0.2797 0.3011 0.3267 0.1867.中國計量學院理學院數學系 第二主成分由行政性收費收入,罰沒收入和其他收入組成的綜合指標(行政干預指數) ;第二主成份系數取為:0.0975 0.2269 0.2465 0.2154 -0.0114 0.2461 0.0979 -0.4337 -0.3115 -0.0275 -0.6897. 第三主成分可單獨看成是由耕地占用稅構成的指標(耕地消耗指數);第三主成分系數取為:-0.0581 0.2466 0.1586

26、 0.2960 -0.1988 0.2628 -0.7299 -0.0160 -0.2335 -0.1187 0.3358.中國計量學院理學院數學系4. Statistics Toolbox主成分分析函數及應用用原始數據進行主成份分析【函數與語法】PC=princomp(x) PC,SCORE,latent,tsquare=princomp(x) 【參數說明】 x 原始數據矩陣(樣本點變量) PC 主成分系數向量(列) SCORE 樣本點的主成分得分 latent x的協方差矩陣的特征值 tsquare 每一個樣本點的HotellingT2統計量的值注意:princomp函數沒有數據標準化的功

27、能。【應用czsr2003.txt】 PC,SCORE,latent,tsquare=princomp(x) 2. 用原始標準化數據的協方差矩陣進行主成分分析【函數與語法】PC=pcacov(R) PC, latent,explained=pcacov(R) 【參數說明】 R 原始數據矩陣(樣本點變量) PC 主成分系數向量(列) latent 相關矩陣R的特征值 explained 每一個主成分的方差貢獻率注意,princomp函數沒有數據標準化的功能。【應用czsr2003.txt】 PC, latent,explained=pcacov(R) 【例5-1】 數據集Employee dat

28、a為Midwestern銀行在1969-1971年之間雇員情況的數據,共包括474條觀測及如下10個變量:Id(觀測號)、Gender(性別)、Bdate(出生日期)、Educ(受教育程度(年數)、Jobcat(工作種類)、Salary(目前年薪)、Salbegin(開始受聘時的年薪)、Jobtime(受雇時間(月)、Prevexp(受雇以前的工作時間(月)、Minority(是否少數民族)。下面我們用主成分分析方法處理該數據,以期用少數變量來描述該地區居民的雇傭情況。 SPSS軟件FACTOR模塊提供了主成分分析的功能。下面先以SPSS軟件包自帶的數據Employee data.sav為例介

29、紹主成分分析的上機實現方法,在SPSS軟件的安裝目錄下可以找到該數據集;然后,我們舉一個實際的例子介紹主成分分析的具體應用。5. SPSS在主成分分析中的使用及案例中國計量學院理學院數學系8/24/202242 進入SPSS軟件,打開數據集Employee data.sav。依次點選AnalyzeData ReductionFactor.進入Factor Analysis(因子分析)對話框(在SPSS軟件中,主成分分析與因子分析均在Factor Analysis模塊中完成)。此時,數據集Employee data.sav中的變量名均已顯示在左邊的窗口中,依次選中變量educ、salary、sa

30、lbegin、jobtime、prevexp并點向右的箭頭按鈕,這五個變量便進入variables窗口(此時若選中variables窗口中的變量,則窗口左側的箭頭按鈕即轉向左側,點此按鈕即可剔除所選中變量)。點擊右側的OK按鈕,即可得到如下輸出結果5-1。中國計量學院理學院數學系輸出結果5-1(2)輸出結果5-1(1)中國計量學院理學院數學系輸出結果5-1(3)中國計量學院理學院數學系45 其中Communalities給出了該次分析從每個原始變量中提取的信息,表格下面的注示表明,該次分析是用Factor analysis模塊默認的信息提取方法即主成分分析完成的。可以看到除受教育程度信息損失較

31、大外,主成分幾乎包含了各個原始變量至少90%的信息。Total Variance Explained表則顯示了各主成分解釋原始變量總方差的情況,SPSS默認保留特征根大于1的主成分,在本例中看到當保留3個主成分為宜,這3個主成分集中了原始5個變量信息的90.66%,可見效果是比較好的。實際上,主成分解釋總方差的百分比也可以由Communalities表中計算得出,即 (0.896+0.916+0.999+0.968+0.754)/5=90.66%。Component Matrix表中給出了標準化原始變量用求得的主成分線性表示的近似表達式,我們以表中Current Salary一行為例,不妨用

32、prin1、prin2、來表示各個主成分,則由Component Matrix表可以得到:標準化的salary 中國計量學院理學院數學系8/24/2022 在上面的主成分分析中,SPSS默認是從相關陣出發求解主成分,且默認保留特征根大于1的主成分,實際上,對主成分的個數我們可以自己確定,方法為:進入Factor Analysis對話框并選擇好變量之后,點擊Extraction選項,在彈出的對話框中有一個Extract選擇框,默認是選擇Eigenvalues over 1也就是保留特征根大于1的主成分,我們可以輸入別的數值來改變SPSS軟件保留特征根的大小;另外,還可以選擇Number of F

33、actors選項直接確定主成分的個數。在實際進行主成分分析時可以先按照默認設置做一次主成分,然后根據輸出結果確定應保留主成分的個數,用該方法進行設定后重新分析。 因為我們上面的結果是默認從相關陣出發得到的,而由相關陣出發求得的主成分其性質有簡單的表達形式,我們可以方便地加以驗證。中國計量學院理學院數學系由Component Matrix中的結果可以得到:等于第一主成分的方差,這就驗證了主成分的推論4。又有:這恰好與Communalities表中三個主成分提取salary變量的信息相等。我們重做一遍主成分分析,此次將5個主成分全部保留,得到Component Matrix表如輸出結果5-2: 中

34、國計量學院理學院數學系輸出結果5-2可以看到前三個主成分的相應結果與輸出結果5-1中的對應部分結果是一致的。對上表中結果有如下關系式:中國計量學院理學院數學系這就驗證了推論5。由此表還可以得到標準化原始變量用各主成分線性表示的精確的表達式,以仍以Current Salary為例,有:標準化的 salary 由SPSS軟件默認選項輸出的結果,我們還不能得到用原始變量表示出主成分的表達式,要得到這個結果及其他一些有用的結果,就需要對Factor Analysis模塊中的設置做一些調整,方法如下: 進入Factor Analysis對話框并選擇好變量之后,點擊對話框下部的Scores按鈕進入Fact

35、or Scores對話框,選擇Display factor score coefficient matrix選項并按Continue繼續,該選項是讓系統輸出主成分得分系數矩陣。點擊OK按鈕運行,則除了默認結果,還輸出如下輸出結果5-3:中國計量學院理學院數學系輸出結果5-3上表中給出了用原始變量表示主成分的系數信息。因為系統默認是從相關矩陣出發進行分析,所以,上面表格中的系數是將原始變量標準化后表示主成分的系數。也就是說,有下式成立: 中國計量學院理學院數學系 應當注意的是,此處SPSS給出的用原始變量表示主成分的表達式得到的是標準化后的主成分,也就是說,這樣求得的主成分的方差是1,而不是原始

36、變量相關矩陣的各個特征根了。如上式中,第一主成分的方差為2.477,而用上式求得的主成分方差為1,要得出未標準化的主成分與原始變量的表達式,只需將SPSS軟件給出的系數前面乘以主成分方差的平方根即可,未標準化第一主成分與原始變量的關系式如下:類似可以寫出第二、第三個主成分用標準化后的原始變量表示的表達式。中國計量學院理學院數學系 【例5.2同例3.1】在企業經濟效益的評價中,涉及的指標往往很多。為了簡化系統結構,抓住經濟效益評價中的主要問題,我們可由原始數據矩陣出發求主成分。在對我國部分省、市、自治區獨立核算的工業企業的經濟效益評價中,涉及到9項指標,原始數據見表5-7,即樣品數n=28,變量

37、數p=9。中國計量學院理學院數學系 100固定資產原值實現值(%)100元固定資產原值實現利稅(%)100元資金實現利稅(%)100元工業總產值實現利稅(%)100元銷售收入實現利稅(%)每噸標準煤實現工業產值(元)每千瓦時電力實現工業產值(元)全員勞動生產率(元/人.年)100元流動資金實現產值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)

38、65.811.0811.0612.1516.848.821.6510166284.7內蒙(5)54.799.249.5416.866.278941.87564225.4遼寧(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龍江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江蘇(10)205.9627.6522.5813.427

39、.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表5-7中國計量學院理學院數學系 江西(14)94.9414.714.1815.496.6916692.2410463274.4山東(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.

40、127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309廣東(19)136.4423.6420.8317.337.8529593.7116259334廣西(20)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5貴州(22)59.0514.4814.3524.538.0910681.32

41、9710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陜西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肅(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551.319246176.49寧夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266續表5-7中國計量學院理

42、學院數學系55 0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.740046-1.79273-0.84655-0.56349-0.15927-1.0699

43、2-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-0.62003-0.466192.0095833.0809562.9886561.

44、3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.5557832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.8186910.5038680.3503370.172033-0.24423-0.383850

45、.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表5-8中國計量學院理學院數學系 -0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085

46、810.1159940.279260.375190.2603510.070190.2277050.3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.1403

47、6-0.30489-0.89101-0.97128-0.58868-0.620141.322972-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81

48、645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.432779-0.42603-0.48353續表5-8中國計量學院理學院數學系 將表5-8數據導入spss軟件,依次點選Analyze-Data Reduction-Factor進入Factor Analys

49、is對話框。(在spss中,主成分分析與因子分析均在Factor Analysis模塊中完成。)如圖5-4所示:圖5-4中國計量學院理學院數學系 此時,數據集5-5.sav中的變量名均顯示在對話框左邊的窗口中,選擇變量x1,x2,x3,x4,x5,x6,x7,x8,x9進入variables窗口中,操作如圖5-5所示:圖5-5中國計量學院理學院數學系 圖5-5 點擊descriptives按鈕,在彈出的對話框中,在correlation matrix中選擇coefficients 。回到原對話框點擊右側的Ok,即可得到輸出結果5-4 和輸出結果5-5。中國計量學院理學院數學系60 輸出結果5-

50、4中國計量學院理學院數學系 輸出結果5-5由輸出結果5-4看到,前面2個主成分 、 的方差和占全部方差的比例為84.7%。我們就選取 為第一主成分,為第二主成分,且這兩個主成分之方差和占全部方差的84.7% %,即基本上保留了原來指標的信息,這樣由原來的9個指標轉化為2個新指標,起到了降維的作用。中國計量學院理學院數學系 SPSS軟件得到主成分系數矩陣如下:中國計量學院理學院數學系 由上表得到前2個主成分, , 的線性組合為: (5.13) 中國計量學院理學院數學系 通常為了分析各樣品在主成分所反映的經濟意義方面的情況,還將標準化后的原始數據帶入主成分表達式計算出各樣品的主成分得分,由各樣品的

51、主成分得分(當主成分個數為2時)就可在二維空間中描出各樣品的分布情況。 將表5-8數據代入式(5.13)式,得到28個省、市、自治區的主成分得分,見表5-9。將這28各樣品在平面直角坐標系上描出來,進而可進行樣品分類。主成分得分圖見圖5-6。中國計量學院理學院數學系 樣品號第一主成分得分第二主成分得分11.135631.9987521.506450.442053-0.19631-0.080544-0.815360.316885-1.20017-0.603566-0.168561.044517-0.65065-0.667128-0.419990.5704192.837911.13592101.5

52、905-2.31268111.76154-1.50077120.02914-0.493130.20663-0.4310314-0.4798-1.03236150.39695-0.2989316-0.414350.08055170.14309-0.2474118-0.017560.31942190.73347-1.08331200.055450.5923621-0.56854-0.5028522-0.904951.0864123-0.008531.9777124-0.65494-0.3346325-0.663361.4408126-1.37435-0.4882327-1.2372-0.69389

53、28-0.62211-0.23546表5-9續表5-9中國計量學院理學院數學系 圖5-6由圖5-6可看出,分布在第一象限的是上海、北京、天津、廣西這4個省,這四個省、市、自治區的經濟效益在全國來說屬于比較好的,其中上海的經濟效益最好。分布在第四象限的江蘇、浙江、安徽、福建、山東、湖北、廣東七個省、市、自治區。因為第四象限的主要特征是第一主成分,第一主成分占信息總量的比重最大,所以這七個省的經濟效益也算比較好。分布在第二象限和第三象限的地區可屬同一類,經濟效益較差。中國計量學院理學院數學系 主成分得分操作:在Factor Analysis主對話框,點擊下方的Scores按鈕,進入Factor S

54、cores對話框,選中save as variables復選框,點擊continue。系統默認用回歸方法求得因子得分。見圖5-7。 圖5-7中國計量學院理學院數學系【作業】 全國重點水泥企業經濟效益綜合評價例。 利用主成分綜合評價全國重點水泥企業的經濟效益。原始數據(數據來自1984年中國統計年鑒)見表5-10。中國計量學院理學院數學系 廠家編號及指標固定資產利稅率資金利稅率銷售收入利稅率資金利潤率固定資產產值率流動資金周轉天數萬元產值能耗全員勞動生產率1琉璃河16.6826.7531.8418.453.255528.831.752邯鄲19.727.5632.9419.259.825532.9

55、22.873大同15.223.432.9816.2446.786541.691.534哈爾濱7.298.9721.34.7634.396239.281.635華新29.4556.4940.7443.6875.326926.682.146湘鄉32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀縣19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476

56、235.081.7311工源16.7528.7229.6219.2355.765830.081.5212撫順15.8328.0326.417.4361.196132.751.613大連16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-10中國計量學院理學院數學系1.利用一般的Matlab命令將數據標準化;2. 利用Matlab命令計算出相關矩陣的方差及特征值;3.寫出主成分的線性表達式;4.利用統計工具箱中命令得到

57、如上結果;5.利用SPSS進行主成分分析;6.對得到的結果作出解釋;7.自學主成分回歸的內容。需要完成:中國計量學院理學院數學系6. 主成分回歸介紹中國計量學院理學院數學系 國際旅游外匯收入是國民收入是國民經濟發展的重要組成部分,影響一個國家或地區旅游收入的因素包括自然、文化、社會、經濟、交通等多方面的因素。中國統計年鑒把第三次產業劃分為12個組成部分,分別為: 一、提出問題中國計量學院理學院數學系x1:農林牧漁服務業 x2:地質勘查水利管理業x3:交通運輸倉儲和郵電通訊業 x4:批發零售貿易和餐食業x5:金融保險業 x6:房地產業 x7:社會服務業 x8:衛生體育和社會福利業 x9:教育文藝

58、和廣播 x10:科學研究和綜合藝術x11:黨政機關 x12:其他行業 選自1998年我國31個省、市、自治區的數據。以旅游外匯收入(百萬美圓)為因變量。自變量的單位為億元人民幣。數據略。 中國計量學院理學院數學系InterceptCoefficients -205.236116.8459-1.75646 0.096008標準誤差t StatP-valueX Variable 1-1.4004522.8676-0.061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.339339

59、0.197128X Variable 4-0.944021.296117-0.728340.475774X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.89

60、4711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variable 121.3507095.0015040.270060.790186 這個模型是不理想的,一個最嚴重的問題是多重共線性的問題。中國計量學院理學院數學系線性回歸模型的方差分析表方差來源自由度離差平方和方差F統計量顯著性水平回歸分析1211690140 974178.3 10.51335 8.15025E-06 殘差181667899 92661.04 總計3113358039 利用主成分的互不相關性來建立應變量與主成分的回歸,在理論上可以達到消除多重共線性。 中國計量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論