




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第10章主成分分析與因子分析主成分分析的概念主成分分析的概念主成分分析的數學模型主成分分析的數學模型因子分析因子分析的概念的概念因子分析數學模型因子分析數學模型第10章主成分分析與因子分析 實際工作中,為了全面系統地反映問題,往往收集的變量實際工作中,為了全面系統地反映問題,往往收集的變量較多,但這樣就會經常出現所收集的變量間存在較強相關較多,但這樣就會經常出現所收集的變量間存在較強相關關系的情況。這些變量間存在著較多的信息重復,直接用關系的情況。這些變量間存在著較多的信息重復,直接用它們分析現實問題,不但模型復雜,還會因為變量間存在它們分析現實問題,不但模型復雜,還會因為變量間存在的多重共線
2、性而引起極大的誤差。的多重共線性而引起極大的誤差。 為了能夠充分而有效的利用數據,通常希望用較少的新指為了能夠充分而有效的利用數據,通常希望用較少的新指標代替原來較多的舊變量,同時要求這些新指標盡可能地標代替原來較多的舊變量,同時要求這些新指標盡可能地反映原變量的信息。主成分分析和因子分析正是解決此問反映原變量的信息。主成分分析和因子分析正是解決此問題最有效的多元統計方法,它們能夠提取信息,使變量簡題最有效的多元統計方法,它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀,在經濟、社會等領域化降維,從而使問題更加簡單直觀,在經濟、社會等領域得到廣泛應用。得到廣泛應用。10.1 主成分分析
3、的概念 主成分分析是考察多個變量間相關性的一種多元統計方法主成分分析是考察多個變量間相關性的一種多元統計方法。它是研究如何通過少數幾個主分量來解釋多個變量間的。它是研究如何通過少數幾個主分量來解釋多個變量間的內部結構。內部結構。 也就是說,從原始變量中導出少數幾個主分量,使它們盡也就是說,從原始變量中導出少數幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關。可能多地保留原始變量的信息,且彼此間互不相關。 主成分分析的應用目的可以被簡單歸結為兩句話:數據的主成分分析的應用目的可以被簡單歸結為兩句話:數據的壓縮、數據的解釋。它常被用來尋找判斷某種事物或現象壓縮、數據的解釋。它常被用
4、來尋找判斷某種事物或現象的綜合指標,并且給綜合指標所包含的信息以適當的解釋的綜合指標,并且給綜合指標所包含的信息以適當的解釋,從而更加深刻的揭示事物的內在規律。,從而更加深刻的揭示事物的內在規律。10.2 主成分分析的數學模型通常數學上的處理是將原來的個指標作線性組合,作為通常數學上的處理是將原來的個指標作線性組合,作為新的綜合指標。新的綜合指標。如果將選取的第一個線性組合即第一個綜合指標記為,如果將選取的第一個線性組合即第一個綜合指標記為,一般自然希望中盡可能多地反映原來指標的信息,這里一般自然希望中盡可能多地反映原來指標的信息,這里的的“信息信息”用什么表示呢?用什么表示呢?最經典的方法就
5、是用的方差來表達,即越大,則表示包最經典的方法就是用的方差來表達,即越大,則表示包含的信息越多。含的信息越多。因此在所有的線性組合中所選取的第因此在所有的線性組合中所選取的第1 1主成分應該是方差主成分應該是方差最大的。最大的。如果第如果第1 1主成分不足以完全代表原來個指標的信息,再考主成分不足以完全代表原來個指標的信息,再考慮選第慮選第2 2個線性組合,即第個線性組合,即第2 2主成分,主成分, 依次類推可以造出第依次類推可以造出第3 3,第,第4 4, ,第個主成分。,第個主成分。這些主成分間互不相關,且方差遞減。這些主成分間互不相關,且方差遞減。 在實際應用中,通常只選前面幾個最大的主
6、成分,在實際應用中,通常只選前面幾個最大的主成分,雖然這樣損失了部分信息,但抓住了主要矛盾,雖然這樣損失了部分信息,但抓住了主要矛盾,并從原始變量中進一步提取了某些信息,從而既并從原始變量中進一步提取了某些信息,從而既減少了變量的數目又抓住了主要矛盾,有利于問減少了變量的數目又抓住了主要矛盾,有利于問題的分析和處理。題的分析和處理。10.2.1 主成分模型中各統計量的意義()特征根:它可以被看成是主成分影響力度的指標,代表引入該主成分后可以解釋平均多少原始變量的信息。如果特征根小于,說明該主成分的解釋力度還不如直接引入一個原變量的平均解釋力度大。因此一般可以用特征根大于作為納入標準。()主成分
7、的方差貢獻率:其計算公式為表明主成分的方差在全部方差中的比重。這個值越大,表明主成分綜合信息的能力越強。()累計貢獻率()累計貢獻率:前個主成分的累計貢獻率定義:前個主成分的累計貢獻率定義為,表示前面個主成分累計提取了多少的信息。為,表示前面個主成分累計提取了多少的信息。一般來說,如果前個主成分的貢獻率達到一般來說,如果前個主成分的貢獻率達到85,表明前個主成分基本包含了全部測量指標所具有表明前個主成分基本包含了全部測量指標所具有的信息,這樣既減少了變量的個數又便于對實際的信息,這樣既減少了變量的個數又便于對實際問題的分析和研究。問題的分析和研究。10.2.2 主成分分析的步驟主成分分析的步驟
8、 主成分分析常常通過以下步解決:主成分分析常常通過以下步解決:()對原來的個指標進行標準化,以消除變量在()對原來的個指標進行標準化,以消除變量在數量極或量綱上的影響。數量極或量綱上的影響。()根據標準化后的數據矩陣求出協方差或相關()根據標準化后的數據矩陣求出協方差或相關陣。陣。()求出協方差矩陣的特征根和特征向量。()求出協方差矩陣的特征根和特征向量。()確定主成分,結合專業知識給各主成分所蘊()確定主成分,結合專業知識給各主成分所蘊含的信息給予適當的解釋。含的信息給予適當的解釋。 SPSS中沒有把主成分分析作為一種獨立的分析方中沒有把主成分分析作為一種獨立的分析方法,而是和因子分析共用一
9、個過程,因此在法,而是和因子分析共用一個過程,因此在SPSS中進行主成分分析時會輸出許多因子分析中的結中進行主成分分析時會輸出許多因子分析中的結果,但是這并不影響分析結果的準確性,而且相果,但是這并不影響分析結果的準確性,而且相應的輸出都可以根據因子分析模型和主成分分析應的輸出都可以根據因子分析模型和主成分分析模型之間的關系進行轉換。模型之間的關系進行轉換。10.2.3 主成分分析的用途主成分分析的用途如前所述,主成分分析往往會在大型研究中成為一個中間如前所述,主成分分析往往會在大型研究中成為一個中間環節,用于解決數據信息濃縮等問題,這就可能產生各種環節,用于解決數據信息濃縮等問題,這就可能產
10、生各種各樣的組合方法。這里僅舉最為典型的兩種應用情況。各樣的組合方法。這里僅舉最為典型的兩種應用情況。()主成分評價()主成分評價 在進行多指標綜合評價時,由于要求評價結果客觀、全面在進行多指標綜合評價時,由于要求評價結果客觀、全面,就需要從各個方面用多個指標進行測量,但這樣就使得,就需要從各個方面用多個指標進行測量,但這樣就使得觀測指標間存在信息重疊,同時還會存在量綱、累加時如觀測指標間存在信息重疊,同時還會存在量綱、累加時如何確定權重系數等問題。為此就可以使用主成分分析方法何確定權重系數等問題。為此就可以使用主成分分析方法進行信息的濃縮,并解決權重的確定等問題。本章最后的進行信息的濃縮,并
11、解決權重的確定等問題。本章最后的綜合分析實例即為此類問題。綜合分析實例即為此類問題。()主成分回歸()主成分回歸 在線性回歸模型中,常用最小二乘法求回歸系數的估計。在線性回歸模型中,常用最小二乘法求回歸系數的估計。 但是當存在多重共線性時,最小二乘法的估計結果并不很但是當存在多重共線性時,最小二乘法的估計結果并不很理想,因為此時它的均方誤差大,使估計不穩定。理想,因為此時它的均方誤差大,使估計不穩定。 這時可考慮用主成分回歸求回歸系數的估計,所謂主成分這時可考慮用主成分回歸求回歸系數的估計,所謂主成分回歸是用原自變量的主成分代替原自變量作回歸分析。回歸是用原自變量的主成分代替原自變量作回歸分析
12、。 多重共線是由自變量之間關系復雜、相關性大引起的,而多重共線是由自變量之間關系復雜、相關性大引起的,而主成分既保留了原指標的絕大部分信息,又有主成分間互主成分既保留了原指標的絕大部分信息,又有主成分間互不相關的優點,故用主成分替代原指標后,再用最小二乘不相關的優點,故用主成分替代原指標后,再用最小二乘法建立主成分與目標變量間回歸方程所得的回歸系數估計法建立主成分與目標變量間回歸方程所得的回歸系數估計能克服能克服“估計不穩定估計不穩定”的缺點。但主成分估計不是無偏估的缺點。但主成分估計不是無偏估計。計。 10.2.4分析實例例10.1我們對100個學生的成績進行分析,具體的6項成績指標是數學、
13、物理、化學、語文、歷史、英語。的成績的數據,數據文件student.sav。 這是一個綜合分析問題,八項指標較多,可以用主成分分析法進行綜合。打開文件后在SPSS中的操作如下:選擇菜單:【分析】【降維】【因子分析】于是出現如圖10.3所示的窗口。 選擇參與主成分分析的變量到【變量】框中,點擊【描述】于是出現如圖10.4所示的窗口 SPSS在調用因子分析過程進行分析時,首先會自動對原始變量進行標準化,因此以后的輸出結果中在通常情況下都是指標準化后的變量。在結果輸出中會涉及一些因子分析中的內容,因此這里僅給出與主成分分析有關的部分如下:表表10.1 10.1 相關矩陣相關矩陣 表10.2給出的是各
14、成分的方差貢獻率和累計貢獻率,由表10.2可知,只有前2個特征根大于,因此SPSS只提取了前二個主成分。第一主成分的方差所占所有主成分方差的62.254%,前二個主成分的方差貢獻率達到81.142%,因此選前二個主成分已足夠描述學生成績的水平。 在表10.3中的輸出為主成分系數矩陣,可以說明各主成分在各變量上的載荷,從而得出各主成分的表達式,這里每一列代表一個主成分作為原來變量線性組合的系數(比例)。比如第一主成分為數學、物理、化學、語文、歷史、英語這六個變量的線性組合,系數(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 10.3 因子分析
15、因子分析是由因子分析是由Charles Spearman在在1904年首次提出,并在年首次提出,并在其后半生一直致力于發展此理論,使之最終成為了現代統其后半生一直致力于發展此理論,使之最終成為了現代統計學的重要分支,因此它被公認為因子分析之父。計學的重要分支,因此它被公認為因子分析之父。 因子分析在某種程度上可以被看成是主成分分析的推廣和因子分析在某種程度上可以被看成是主成分分析的推廣和擴展,它對問題的研究更為深入,是將具有錯綜復雜關系擴展,它對問題的研究更為深入,是將具有錯綜復雜關系的變量(或樣品)綜合為數量較少的幾個因子,以再現原的變量(或樣品)綜合為數量較少的幾個因子,以再現原始變量與因
16、子之間的相互關系,探討多個能夠直接測量,始變量與因子之間的相互關系,探討多個能夠直接測量,并且具有一定相關性的實測指標是如何受少數幾個內在的并且具有一定相關性的實測指標是如何受少數幾個內在的獨立因子所支配的,同時根據不同因子還可以對變量進行獨立因子所支配的,同時根據不同因子還可以對變量進行分類,屬于多元分析中處理降維的一種統計方法。分類,屬于多元分析中處理降維的一種統計方法。10.4 因子分析數學模型 因子分析是通過研究多個變量間相關系數矩陣(因子分析是通過研究多個變量間相關系數矩陣(或協方差矩陣)的內部依賴關系,找出能綜合所或協方差矩陣)的內部依賴關系,找出能綜合所有變量的少數幾個隨機變量,
17、這幾個隨機變量是有變量的少數幾個隨機變量,這幾個隨機變量是不可測量的,通常稱為因子。然后根據相關性的不可測量的,通常稱為因子。然后根據相關性的大小把變量分組,使得同組內的變量之間相關性大小把變量分組,使得同組內的變量之間相關性較高,但不同組的變量相關性較低。較高,但不同組的變量相關性較低。 各個因子間互不相關,所有變量都可以表示成公各個因子間互不相關,所有變量都可以表示成公因子的線性組合。因子分析的目的就是減少變量因子的線性組合。因子分析的目的就是減少變量的數目,用少數因子代替所有變量去分析整個經的數目,用少數因子代替所有變量去分析整個經濟問題。濟問題。()樣本量不能太小()樣本量不能太小。對
18、于因子分析而言,要求。對于因子分析而言,要求樣本量比較充足,否則結果可能不太可靠。一般樣本量比較充足,否則結果可能不太可靠。一般而言,要求樣本量至少是變量數的倍以上,如而言,要求樣本量至少是變量數的倍以上,如果要想得到比較理想的結果,則應該在倍以果要想得到比較理想的結果,則應該在倍以上。其次,除了比例關系外,樣本總量也不能太上。其次,除了比例關系外,樣本總量也不能太少,按理論要求應該在以上。不過在實際少,按理論要求應該在以上。不過在實際的經濟和社會問題中,很多時候樣本量都達不到的經濟和社會問題中,很多時候樣本量都達不到這個要求,這時也可以適當放寬要求,通過檢驗這個要求,這時也可以適當放寬要求,
19、通過檢驗來判斷結果的可靠性。來判斷結果的可靠性。()各變量間應該具有相關性()各變量間應該具有相關性。如果變量間彼此獨立,。如果變量間彼此獨立,則無法從中提取公因子,也就談不上因子分析法的應用則無法從中提取公因子,也就談不上因子分析法的應用。在。在SPSS中,可以通過中,可以通過Bartlett球形檢驗來判斷,如果相球形檢驗來判斷,如果相關陣是單位陣,則各變量獨立,因子分析法無效。關陣是單位陣,則各變量獨立,因子分析法無效。()()KMO檢驗檢驗。KMO檢驗用于檢查變量間的偏相關性,檢驗用于檢查變量間的偏相關性,取值在取值在01之間。之間。KMO統計量越接近于統計量越接近于1,變量間的偏,變量間的偏相關性越強,因子分析的效果越好。實際分析中,相關性越強,因子分析的效果越好。實際分析中,KMO統計量在統計量在0.7以上時,效果比較好;而當以上時,效果比較好;而當KMO統計量在統計量在0.5以下時,此時不適合應
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 票務代理地勤服務知識考核試卷
- 碳素材料在智能窗戶中的功能實現考核試卷
- 出版業品牌建設與宣傳推廣考核試卷
- 數字出版物營銷策略與應用考核試卷
- 礦產勘查中的勘查成果資料信息化考核試卷
- 油炸食品在快餐行業中的應用與市場競爭考核試卷
- 淡水養殖水體富營養化風險評估考核試卷
- 晉中師范高等專科學校《Python語言程序設計實驗》2023-2024學年第二學期期末試卷
- 新疆塔城地區烏蘇市2025年數學四年級第二學期期末聯考試題含解析
- 山西醫科大學晉祠學院《大學生精益創新創業實踐》2023-2024學年第二學期期末試卷
- 【MOOC】固體物理學-北京交通大學 中國大學慕課MOOC答案
- 心衰病人的觀察與護理
- 20241115某克縫紉機供應鏈計劃IBP PPDS詳細解決方案
- 愛護環境主題班會課件
- 大班游戲活動案例《快樂沙池》
- 糖尿病飲食指導護理
- DB41T 1633-2018 排油煙設施清洗服務規范
- 腦出血疑難病例討論護理
- 連續梁線型控制技術交底
- 林業專業知識考試試題及答案
- 高三英語語法填空專項訓練100(附答案)及解析
評論
0/150
提交評論