




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主成分分析法定義:主成分分析法:principalcomponentanalysis(PCA)。也稱主分量分析,是揭示大樣本、多變量數據或樣本之間內在關系的一種方法,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。在實證問題研究中,為了全面、系統地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統計分析中也稱為變量。主成分分析法是一種數學變換以簡化數據的方法,它把給定的一組相關變量通過線性變換轉成另一組相互獨立或不相關的變量,這些新的變量按照方差依次遞減的順序排列。在數學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關,稱為第二主成分。依次類推,I個變量就有I個主成分。每個主成分都是原始變量的線性組合,且各個主成分之間互不相關。這樣在研究復雜問題時就可以只考慮少數幾個主成分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內部變量之間的規律性,同時使問題得到簡化,提高分析效率。(實際問題中遇到指標較多且各指標相關關系較大時,人們常考慮應用主成分分析的方法)。注意幾點:(1)先判斷該數據降維的條件是否成立;(2)主成分系數的平方和為1。(3)選取的主成分對原始變量要有代表性.從數學上對主成分分析法進行解釋:設有p個原始指標:叫,x2,…,Xp,用來對n個單位進行評價,則共有np個數據。主成分分析的目的是要將這些原始指標組合成新的相互獨立的綜合指標:主成分分析的主要作用1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(mVp),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即m=1)時,這個Y1仍是使用全部X變量(p個)得到的。例如要計算Y1的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。多維數據的一種圖形表示方法。當維數大于3時便不能畫出幾何圖形,多元統計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。用主成分分析篩選回歸變量。回歸變量的選擇有著重的實際意義,為了使模型本身易于做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。主成分分析法的一般步驟:(待細看)1,首先需要判斷待分析的原始變量是否適合做主成分分析,同樣的,需要判定指標之間的相關性,可以使用SPSS中的“CorrelationMatrix(相關系數矩陣)”判定。2,規范原始指標數據如果指標的單位不同,則需要消除指標間不同量綱的影響,即對原始數據進行標準化處理,將原始數據處理成均值為0、方差為1的歸一化分析數據。p維隨機向量x=(X],X2,…,xp)T n個樣品Xj=(Xi-i,Xi-2,,,.,X/p)T,i=l,2,…,,nx表示第i個樣本的第j個指標值,用Z-score法對樣本陣元進行如下標準化變換:3、計算標準化數據的協方差矩陣,求相關系數矩陣其中打尢表示指標j與指標k的相關系數。
由于Z中的變量己是標準化的變量,此時Z的列變量的協方差矩陣就是相關系數矩陣。4、計算R的特征根和特征向量對于標準化后的數據,從相關系數矩陣出發,求得特征值與對應的特征向量;而對同度量或是取值范圍在同量級而不需要標準化的數據,則直接從協方差矩陣求特征值與特征向量。解樣本相關矩陣R的特征方程入f=。得p個從大到小排列的特征根:X1>X2>...>Xp>0由特征多項式Ra= ?得相應的單位特征向量a乙J如=%厲1_4、將標準化后的指標變量轉換為主成分以特征向量的分量值為權數,將標準化的指標進行加權就得到第i個主成分。F=aZ+a不..+a,Z=1,2,..p,i 1i1 i22 ipp鳳稱為第一主成分,F稱為第二主成分,…,F稱為第p主成分。2P5計算貢獻率和累計貢獻率,據以確定主成分的個數m。每個主成分F的貢獻率等于它的特征值久I除以原始指標個數p,累計貢獻率等于各主i成分貢獻率順序相加。F主成分:的方差貢獻率為:前K個主成分的累計方差貢獻率為:說明:在解決實際問題時,一般不是取戸個主成分,比較通行的確定主成分個數方法的原則有以下幾種:>0.85準則>0.85準則。(a(m)即前m個主成分保留原觀測變量信息的比重)。根據國內外用主成分分析進行多指標綜合評價的實踐來看,a(m)>85%表明取前m個主成分基本包含了全部測量指標所具有的信息,通常可以保證樣本排序的穩定。2)入g>入準則。先計算特征根入g的均值入然后將之與入g比較,選取入g>入的前m個成分作為主成分。因為由標準化數據的相關矩陣R求得的入=1,因此只要取入g>1的前m個主成分即可。(3)選取第一主成分用于綜合評價。主成分分析法作為數據降維方法,其每一個主成分均有特定經濟含義,可以用于揭示原始樣本中的基本性質。第一主成分說明了原始數據變動的總規模,而其余各主成分則說明樣本內部的各方面的些桂、、…、、咼^ 、、、 …、—特征。弟一主成分的貝獻率為心/ ,這個值越大,表明弟一主成分綜合1,…,G信息的能力越強。6、對m個主成分進行綜合評價每一個主成分表示了分析對象在某一方面的表現。選取的J??個主成分代表了分析對象的絕大部分信息,對主成分進行綜合分析就是相當于對分析對象的全部進行綜合分析。1.作為權數構造一個綜合評價函數:y=if+...+/Fi11mm1.作為權數構造一個綜合評價函數:y=if+...+/Fi11mm評估指數,依據對每個系統計算出的卩值大小進行排序、比較或分類劃級。這種方法的局限是,當產生主成分的特征向量的各分量符號不一致時就很難進行排序評估。第二種方法是第一種方法的改進,只用第一個主成分作評估指數即『二爲,理由是:工 x第一主成分與原始變量1,…,F綜合相關度最強,即 。如果想以一個綜合變量來代替原來所有原始變量,則最佳選擇應該是熱,另一方面由于第一主成分環對應于數據變異最大的方向也就是使數據信息損失最小,精度最高的一維綜合變量。注意:使用這種方法是有前提條件的,即要求所有評估指標變量都是正相關的。
J主成分分析計算步驟先利用指標體柔建立數據庫得到原始數據矩陣根據標準化的要求將原始數據標準化得到標準數據矩陣X。由標準化數據矩X計算相關矩陣丘口解特征方程丨R-&E1丸,計算出相關矩陣R怖特征值兀,按照石氓活…2排序,列出關于特征值人的特征向量》計算累計貢獻率--般杞據累計貢獻率^85%(80%)的原則確定主成份個數,并為主成份命名口3.1.5主成分模型中各統計量的含義⑴特征值(Eigenvalue):它叮以用于確宦屯成分數目及解釋+成分影響力度的指柄,址原始變量的證方葢在各個成分一苗新分配夕吉果"?般臥取待彳王根犬}'■1為標準。⑵主成分舀的方差貢獻珮:其計算公式為入氏"表明各成分舀的方差所包舎溝信息人全部方建總信息的存分LJ用血成分的方養來衡危變港所赳含的信息陽這個值越衣”燒明該上成分二、綜合朗包含的尤,*「…兀伯思能旳越強.⑶累計貢⑶累計貢獻率:前女個i:成分的累計貢獻率定文衣木訶k個-左成分累計提取了?…七多少信息.通常累L方遽貢獻率取大于等于SO%,這樣既減少r變最牛數又便丁対實際問題分析和硏究詡°說明:主成分的性質:主成分門,….有如下幾牛性質:(1)主我分間互不柑關.即對任部刑"G和御村關系數q=o//(J)幼臺紊離心 甌菽榆成的向童光單位向童⑶各主成分的方差是梅.撫遞減的.即臨心凋詢心謔…王呦心》(4)總方差不增不減.即陽托斗由k<ry>+...斗箱心詁=囪(,切+嗨(礎斗...+旳?CM=p這-性航說犧,匕成弁繪原變量的紡性組合,繪對原變童信息的…種改組「j殳廿不巒加總営息量,也不滅少總管息量.(5)主成分刑原變童的村關系數eg口嚴年◎沁 町的相黃矩陣為沖.宙川哦?….燈則是相關矩陣砒I第冷特征向意⑷g^VBCtO^而且,特缸僅血繪第注成孑的方差,即m^=4Jl;'l'炒州咲體陣虛的第汁特汕fl'[(eigenvalue)A>^>-.>^0主成分分析法的優點:(1)主成分分析的降維處理技術能較好地解決多指標評價的要求,它消除了評價指標間的相關影響。另外,主成分分析用于多指標綜合評價是對彼此獨立的分量進行合成,正適于采用加權線性相合成方法,不必在合成方法選擇上多做工作。(2)減少了指標選擇的工作量。在主成分分析中由于可以消除評價指標間的相關影響,因而在指標選擇上相對容易些。但主成分分析法確定評價指標的原則是寧多勿少,盡可能地全面。主成分分析可以保留原始評價指標的大部分信息。如果指標選擇不夠全面,就會先天不足,再好的分析方法也會失去效用。(3)運用主成分分析法進行多指標綜合評價的權數處理時的權數是從信息量和系統效應角度來確定的,是伴隨數學變換過程生成的,可以避免很多人為的因素,使評價結果更為科學。因此主成分分析法成為綜合評價問題中較為科學有效的方法之一。(4)使用主成分分析可以按照事物的相似性區分產品,結果可用一維、二維或三維平面坐標圖標示,特別直觀。(5)此外,隨著電子計算機技術的發展,SAS、SPSS等商品化統計分析軟件的推廣與應用,使得主成分分析在各類綜合評價實踐中的廣泛應用成為現實。主成分分析法的實現:隨著現代科技的發展,主成分分析采用SPSS統計分析軟件中的主成分分析模塊進行綜合評價。SPSS是社會科學統計軟件。它集數據整理、分析過程、結果輸出等功能于一身,是世界著名的統計分析軟件之一。因此,我們可以利用SPSS中的主成分分析模塊進行評價。具體做法是:將參評指標的數據導入軟件后,在分析模塊上選擇主成分法進行分析。在矩陣旋轉方面,取“方差最大旋轉”。它是一種正交旋轉方法。它使每個因子上的具有最高載荷的變量數最小,可以簡化對因子的解釋。其余的都可按系統默認值確定。最后我
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金屬密封件市場競爭與發展趨勢考核試卷
- 2024年真空絕熱板芯材投資申請報告代可行性研究報告
- 影視特效化妝特效化妝師職業培訓協議
- 老齡化住宅預售資金監管與養老服務協議
- 母嬰用品電商平臺數據分析合作協議
- 知識產權維權援助合同
- 跨界合作直播節目補充協議
- 電競俱樂部與電競俱樂部戰隊戰隊交通合作協議
- 禁賭法視角下賭博債務合法化解協議
- 網絡游戲聯合運營分成及電子競技賽事推廣合同
- 2025-2030中國基礎設施行業市場前景趨勢及競爭格局與投資研究報告
- 2025年統編版一年級(下)期末語文試題(含答案)
- 六防教育主題班會課件
- 武漢五調高三數學試卷及詳細答案
- 《社區公園》課件
- 2025河南高考:政治必考知識點總結
- 互聯網公司民事起訴狀模板
- 餐飲公司全套管理制度
- 肺癌患者疼痛的護理措施
- 統計學史及理論發展試題及答案
- DBJ51T-009-2018-四川省-綠色建筑評價標準
評論
0/150
提交評論