




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上一、基本原理主成分分析是數學上對數據降維的一種方法。其基本思想是設法將原來眾多的具有一定相關性的指標X1,X2,XP(比如p個指標),重新組合成一組較少個數的互不相關的綜合指標Fm來代替原來指標。那么綜合指標應該如何去提取,使其既能最大程度的反映原變量Xp所代表的信息,又能保證新指標之間保持相互無關(信息不重疊)。設F1表示原變量的第一個線性組合所形成的主成分指標,即,由數學知識可知,每一個主成分所提取的信息量可用其方差來度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的線性組合中選取的F1應該是X1,X2,X
2、P的所有線性組合中方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個指標的信息,再考慮選取第二個主成分指標F2,為有效地反映原信息,F1已有的信息就不需要再出現在F2中,即F2與F1要保持獨立、不相關,用數學語言表達就是其協方差Cov(F1, F2)=0,所以F2是與F1不相關的X1,X2,XP的所有線性組合中方差最大的,故稱F2為第二主成分,依此類推構造出的F1、F2、Fm為原變量指標X1、X2XP第一、第二、第m個主成分。根據以上分析得知: (1) Fi與Fj互不相關,即Cov(Fi,Fj) = 0,并有Var(Fi)=aiai,其中為X的協方差陣 (2)F1是X1,X2,
3、Xp的一切線性組合(系數滿足上述要求)中方差最大的,即Fm是與F1,F2,Fm1都不相關的X1,X2,XP的所有線性組合中方差最大者。F1,F2,Fm(mp)為構造的新變量指標,即原變量指標的第一、第二、第m個主成分。 由以上分析可見,主成分分析法的主要任務有兩點: (1)確定各主成分Fi(i=1,2,m)關于原變量Xj(j=1,2 , p)的表達式,即系數( i=1,2,m; j=1,2 ,p)。從數學上可以證明,原變量協方差矩陣的特征根是主成分的方差,所以前m個較大特征根就代表前m個較大的主成分方差值;原變量協方差矩陣前m個較大的特征值(這樣選取才能保證主成分的方差依次最大)所對應的特征向
4、量就是相應主成分Fi表達式的系數,為了加以限制,系數啟用的是對應的單位化的特征向量,即有= 1。 (2)計算主成分載荷,主成分載荷是反映主成分Fi與原變量Xj之間的相互關聯程度: 二、主成分分析法的計算步驟主成分分析的具體步驟如下: (1)計算協方差矩陣計算樣品數據的協方差矩陣:=(sij)p´p,其中 i,j=1,2,p(2)求出的特征值及相應的正交化單位特征向量 的前m個較大的特征值l1³l2³lm>0,就是前m個主成分對應的方差,對應的單位特征向量就是主成分Fi的關于原變量的系數,則原變量的第i個主成分Fi為:Fi =X主成分的方差(信息)貢獻率用來反
5、映信息量的大小,為:(3)選擇主成分 最終要選擇幾個主成分,即F1,F2,Fm中m的確定是通過方差(信息)累計貢獻率G(m)來確定當累積貢獻率大于85%時,就認為能足夠反映原來變量的信息了,對應的m就是抽取的前m個主成分。(4)計算主成分載荷 主成分載荷是反映主成分Fi與原變量Xj之間的相互關聯程度,原來變量Xj(j=1,2 , p)在諸主成分Fi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。: 在SPSS軟件中主成分分析后的分析結果中,“成分矩陣”反應的就是主成分載荷矩陣。(5)計算主成分得分 計算樣品在m個主成分上的得分: i = 1,2,m實際應用時,指標的
6、量綱往往不同,所以在主成分計算之前應先消除量綱的影響。消除數據的量綱有很多方法,常用方法是將原始數據標準化,即做如下數據變換:其中:,根據數學公式知道,任何隨機變量對其作標準化變換后,其協方差與其相關系數是一回事,即標準化后的變量協方差矩陣就是其相關系數矩陣。另一方面,根據協方差的公式可以推得標準化后的協方差就是原變量的相關系數,亦即,標準化后的變量的協方差矩陣就是原變量的相關系數矩陣。也就是說,在標準化前后變量的相關系數矩陣不變化。根據以上論述,為消除量綱的影響,將變量標準化后再計算其協方差矩陣,就是直接計算原變量的相關系數矩陣,所以主成分分析的實際常用計算步驟是:計算相關系數矩陣求出相關系
7、數矩陣的特征值及相應的正交化單位特征向量選擇主成分 計算主成分得分總結:原指標相關系數矩陣相應的特征值li為主成分方差的貢獻,方差的貢獻率為 ,越大,說明相應的主成分反映綜合信息的能力越強,可根據li的大小來提取主成分。每一個主成分的組合系數(原變量在該主成分上的載荷)就是相應特征值li所對應的單位特征向量。主成分分析法的計算步驟1、原始指標數據的采集p 維隨機向量x = (x1,X2,.,Xp)T)n 個樣品xi = (xi1,xi2,.,xip)T ,i=1,2,n,np,構造樣本陣,對樣本陣元進行如下標準化變換:其中,得標準化陣Z。2、對標準化陣Z 求矩陣其
8、中, 。3、解樣本相關矩陣R 的特征方程得p 個特征根,確定主成分按 確定m 值,使信息的利用率達85%以上,對每個j, j=1,2,.,m, 解方程組Rb = jb得單位特征向量 。4、將標準化后的指標變量轉換為主成分U1稱為第一主成分,U2 稱為第二主成分,Up 稱為第p 主成分。5 、對m 個主成分進行綜合評價對m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。一、主成分分析基本原理概念:主成分分析是把原來多個變量劃為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理技術。 思路:一個研究
9、對象,往往是多要素的復雜系統。變量太多無疑會增加分析問題的難度和復雜性,利用原變量之間的相關關系,用較少的新變量代替原來較多的變量,并使這些少數變量盡可能多的保留原來較多的變量所反應的信息,這樣問題就簡單化了。 原理:假定有n個樣本,每個樣本共有p個變量,構成一個n×p階的數據矩陣,記原變量指標為x1,x2,xp,設它們降維處理后的綜合指標,即新變量為 z1,z2,z3, ,zm(mp),則系數lij的確定原則: zi與zj(ij;i,j=1,2,m)相互無關;z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關的x1,x2,xP的所有線性組合中方差最大者; zm是與
10、z1,z2,zm1都不相關的x1,x2,xP , 的所有線性組合中方差最大者。新變量指標z1,z2,zm分別稱為原變量指標x1,x2,xP的第1,第2,第m主成分。 從以上的分析可以看出,主成分分析的實質就是確定原來變量xj(j=1,2 , p)在諸主成分zi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。 從數學上可以證明,它們分別是相關矩陣m個較大的特征值所對應的特征向量。二、主成分分析的計算步驟1、計算相關系數矩陣rij(i,j=1,2,p)為原變量xi與xj的相關系數, rij=rji,其計算公式為2、計算特征值與特征向量解特征方程 ,常用雅可比法(Jaco
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB1311T 084-2025 抗旱谷子品種選育技術規程
- 學生宿舍建設項目可行性分析報告
- 探索集中儲能項目的可行性與未來潛力
- 人教部編版(2024)八年級上冊生于憂患,死于安樂教案配套
- 滑雪服行業發展動態與市場潛力分析
- 低空經濟推動未來城市空中出行新模式
- 成品油行業趨勢及市場前景報告分析
- 2025年《職業病防治法》宣傳周活動情況統計表
- 提升工作效率的年度目標設定計劃
- 廣東省揭陽市第一中學高一信息技術 4.2.2表格數據的圖形化教學設計
- 未來趨勢與職業前景智慧樹知到期末考試答案章節答案2024年聯盟推+薦
- 2024年福建省泉州市中考二模物理試題
- 水生產企業(自來水公司)安全生產風險分級管控和隱患排查治理雙體系方案全套資料(2021-2022版)
- (正式版)JBT 14449-2024 起重機械焊接工藝評定
- 2020混凝土結構加固修復用聚合物水泥砂漿施工及驗收規程
- 化妝培訓課件版
- 營地指導員基礎教程
- 初級電工證考試試題庫電工證考試題庫
- 潔凈廠房設計方案
- 北京市通州區2021-2022學年高二下學期期中地理試題(解析版)
- 企業財務共享中心成熟度研究-以海爾集團為例
評論
0/150
提交評論