




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第10章主成分分析與因子分析Outline第一節主成分分析第二節因素分析第三節實例分析主成分分析和因子分析
PrincipalComponentAnalysis&FactorAnalysis在研究實際問題時,往往需要收集多個變量。但這樣會使多個變量間存在較強的相關關系,即這些變量間存在較多的信息重復,直接利用它們進行分析,不但模型復雜,還會因為變量間存在多重共線性而引起較大的誤差為能夠充分利用數據,通常希望用較少的新變量代替原來較多的舊變量,同時要求這些新變量盡可能反映原變量的信息主成分分析和因子分子正是解決這類問題的有效方法。它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀第一節主成分分析一、主成分分析的基本原理二、主分量的導出什么是主成分分析?2008年8月主成分的概念由KarlPearson在1901年提出考察多個變量間相關性一種多元統計方法研究如何通過少數幾個主成分principalcomponent來解釋多個變量間的內部結構。即從原始變量中導出少數幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關主成分分析的目的:數據的壓縮;數據的解釋常被用來尋找判斷事物或現象的綜合指標,并對綜合指標所包含的信息進行適當的解釋一、主成分分析的基本思想
這兩個相關變量所攜帶的信息(在統計上信息往往是指數據的變異)進行濃縮處理假定只有兩個變量x1和x2,從散點圖可見兩個變量存在相關關系,這意味著兩個變對量提供的信息有重疊如果把兩個變量用一個變量來表示,同時這一個新的變量又盡可能包含原來的兩個變量的信息,這就是降維的過程。橢圓中有一個長軸和一個短軸,都稱為主軸。在長軸方向,數據的變化明顯較大,而短軸方向變化則較小如果沿著長軸方向設定一個新的坐標系,則新產生的兩個變量和原始變量間存在一定的數學換算關系,同時這兩個新變量之間彼此不相關,而且長軸變量攜帶了大部分的數據變化信息,而短軸變量只攜帶了一小部分變化的信息(變異)此時,只需要用長軸方向的變量就可以代表原來兩個變量的信息。這樣也就把原來的兩個變量降維成了一個變量。長短軸相差越大,降維也就越合理圖示每個變量都有一個坐標軸,所以有幾個變量就有幾主軸。首先把橢球的各個主軸都找出來,再用代表大多數數據信息的最長的幾個軸作為新變量,這樣,降維過程也就完成了。找出的這些新變量是原來變量的線性組合,叫做主成分。主成分的選擇標準選擇標準是什么?被選的主成分所代表的主軸的長度之和占了主軸總程度之和的大部分。在統計上,主成分所代表的原始變量的信息用其方差來表示。因此,所選擇的第一個主成分是所有主成分中的方差最大者,即Var(yi)最大。如果第一個主成分不足以代表原來的個變量,在考慮選擇第二個主成分,依次類推。這些主成分互不相關,且方差遞減。—根據主成分貢獻率一般來說,主成分的累計方差貢獻率達到80%以上的前幾個主成分,都可以選作最后的主成分。-根據特征根的大小一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大。選擇主成分的數量究竟選擇幾個主成分才合適呢?一般要求所選主成分的方差總和占全部方差的80%以上就可以了。當然,這只是一個大體標準,具體選擇幾個要看實際情況。如果原來的變量之間的相關程度高,降維的效果就會好一些,所選的主成分就會少一些,如果原來的變量之間本身就不怎么相關,降維的效果自然就不好。主成分分析的步驟對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響根據標準化后的數據矩陣求出相關系數矩陣求出協方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當的解釋第二節因素分析一、因素分析的基本原理二、共同因素常數的確定及負荷矩陣的具體求法三、正交旋轉與斜交旋轉什么是因素分析?
factoranalysis由CharlesSpearman于1904年首次提出的。與主成分分析類似,它們都是要找出少數幾個新的變量來代替原始變量。不同之處:主成分分析中的主成分個數與原始變量個數是一樣的,即有幾個變量就有幾個主成分,只不過最后我們確定了少數幾個主成分而已。而因子分析則需要事先確定要找幾個成分,也稱為因子(factor),然后將原始變量綜合為少數的幾個因子,以再現原始變量與因子之間的關系,一般來說,因子的個數會遠遠少于原始變量的個數。因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例簡言之,因子分析是通過對變量之間關系的研究,找出能綜合原始變量的少數幾個因子,使得少數因子能夠反映原始變量的絕大部分信息,然后根據相關性的大小將原始變量分組,使得組內的變量之間相關性較高,而不同組的變量之間相關性較低。因此,因子分析屬于多元統計中處理降維的一種統計方法,其目的就是要減少變量的個數,用少數因子代表多個原始變量因子分析的數學模型因變量和因子個數的不一致,使得不僅在數學模型上,而且在實際求解過程中,因子分析和主成分分析都有著一定的區別,計算上因子分析更為復雜因子分析可能存在的一個優點是:在對主成分和原始變量之間的關系進行描述時,如果主成分的直觀意義比較模糊不易解釋,主成分分析沒有更好的改進方法;因子分析則額外提供了“因子旋轉(factorrotation)”這樣一個步驟,可以使分析結果盡可能達到易于解釋且更為合理的目的因子分析的數據檢驗因子分析要求樣本的個數要足夠多。一般要求樣本的個數至少是變量的5倍以上。同時,樣本總數據量理論要求應該在100以上用于因子分析的變量必須是相關的。如果原始變量都是獨立的,意味著每個變量的作用都是不可替代的,則無法降維檢驗方法計算各變量之間的相關矩陣,觀察各相關系數。若相關矩陣中的大部分相關系數小于0.3,則不適合作因子分析使用Kaiser-Meyer-Olkin檢驗(簡稱KMO檢驗)和Bartlett球度檢驗(Bartlett’stestofsphericity)來判斷因子命名—旋轉因子旋轉factorrotation的目的是使因子的含義更加清楚,以便于對因子的命名和解釋旋轉的方法有正交旋轉和斜交旋轉兩種-正交旋轉是指坐標軸始終保持垂直90度旋轉,這樣新生成的因子仍可保持不相關-斜交旋轉坐標軸的夾角可以是任意的,因此新生成的因子不能保證不相關。因此實際應用中更多地使用正交旋轉因素分析中旋轉的方法2008年8月Varimax方差最大正交旋轉:最常用的旋轉方法。使各因子保持正交狀態,但盡量使各因子的方法達到最大,即相對的載荷平方和達到最大,從而方便對因子的解釋Quartimax四次方最大正交旋轉:該方法傾向于減少和每個變量有關的因子數,從而簡化對原變量的解釋Equamax平方最大正交旋轉:該方法介于方差最大正交旋轉和四次方最大正交旋轉之間DirectOblimin斜交旋轉:該方法需要事先指定一個因子映像的自相關范圍Promax:該方法在方差最大正交旋轉的基礎上進行斜交旋轉幾點說明主成分分析和因子分析都是多元分析中處理降維的兩種統計方法。只有當原始數據中的變量之間具有較強的相關關系時,降維的效果才會明顯,否則不適合進行主成分分析和因子分析主成分和因子的選擇標準應結合具體問題而定。在某種程度上取決于研究者的知識和經驗,而不是方法本身即使得到了滿意的主成分或因子,在運用它們對實際問題進行評價、排序等分析時,仍然要保持謹慎,因為主成分和因子畢竟是高度抽象的量,無論如何,它們的含義都不如原始變量清晰因子分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025新入職工安全培訓考試試題附參考答案(輕巧奪冠)
- 2025廠里安全培訓考試試題5A
- 2025公司、項目部、各個班組安全培訓考試試題(考題)
- 知到智慧樹網課:病理生理學(南方醫大)章節測試滿分答案
- 2025跨境電商購銷合同范本
- 2025租房合同標準范本
- 2025移動應用版本軟件授權合同樣書
- 2025精簡版房屋裝修合同協議
- 2025購方信貸合同示范文本
- 2025辦公室租賃合同范例
- 香港私家車轉讓協議書模板
- 食品經營安全管理制度目錄
- 浙江省石材面板保溫裝飾板外墻外保溫系統應用技術規程
- 汽車租賃合同協議電子版
- 模擬電子技術基礎智慧樹知到期末考試答案章節答案2024年北京航空航天大學
- 16J916-1住宅排氣道一
- (高清版)JTGT 5640-2020 農村公路養護預算編制辦法
- T-CCAA 39-2022碳管理體系 要求
- 人教版語文二年級下冊第一二單元百詞競賽
- 幼兒園大班健康《我會保護眼睛》說課課件
- 手術質量控制指標
評論
0/150
提交評論