




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、多元統計分析主成分分析一.主成分分析概念主成分分析是指通過考察變量間的相關性,找到少數幾個主成分代表多個變量的一種多元統計方法。主成分分析是通過考察變量之間的相關性找到少數幾個主成分來代表原來大多數的變量,同時使它們盡可能保留原始變量的信息。這些主成分之間彼此不相關,數量遠遠少于原始變量的個數,從而達到降維的目的(兩個變量存在著相關關系,這意味著兩個變量提供的信息有重疊,如果把兩個變量用一個新變量來表示,同時這一新變量又盡可能包含原來的兩個變量的信息,這就是降維的過程)。如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,可以使用主成分分析。二.怎樣選
2、取主成分?載荷:各主成分和原來變量的線性相關系數。系數越大說明主成分對該變量的代表性越強。統計上降維的處理過程是將原始的變量進行線性組合作為新的變量(主成分),原來有多少變量就有多少主成分。我們不能選擇所有的主成分這樣達不到降維的目的,選擇的標準是所選擇的主成分所代表的主軸長度之和應該占主軸總長度之和的大部分。所選的第一個主成分應該是主軸最長的(方差最大的,主成分所代表的原始變量的信息用方差來表示),如果第一個主成分不足以代表原來變量的信息在考慮第二個。主成分之間互不相關且方差遞減。標準:1.選擇的主成分的方差之和占全部方差的80%以上即可;2.此外還可以考慮特征根的大小,如果特征根小于1,就
3、不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量的解釋力度大;3.碎石圖,從碎石圖中我們可以看出主軸長度(特征根)的變化趨勢,一般情況下,選擇碎石圖中主軸變化趨勢出現拐點的前幾個主成分作為原始變量的代表。原始變量之間相關程度越高降維的效果越好,所選著的主成分也就越少。如果原始變量之間不怎么相關不如用它們本身。三.主成分建模的步驟特征根:又稱方差,反應主成分對原始變量影響程度的一個量,表示引入改主成分后可以在多大程度上解釋原始變量的信息。主成分方差貢獻率:某個特征根占總特征根總和的比例稱為主成分方差貢獻率。1. 對原有的變量進行標準化處理,以消除變量水平和量綱的影響。2. 根據標準化
4、后的數據計算相關系數矩陣。如果變量之間存在著較強的相關系數說明適合做主成分分析。3. 求出相關系數矩陣的特征根,即主軸或方差,及對應的單位特征向量。從各主成分的方差貢獻率和累積方差貢獻率來選擇主成分。4. 確定主成分,并對主成分的含義做出適當的解釋。對主成分進行解釋主要根據主成分的因子載荷矩陣。通過因子載荷可以看出主成分分別主要代表哪些原始變量。但是主成分的這種解釋模棱兩可主要原因是因子載荷含義不清楚。因子分析一 因子分析含義因子分析是通過對變量之間關系的研究,找出能綜合原始變量的少數幾個因子代表多個原始變量的一種多元統計方法。二 主成分分析和因子分析的聯系和區別聯系:都是找出少數幾個新的變量
5、來代表原始變量,從而達到降維的目的。區別:1.主成分中的主成分個數與原始變量的個數相同,有幾個變量就有幾個主成分而因子分析則需要事先確定要找幾個因子,然后將原始變量綜合和為少數的幾個因子以再現原始變量與因子之間的關系。2.主成分是因子分析的一個特例,因子分析是主成分分析的推廣和拓展。3.因子分析的計算較主成分分析更加復雜。4.因子分析在實際中廣泛應用,而主成分分析通常只作為大型數據分析的中間步驟,不再單獨使用,但它的思想對我們有很大的啟迪。三 因子分析模型因子載荷:載荷為變量與因子之間的線性相關系數,反應變量與因子之間的相關程度。公因子:由于因子出現在每個原始變量與因子的線性組合中因此也成為公
6、因子。變量共同度量:它是公因子對特定的變量的方差貢獻率。(計算方法為一個線性組合中相關系數的平方和);共同度量越大說明公因子對原始變量的解釋能力越強。公因子的方差貢獻率:指的是某個因子對變量所提供的方差總和,反映了某個因子的相對重要程度。方差貢獻率越大表明該公因子對變量的貢獻越大。因子分析模型把每個變量看成是個因子的線性組合。考察變量的信息能夠被k個公因子所解釋的程度。四 因子分析的步驟因子分析的步驟分為數據檢驗,因子提取,因子的命名和解釋,計算因子得分并進行綜合評價。1. 數據檢驗數據檢驗用語判斷手頭上的數據是否適合作因子分析。因子分析的目的是把原始變量降維,如果原始變量是獨立的意味著每個變
7、量的作用都是不可替代的,也就無法降維了。條件一:用于因子分析的變量必須是相關的。方法一:計算變量之間的相關系數矩陣,并觀察各相關系數。一般來說若相關矩陣的大部分相關系數小于0.3,就不適合作因子分析方法二:可以作KMO檢驗和Bartlett球度檢驗來判斷;Bartlett檢驗是以變量的相關系數矩陣為基礎,如果相關系數矩陣是單位陣,則變量是獨立的,也就無法進行因子分析了。KMO檢驗用語檢驗變量間的偏相關性,取值范圍在0-1之間,如果統計量取值接近于1,變量間的偏相關性越強,因子分析的效果就越好。一般來說,KMO統計量在0.7以上時因子分析的效果好;0.5以下效果很差。條件二:從樣本量上來看,因子
8、分析要求樣本的個數足夠多。一般要求樣本的個數至少是變量的5倍以上.同時樣本總數據量也不能太少,理論要求應該在100個以上。2. 因子提取因子提取是根據原始變量提取出少數幾個因子,使得少數幾個因子能夠反應原始變量的絕大部分信息。,從而達到降維的目的。因子的提取方法:主成分法;根據因子的方差貢獻率來選擇。一般情況下貢獻率達到80%以上的前幾個因子可以作為最后的公因子。實際應用中,因子的提取要結合具體問題而定,在某種程度上取決于研究者自身的知識和經驗。3. 因子的命名和解釋因子命名:考察因子究竟反映了原始變量的那些信息(代表了哪些原始變量)正交旋轉:是指坐標軸始終保持垂直90度旋轉,這樣新生成的因子
9、仍可保持不相關。斜交旋轉:坐標軸的夾角可以是任意的,因此新生成的因子不能保證不相關。對因子命名和解釋之前需要對因子載荷進行因子旋轉,以便旋轉之后因子的意義更加明顯,能夠得到更加合理的解釋。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。方法有正交旋轉和斜交旋轉。4. 計算因子得分因子分析模型建立后,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立后,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用
10、變量的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。五 因子分析的具體步驟1. 將原始數據標準化,以消除變量間在數量級和量綱上的不同。2. 求標準化數據的相關矩陣,判斷數據是否適合用因子分析來進行分析。3. 求相關矩陣的特征值和特征向量;4. 計算方差貢獻率與累積方差貢獻率;從共同度量表中確定因子是否可以充分解釋原始變量5. 確定因子:設F1,F2, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低于80%時,可取前m個因子來反映原評價指標;6. 因子旋轉:若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。7.
11、用原指標的線性組合來求各因子得分:采用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。8. 綜合得分以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。9. 得分排序:利用綜合得分可以得到得分名次聚類分析一 聚類分析的概念在一些分類中,事先并不知道有多少類別,安全按照反映對象特征的數據把對象進行分類,這在統計上稱為聚類分析;有的則是在事先有了某種分類標準之后,判定一個新的研究對象應該歸屬到哪一類別,這在統計上稱為判別分析。聚類就是把對象分成不同的類別,這些類不是事先定的,而是直接根據數據的特征確定的。對象可以是所觀察的多個樣本,也可以是針對多個樣本的多個變量
12、。如果是根據變量對所觀察的樣本進行分類稱為Q類聚類;如果是根據樣本對多個變量進行分類則稱為R類聚類。聚類是把相似的東西放在一起,從而使得類別內部的差異盡可能的小,而類別之間的差異盡可能大。聚類中的相似是指對象之間關系或距離的遠近。根據樣本觀測數據測度變量之間的相似性(r類聚類)可以用相似系數,計算方法有夾角余弦,變量間的相關系數越大說明它們越相近。根據變量來測度樣本之間(q類聚類)的相似程度則使用距離。二 相似性的度量聚類分析中用“距離”或“相似系數”來度量對象之間的相似性。1. 樣本之間的距離度量樣本點間距離的計算方法:平方歐氏距離變量間相似系數的計算方法:夾角余弦,pearson相關系數。
13、2. 類間距離的度量常用的方法是離差平方和法。最短距離法:用兩個類別中各樣本點之間最短的距離表示兩個類別之間的距離。最長距離法:用兩個類別中各樣本點之間最長的距離表示兩個類別之間的距離。重心法:用兩個類別的重心之間的距離表示兩個類別之間的距離。組間平均距離:用兩個類別各樣本點之間的距離的平均表示兩個類別之間的距離。離差平方和:先將所有的兩個類別中的點當作一個類別計算離差平方和,再分別計算各類別的離差平方和。用總的離差平方和減去各離差平方和。三 聚類方法1. 層次聚類層次聚類分為合并法和分解法。合并法:1.將每個樣本作為一類。 2.按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個
14、類別。 3.計算新產生的類別和其他類別之間的距離,并將距離最近的兩個類別分為一類。 4.一直重復進行分類指導類別數為1,所有類別都合并成為一類。分解法:將所有樣本作為一個大類,然后度量對象之間的距離或者相似系數,然后將距離最遠或相似系數最小的對象分離出去,然后形成兩大類。再度量類別中剩余對象之間的距離或相似系數,并將最遠的分離出去,不斷重復過程,直到所有的對象都自成一類為止。合并法和分解法事先不確定分的組數,需要根據聚類的樹狀圖以及需要來決定最后要分幾組。再得到分類結果后,需要分析個類別中所屬樣本的變量特征,以判斷所分的類別是否合理。通過對各類別所屬地區的描述統計分析,可以檢驗所分的類別是否合
15、理。如果個類別差異顯著意味著所分的類別基本上是合理的。此外還可以使用方差分析來檢驗各不同類別相同變量之間是否有顯著差異。2. K-均值聚類K-均值聚類的含義是“K”即事先指定要分的類別個數,而“均值”則是指聚類的重心。計算量較層次聚類法小,效率高也稱為快速聚類法。K-均值聚類法不是把所有可能的聚類結果都列出來,而是要求研究者先指定要劃分的類別個數,然后確定各聚類中心,在計算各樣本到聚類中心的距離,最后按距離遠近進行分類。具體步驟:1. 首先如果原始變量取值差異較大,應先將原始數據進行標準化,以避免數量級和量綱上的差異。2. 確定要分的類別數目。這需要研究者自己確定。在實際應用中往往需要研究者根
16、據實際問題反復嘗試,得到不同分類并進行比較,最后得到要分的類別數量。3. 確定k個類別的初始聚類中心。這一步要求在用于聚類的全部樣本中,選擇k個樣本作為k個類別的初始聚類中心。與確定類別數目一樣,原始聚類中心的確定也需要研究者根據實際問題和經驗來綜合考慮,選擇的原則是中心點距離其他點盡可能遠。4. 根據確定的k個初始聚類中心,依次計算每個樣本點到k個聚類中心的歐式距離,并根據距離最近的原則將所有的樣本分到事先確定的k個類別中。5. 根據所分成的k個類別,計算出各類別中每個變量的均值,并以均值點作為新的k個類別中心。根據新的中心位置,重新計算每個樣本到新中心的距離,并重新進行分類。6. 重復第四
17、步,直到滿足終止聚類的條件為止。終止聚類的條件包括:1.迭代次數達到研究者事先指定的最大迭代次數。 2.新確定的聚類中心點與上一次聚類形成的中心點的最大偏移量小于指定的量。7. 對所分類別的每個變量之間進行方差分析判斷所分的類別是否合理。四 注意事項從數據要求上 1.參與分類的變量首先應符合要求,也就是選擇與目標相關的變量。 2.各變量的去職不應有數量級上的過大差異,否則對分類結果產生較大影響。一般需要進行標準化處理。 3.各變量之間不應該有強的相關關系。從聚類方法的選擇上1.首先看數據,如果參與分類的變量是連續變量,層次聚類法,k均值聚類法以及兩步聚類法都是適用的;如果變量中包括離散變量(計
18、數變量),則需要對離散變量進行連續處理,否則應該使用兩步驟聚類法;當數據量較少時三種方法都可以選用,當數據較多時,應考慮選用其他兩種。2.其次要看分類對象。如果對樣本進行分類三種方法都是可用的;如果是對變量進行分類則應該選擇層次聚類法。3.注意對分類結果的檢驗。兩種聚類方法的不同:1.層次聚類的分類是不確定的,k均值聚類事先確定類別數目。2.計算量以及效率上 3.具體的聚類步驟上。典型相關分析一. 典型相關分析解決的問題及其思想應用范圍典型相關分析是研究兩組變量之間整體相關程度的多元分析方法。它是將每一組變量作為一個整體進行研究,而不是分析每一組變量內部的各個變量。所研究的兩組變量可以是一組變
19、量為自變量,而另一組變量為因變量,也可以處于同等地位,但典型相關分析要求兩組變量都至少是間隔尺度的。思想典型相關分析借用主成分分析降維的思想,分別對兩組變量提取主成分(原因在于使新生成的新的綜合變量能代表原始變量大部分信息,同時與另一組變量生成的新的綜合變量的相關程度最大;這樣一組新的綜合變量稱為第一對典型相關變量,典型相關變量(不是一對)之間的簡單相關系數稱為典型相關系數,典型相關變量反映了x,y之間的線性相關情況)使兩組變量提取的主成分之間的相關程度達到最大,而同一組內部提取的主成分之間互不相關。用兩組分別提取的主成分的相關性來描述兩組變量整體的線性相關關系。可以通過少數典型相關變量的研究
20、代替原來兩組變量之間的相關關系研究,從而抓住為題的本質。可以通過典型相關分析找出幾對主要的典型相關變量,根據典型相關變量相關程度及各典型相關變量線性組合中原變量相關系數的大小,結合對所研究實際問題的定性分析,盡可能給出較為深刻的分析結果。典型權重:傳統的解釋典型函數的方法包括觀察每個原始變量在它的典型變量中的典型權重的符號和大小。有較大的典型權重則說明原始變量對它的典型變量貢獻較大,反之則相反。原始變量的典型權重有相反的符號,說明變量之間存在一種反向關系,反之則存在正向關系。典型載荷:也稱為典型結構相關系數,是原始變量和它的典型變量間的簡單線性相關系數。典型載荷反映原始變量與典型變量的共同方差,它的解釋類似于因子載荷,也就是每個原始變量對典型函數的相對貢獻。典型交叉載荷:計算典型交叉載荷包括使每個原始因變量與自變量典型變量直接相關,提供了一個更直接地測量因變量組與自變量組關系的指標。判別分析一 判別分析解決的問題判別分析的主要目的是識別一個個體所屬類別。在被解釋變量是屬性變量而解釋變量是度量變量時判別分析是合適的統計分析方法。判別分析的基本要求是:分組類型在兩組以上;每組案例的規模必須至少在一個以上;解釋變量必須是可測的。第一個判別變量不能是其他判別變量的線性組合。各組變量的協方差矩陣相等。各判別變量遵從多元正
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安裝防盜門合同協議書
- 男友同意協議書
- 確權界線協議書
- 聯防共建協議書
- 旅行社聘用員工協議書
- 賠償劃分協議書
- 安徽師范生就業協議書
- 脫貧開發協議書
- 股權出資協議書
- 確權修正協議書
- 2025眼鏡行業市場分析報告
- 2022-2023學年廣東省廣州市天河區七年級(下)期末數學試卷(含答案)
- 2025-2031年中國雞爪市場競爭態勢及投資戰略規劃研究報告
- 湖北省武漢市常青聯合體2024-2025學年高一下學期期中考試歷史試題(原卷版+解析版)
- 銀屑病診斷與治療
- 2025-2030硅膠行業市場發展分析及趨勢前景與投資戰略研究報告
- 壓力管道質量保證手冊
- 銀行大堂經理崗位培訓
- (四調)武漢市2025屆高中畢業生四月調研考試 數學試卷(含答案詳解)
- 重慶二手房買賣合同范本
- GB/T 24630.2-2024產品幾何技術規范(GPS)平面度第2部分:規范操作集
評論
0/150
提交評論