




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主成分分析和因子分析
整理課件匯報什么?假定你是一個公司的財務經理,掌握了公司的所有數據,比如固定資產、流動資金、每一筆借貸的數額和期限、各種稅費、工資支出、原料消耗、產值、利潤、折舊、職工人數、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎?
當然不能。你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。
整理課件對眾多變量進行降維每個人都會遇到有很多變量的數據。比如全國或各個地區的帶有許多經濟和社會變量的數據;各個學校的研究、教學等各種變量的數據等等。這些數據的共同特點是變量很多,在如此多的變量之中,有很多是相關的,即有很多重疊信息。人們希望能夠找出它們的少數“代表”來對它們進行描述。本章就介紹兩種把變量維數降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。整理課件成績數據(student.sav)100個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。整理課件從本例可能提出的問題目前的問題是,能不能把這個數據的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學生排序呢?這一類數據所涉及的問題可以推廣到對企業,對學校進行分析、排序、判別和分類等問題。整理課件主成分分析
(PrincipalComponentsAnalysis)
整理課件???????????????????????????????????????????例中的數據點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。由于6維空間無法直接觀察,因此,我從2維空間開始解釋主成分分析的原理。整理課件主成分分析原理當散點呈橢圓狀分布時,代表長軸的變量就描述了數據的主要變化,而代表短軸的變量就描述了數據的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數據包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。整理課件?????????????????????????????????????主成分分析的幾何解釋平移、旋轉坐標軸整理課件?????????????????????????????????????主成分分析的幾何解釋平移、旋轉坐標軸?整理課件????????????????????????????????????主成分分析的幾何解釋平移、旋轉坐標軸?整理課件?????????????????????????????????????主成分分析的幾何解釋平移、旋轉坐標軸???????????????????????????????????????????????????????????????整理課件樣本數據的標準化可解決平移問題根據旋轉變換的公式:整理課件主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數數據信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
整理課件
主成分分析的數學模型
假設我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉變為討論p個指標的線性組合的問題,而這些新的指標F1,F2,…,Fk(k≤p),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。整理課件
這種由討論多個指標降為少數幾個綜合指標的過程在數學上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。整理課件滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數平方和為1。即整理課件樣本數據的標準化可解決平移問題根據旋轉變換的公式:整理課件主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。整理課件對于我們的數據,SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數據相關陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。整理課件特征值的貢獻還可以從SPSS的所謂碎石圖看出整理課件因子載荷反映的是主成分與變量間的相關系數。
(因子載荷陣)主成分載荷與因子載荷整理課件可以把第一和第二因子的載荷點出一個二維圖以直觀地顯示它們如何解釋原來的變量的。這個圖叫做載荷圖。整理課件該圖左面三個點是數學、物理、化學三科,右邊三個點是語文、歷史、外語三科。整理課件因子分析
(FactorAnalysis)
整理課件主要內容一、什么是因子分析二、因子分析模型三、因子載荷矩陣中的幾個統計特征四、因子旋轉五、因子得分六、在SPSS上進行因子分析的步驟整理課件
因子分析(factoranalysis)是一種數據簡化的技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,并用少數幾個假想變量來表示其基本的數據結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。例如,在企業形象或品牌形象的研究中,消費者可以通過一個有24個指標構成的評價體系,評價百貨商場的24個方面的優劣。一、什么是因子分析整理課件
但消費者主要關心的是三個方面,即商店的環境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:
稱是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子。整理課件二、因子分析模型
數學模型
設個變量,如果表示為整理課件注:
因子分析與回歸分析不同,因子分析中的因子是一個比較抽象的概念,而回歸因子有非常明確的實際意義;
主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構造因子模型。主成分分析:原始變量的線性組合表示新的綜合變量,即主成分,無誤差項;因子分析:潛在的假想變量和隨機影響變量的線性組合表示原始變量,有誤差項。整理課件主成分分析與因子分析的公式上的區別主成分分析因子分析(m<p)因子得分整理課件
三、因子載荷矩陣中的幾個統計特征1、因子載荷aij的統計意義
因子載荷是第i個變量與第j個公共因子的相關系數
模型為
因子載荷構成的k×m矩陣稱為“因子矩陣”(factormatrix)或“因子模式”(factorpattern),因為它反映了因子與變量關系中因子的性質。“因子結構”(factorstructure)是指因素與變量間的相關關系,可以證明,在正交模型中,因子模式等于因素結構,因子負荷就是變量與因素間的相關系數。因此在正交模型中不加區別地統稱為“因子載荷”。整理課件2、變量共同度(communality)的統計意義定義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統計意義:兩邊求方差
所有的公共因子和特殊因子對變量的貢獻為1。如果非常靠近1,非常小,則因子分析的效果好,從原變量空間到公共因子空間的轉化性質好。整理課件3、公共因子方差貢獻(Contributions)的統計意義因子載荷矩陣中各列元素的平方和稱為所有的對的方差貢獻和。衡量的相對重要性。整理課件
四、因子旋轉
建立了因子分析的目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共因子的含義不清,則不便于進行實際背景的解釋。求初始解是按照因子解釋變量方差的多少順序提取因子的,因此,絕大多數變量在第一個因子上肯定都有顯著的負荷,其后的因子解釋方差比例逐漸遞減。這時的因素負荷矩陣中大多數因子都和許多變量相關,尤其是靠前的第一因素,負載了過多的變量,很不便于解釋。這時就需要借助“因子旋轉”改變因子軸的位置,重新分配各因子所解釋的方差比例,從而得到易于解釋的“簡單結構”。根據矩陣代數的知識,因子旋轉實際上是對因素解進行的一個變換(正交旋轉是標準正交變換),得到的模型對數據的擬合程度不發生改變,同時也不改變每個變量的共同度。(一)為什么要旋轉因子整理課件旋轉前與旋轉后的因子載荷圖整理課件旋轉前后的因子載荷比較這里,第一個因子主要和語文、歷史、英語三科有很強的正相關;而第二個因子主要和數學、物理、化學三科有很強的正相關。因此可以給第一個因子起名為“理科因子”,而給第二個因子起名為“文科因子”。整理課件變換后因子的共同度設正交矩陣,做正交變換變換后因子的共同度沒有發生變化!(二)正交旋轉(orthogonalrotation)
整理課件變換后因子貢獻設正交矩陣,做正交變換變換后因子的貢獻發生了變化!整理課件1、方差最大法(Varimax)
方差最大法從簡化因子載荷矩陣的每一列出發,使和每個因子有關的載荷的平方的方差最大。當只有少數幾個變量在某個因子上有較高的載荷時,對因子的解釋最簡單。方差最大的直觀意義是希望通過因子旋轉后,使每個因子上的載荷盡量拉開距離,一部分的載荷趨于
1,另一部分趨于0。此法便于解釋因子,因此最常用。整理課件2、四次方最大旋轉(Quartimax)
四次方最大旋轉是從簡化載荷矩陣的行出發,通過旋轉初始因子,使每個變量只在一個因子上有較高的載荷,而在其它的因子上盡可能低的載荷。如果每個變量只在一個因子上有非零的載荷,這時的因子解釋是最簡單的。四次方最大法通過使因子載荷矩陣中每一行的因子載荷平方的方差達到最大。整理課件
3、等量最大法(Equamax)
等量最大法把四次方最大法和方差最大法結合起來求Q和V的加權平均最大。
權數等于m/2,因子數有關。整理課件(三)斜交旋轉(obliquerotation)如果因子間存在相關(斜交模型),理論上應考慮斜交旋轉以更好地形成簡單結構和解釋因子。由于沒有因子正交條件的限制,斜交旋轉實際上就是盡可能將因素軸調整到各組變量附近或者更有利于解釋因子的位置。f1f2f’1f’2x1x2x3x4x5x6整理課件
五、因子得分
(一)因子得分的概念
前面我們主要解決了用公共因子的線性組合來表示一組觀測變量的有關問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,這就需要我們對公共因子進行測度,即給出公共因子的值。整理課件計算因子得分于是可以根據前面的公式,算出每個學生的第一個因子和第二個因子的大小,即算出每個學生的因子得分f1和f2。人們可以根據這兩套因子得分對學生分別按照文科和理科排序。當然得到因子得分只是SPSS軟件的一個選項。整理課件因子分析和主成分分析的一些注意事項
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數綜合的變量概括。數據越相關,降維效果就越好。在得到分析的結果時,并不一定會都得到如我們例子那樣清楚的結果。這與問題的性質,選取的原始變量以及數據的質量等都有關系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。整理課件在SPSS上進行因子分析的步驟一、樣本數據的適當性考察二、選擇提取因子的方法及確定公因子數三、確定因子旋轉的方法四、選擇因子得分的計算方法整理課件樣本數據的適當性考察考察數據適當性,首先可以看樣本相關矩陣,如果變量之間相關程度普遍較低則不大可能找到便于解釋的公因子或者達不到簡化數據的目的,一般大部分相關系數應當不低于0.3。介紹兩種考察方法:(1)Bartlett球度檢驗(Bartlett’stestofsphericity)
(2)KMO取樣適當性度量(Kaiser-Meyer-Olkinmeasureofsamplingadequacy)
整理課件Bartlett球度檢驗通過構造一個近似χ2統計量從整體上檢驗相關矩陣,即Ho:“相關矩陣是一個單位陣”,顯然,其顯著性水平要至少小于0.05,才能拒絕Ho,說明各個變量間存在相關,適宜進行因素分析。整理課件KMO取樣適當性度量
用于比較觀測變量間的簡單相關系數與偏相關系數的相對大小,它是變量間簡單相關系數平方和占這兩種系數平方和的比率。顯然,KMO值越接近1越好。一般規定:0.9以上,極好;0.8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二手設備買賣合同樣本
- 個人房屋裝修合同協議書
- 博士后面試考核評分參考標準
- 保安就業合同樣本
- 買賣農民玉米秸稈合同樣本
- 農村土地買賣合同2
- f住房借款合同標準文本
- 產品驗收合同樣本
- 馬克思主義基本原理概論教學進度計劃表
- 2007版施工合同樣本
- (完整版)作文格子紙模板
- 課后習題詳解
- 大學生心理健康教育(日照職業技術學院)智慧樹知到課后章節答案2023年下日照職業技術學院
- 第13章 實戰案例-鉆石數據分析與預測
- 鋼筋混凝土用鋼材題庫
- 人教版(2019)必修 第三冊Unit 1 Festivals and Celebrations Listening Speaking課件
- 【課件】有機化合物的同分異構體的書寫方法課件高二化學人教版(2019)選擇性必修3
- 光伏過戶轉讓協議書
- 劉禹錫浪淘沙九首賞析
- 宇電溫控器ai 500 501用戶手冊s 6中文說明書
- 免疫學檢驗技術-抗原抗體反應
評論
0/150
提交評論