




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第八章因子分析
變量的相關性公共因子?將多個實測變量轉換成少數幾個不相關的綜合指數編輯課件匯報什么?假定你是一個公司的財務經理,掌握了公司的所有數據,這包括眾多的變量,如:固定資產、流動資金、借貸的數額和期限、各種稅費、工資支出、原料消耗、產值、利潤、折舊、職工人數、分工和教育程度等等。如果讓你向上級或有關方面介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎?
編輯課件需要高度概括在如此多的變量之中,有很多是相關的。人們希望能夠找出它們的少數“代表〞來對它們進行描述。需要把這種有很多變量的數據進行高度概括。編輯課件本章介紹兩種把變量維數降低以便于描述、理解和分析的方法:主成分分析〔principalcomponentanalysis〕和因子分析〔factoranalysis〕。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。主成分分析編輯課件成績數據〔student.txt〕100個學生的數學、物理、化學、語文、歷史、英語的成績如下表〔局部〕。編輯課件從本例可能提出的問題目前的問題是,能否把這個數據的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能否利用找到的綜合變量來對學生排序或據此進行其他分析呢?編輯課件空間的點例中數據點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,由橫坐標和縱坐標所代表;每個觀測值都有相應于這兩個坐標軸的兩個坐標值;編輯課件空間的點如果這些數據形成一個橢圓形狀的點陣〔這在二維正態的假定下是可能的〕該橢圓有一個長軸和一個短軸。在短軸方向上數據變化很少;在極端的情況,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。編輯課件編輯課件橢圓的長短軸當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數據的主要變化,而代表短軸的變量就描述了數據的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。編輯課件如果長軸變量代表了數據包含的大局部信息,就用該變量代替原先的兩個變量〔舍去次要的一維〕,降維就完成了。橢圓的長短軸相差得越大,降維也越有道理。編輯課件編輯課件主軸和主成分多維變量的情況和二維類似,也有高維的橢球,只不過不那么直觀罷了。首先把高維橢球的主軸找出來,再用代表大多數數據信息的最長的幾個軸作為新變量;這樣,主成分分析就根本完成了。編輯課件正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主軸。和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
編輯課件主成分之選取選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大局部。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。編輯課件主成分分析的數學要尋找方差最大的方向。即,使向量X的線性組合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的樣本相關陣R來近似.要尋找向量a使得a’Ra最大(注意相關陣和協方差陣差一個常數〕這涉及相關陣和特征值。回憶選擇幾個主成分呢?要看“奉獻率.〞編輯課件對于我們的數據,SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值〔數據相關陣的特征值〕。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的奉獻越來越少。編輯課件特征值的奉獻還可以從SPSS的〞碎石〞圖看出編輯課件怎么解釋這兩個主成分。主成分是原始六個變量的線性組合。這由下表給出。
這里每一列代表一個主成分作為原來變量線性組合的系數〔比例〕。比方第一主成分為數學、物理、化學、語文、歷史、英語這六個變量的線性組合,系數〔比例〕為-0.806,-0.674,-0.675,0.893,0.825,0.836。編輯課件如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數稱為主成分載荷〔loading〕,它表示主成分和相應的原先變量的相關系數。編輯課件比方y1表示式中x1的系數為-0.806,這就是說第一主成分和數學變量的相關系數為-0.806。相關系數(絕對值〕越大,主成分對該變量的代表性也越大。可以看得出,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關了。編輯課件可以把第一和第二主成分的載荷點出一個二維圖以直觀地顯示它們如何解釋原來的變量的。這個圖叫做載荷圖。編輯課件該圖左面三個點是數學、物理、化學三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認識到這些點的坐標是前面的第一二主成分載荷,坐標是前面表中第一二列中的數目,還是可以識別的。編輯課件因子分析主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找幾個成分,這里叫因子〔factor〕〔比方兩個〕,那就找兩個。這使得在數學模型上,因子分析和主成分分析有不少區別。而且因子分析的計算也復雜得多。根據因子分析模型的特點,它還多一道工序:因子旋轉〔factorrotation〕;這個步驟可以使結果更好。編輯課件對于計算機,因子分析并不費事。從輸出的結果來看,因子分析也有因子載荷〔factorloading〕的概念,代表了因子和原先變量的相關系數。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。編輯課件主成分分析與因子分析的公式上的區別主成分分析因子分析(m<p)因子得分編輯課件因子分析的數學因子分析需要許多假定才能夠解.具體公式.編輯課件對于我們的數據,SPSS因子分析輸出為編輯課件這個表說明六個變量和因子的關系。為簡單記,我們用x1,x2,x3,x4,x5,x6來表示math〔數學〕,phys〔物理〕,chem〔化學〕,literat〔語文〕,history〔歷史〕,english〔英語〕等變量。這樣因子f1和f2與這些原變量之間的關系是〔注意,和主成分分析不同,這里把成分〔因子〕寫在方程的右邊,把原變量寫在左邊;但相應的系數還是主成分和各個變量的線性相關系數,也稱為因子載荷〕:編輯課件編輯課件這里,第一個因子主要和語文、歷史、英語三科有很強的正相關;而第二個因子主要和數學、物理、化學三科有很強的正相關。因此可以給第一個因子起名為“文科因子〞,而給第二個因子起名為“理科因子〞。從這個例子可以看出,因子分析的結果比主成分分析解釋性更強。編輯課件這些系數所形成的散點圖〔在SPSS中也稱載荷圖〕為可以直觀看出每個因子代表了一類學科編輯課件計算因子得分可以根據輸出算出每個學生的第一個因子和第二個因子的大小,即算出每個學生的因子得分f1和f2。編輯課件該輸出說明第一和第二主因子為〔習慣上用字母f來表示因子〕可以按照如下公式計算,該函數稱為因子得分〔factorscore〕。人們可以根據這兩套因子得分對學生分別按照文科和理科排序。當然得到因子得分只是SPSS軟件的一個選項。編輯課件因子分析和主成分分析的一些本卷須知
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數綜合的變量概括。數據越相關,降維效果就越好。編輯課件在得到分析的結果時,并不一定會都得到如我們例子那樣清楚的結果。這與問題的性質,選取的原始變量以及數據的質量等都有關系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。編輯課件附錄編輯課件的p×p矩陣.而對于觀測值X=(x1,…,xp),其中xi=(x1i,…,xni),i=1,…,p,的樣本相關陣第(ij)-元素為X=(X1,…,Xp)的相關陣為第(ij)-元素為的p×p矩陣,其中sij為第i和第j觀測的樣本相關系數編輯課件關于特征值和特征向量特征方程|R-lI|=0的解為特征值l,這里B為一個p維正定方陣.l通常有p個根l1≥l2≥…≥lp.滿足(R-liI)xi=0的向量xi為li的特征向量.對任意向量a有性質編輯課件頭m個主成分的累積奉獻率:這里R為X的樣本相關陣,第i個特征值li=ai’Rai=V(ai’x);ai為第i個特征向量.Cov(ai’x,aj’x)=0.編輯課件這里aij為第i個特征向量的第j個分量;第i個主成分的載荷平方和為該主成分的方差,等于其特征值li.所選的m個主成分對變量xj的總方差奉獻為主成分負荷(載荷,loading):Yi與Xj的相關系數:編輯課件編輯課件正交因子模型:X-m=AF+emi=變量i的均值ei=第i個特殊因子Fi=第i個公共因子aij=第i個變量在第j個因子上的載荷不能觀測的值滿足以下條件:F和e獨立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是對角矩陣編輯課件F為公共因子向量,每個公共因子(如Fi)是對模型中每個變量都起作用的因子;而e為特殊因子向量,每個特殊因子(如ei)只對一個變量(第i個)起作用.編輯課件因子分析的方法在于估計S=AA’+Y和Y,再分解以得到A.X的協方差陣S可以分解成這里l1≥l2≥…≥lp為S的特征值;而e1,…,ep為相應的特征向量(e1,…,ep為主成分的系數,因此稱為主成分法).上面分解總是取和數的重要的頭幾項來近似.編輯課件X的協方差陣S可以近似為(如Y忽略)如Y不忽略,S可以近似為應用中,S可以用樣本相關陣R代替.編輯課件正交模型X=m+AF+e的協方差結構
根據前面模型,可得出下面結果:上面sii2=Sjaij2+yi2中,Sjaij2稱為共性方差(公共方差或變量共同度commonvariance,communalities),而yi2稱為特殊方差.變量共同度刻畫全部公共因子對變量Xi的總方差所做的奉獻.編輯課件的統計意義就是第i個變量與第j個公共因子的相關系數,表示Xi依賴Fj的份量,這里eij是相應于特征值li的特征向量ei的第j個分量.因子載荷陣中各列元素的平方和Sj=Siaij2稱為公共因子Fj對X諸變量的方差奉獻之總和因子載荷編輯課件除主成分法外還有最大似然法來估計A,m和Y(在多元正態分布的假定下).當然,還有其他方法(有些互相類似).編輯課件令T為任意m正交方陣(TT’=T’T=I),那么X-m=AF+e=ATT’F+e=A*F*+e,這里A*=AT,F*=T’F.因此S=AA’+Y=ATT’A’+Y=(A*)(A*)’+Y因此,因子載荷A只由一個正交陣T決定.載荷A*=AT與A都給出同一個表示.由AA’=(A*)(A*)’對角元給出的共性方差,也不因T的選擇而改變.編輯課件正交變換T相當于剛體旋轉(或反射),因子載荷A的正交變換AT稱為因子旋轉
估計的協方差陣或相關陣,殘差陣,特殊方差及共性方差都不隨旋轉而變.
這里“殘差陣〞為協方差陣或相關陣與估計的AA’+Y之差.編輯課件因子旋轉的一個準那么為最大方差準那么.它使旋轉后的因子載荷的總方差到達最大.如即要選變換T使下式最大(計算機循環算法)編輯課件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年男式彈力背心項目可行性研究報告
- 2025-2030中國烘手機行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國溶劑型醫藥油墨行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國汽車漆行業市場深度調研與發展策略研究報告
- 2025-2030中國松香酸三甘醇(CAS:8050-25-7)行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國手術前大燈行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國微通道換熱器行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國循環功率計行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國工程機械租賃行業市場深度調研及投資前景與投資策略研究報告
- 2025-2030中國巖棉板行業市場發展趨勢與前景展望戰略研究報告
- 化工技術經濟(第五版)課件-第7章-項目可行性研究與決策-
- 安全掃描漏洞管理方案
- 小學二年級下口算題1000道(50道每天)
- 空調安裝免責協議書模板
- 換電站(充電樁)安全風險告知模板
- 寧夏傳統文化調研報告范文
- 景區食堂經營外包合同
- 2024年骨科病區VTE測試試題
- 第14課推進綠色發展的課件
- 模擬電子技術基礎智慧樹知到期末考試答案章節答案2024年北京航空航天大學
- 中國蠶絲綢文化 知到智慧樹網課答案
評論
0/150
提交評論