




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多元統計分析方法
————因子分析
多元統計分析方法
1引言
事物的表現是多方面的,事物之間的相互作用也是交叉重疊和具有層次性的,所以我們期望對事物進行準確描述的時候總會陷入一種兩難:一方面,對事物的各種表現的觀測越全面,對事物的認識就越準確和越完整;另一方面,對事物的觀測越全面,得到的描述變量就越多,對事物的特性的表述卻變得更加困難了!引言事物的表現是多方面的,事物之間的相互作用也是2
顯然,在高維度空間中描述事物比在低維度的空間中描述事物更客觀,卻更困難。這一矛盾如何解決呢?統計學提供了最有效的方法和手段,即下面要學習因子分析。顯然,在高維度空間中描述事物比在低維度的空間中描3一、基本理論三、因子分析的基本步驟目錄四、因子分析的spss實例應用二、因子分析模型一、基本理論三、因子分析的基本步驟目錄四、因子分析的spss4一、基本理論1.什么是因子分析?
因子分析是將具有錯綜復雜關系的變量(或樣本)綜合為少數幾個因子,以再現原始變量和因子之間的相互關系,探討多個能夠直接測量,并且具有一定相關性的實測指標是如何受少數幾個內在的獨立因子所支配,并且在條件許可時借此嘗試對變量進行分類。一、基本理論1.什么是因子分析?52.因子分析的基本思想
根據變量間相關性的大小把變量分組,使得同組內的變量之間的相關性(共性)較高,并用一個公共因子來代表這個組的變量,而不同組的變量相關性較低(個性)。2.因子分析的基本思想根據變量間相關性的大小6因子分析將每個原始變量分解成兩部分因素,一部分是由所有變量共同具有的少數幾個公共因子組成的,另一部分是每個變量獨自具有的因素,即特殊因子。因子分析將每個原始變量分解成兩部分因素,一部分是7
3.因子分析的目的
因子分析的目的,通俗來講就是簡化變量維數。即要使因素結構簡單化,希望以最少的共同因素(公共因子),能對總變異量作最大的解釋,因而抽取得因子越少越好,但抽取的因子的累積解釋的變異量越大越好。
3.因子分析的目的因子分析的目的,通俗來講就8例:
在企業形象或品牌形象的研究中,消費者可以通過一個由24個指標構成的評價體系,評價百貨商場的24個方面的優劣。但消費者主要關心的是三個方面,即商店的環境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:例:9xi=ai1F1+ai2F2+ai3F3+εi(i=1,2,3....24)稱F1
、F2、F3
是不可觀測的潛在因子,也稱為公共因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分εi,稱為特殊因子。xi=ai1F1+ai2F2+ai3F3+εi(i=110二、因子分析模型
因子分析是通過研究多個變量間相關系數矩陣(或協方差矩陣)的內部依賴關系,找出能綜合所有變量的少數幾個綜合指標,這幾個綜合指標是不可測量的,但它更能反映事物的本質,通常稱為因子。各個因子間是獨立的、互不相關,所有變量都可以表示成公因子的線性組合。二、因子分析模型因子分析是通過研究多個變量間相111.數學模型
設有N個樣本,P個指標,X=(x1,x2,.....,.xp)T為隨機向量,要尋找公共因子為F=(F1,F2,.......,FM)T,則模型:X1=a11F1+a12F2...+a1mFm+ε1X2=a21F1+a22F2...+a2mFm+ε2
::Xp=ap1F1+ap2F2...+apmFm+εp被稱為因子模型。1.數學模型設有N個樣本,P個指標,X=(x1,12
矩陣A=(aij)稱為因子載荷矩陣,aij為因子載荷,其實質就是公因子Fi和變量Xj
的相關系數。ε為特殊因子,代表公因子以外的影響因素所導致的(不能被公共因子所解釋的)變量變異,實際分析時忽略不計。上述模型表示成矩陣形式為:X=AF+ε。矩陣A=(aij)稱為因子載荷矩陣,aij為因13對求得的公因子,需要觀察它們在哪些變量上有較大的載荷,再據此說明該公因子的實際含義。但對于分析得到的初始因子模型,其因子載荷矩陣往往比較復雜,難以對公因子Fi
給出一個合理的解釋,此時可以考慮進一步做因子旋轉,以求旋轉后能得到更加合理的解釋。對求得的公因子,需要觀察它們在哪些變量上有較大14
因子分析得到的模型有兩個特點:其一,模型不受量綱的影響;其二,因子載荷不是唯一的,通過因子軸的旋轉,可以得到新的因子載荷陣,使意義更加明顯。因子分析得到的模型有兩個特點:其一,模型不受量綱152.各統計量的意義(1)特征值(Eigenwalue):它可以被看成是公因子響力度的指標,代表引入該因子后可以解釋平均多少個原始變量的信息。如果特征值小于1,說明該因子的解釋力度還不如直接引入一個原變量的平均解釋力度大,因此一般可以用特征值大于1作為納入標準。2.各統計量的意義(1)特征值(Eigenwalue):它可16(2)累計貢獻率:前
k個主成分的累計貢獻率指按照方差貢獻率從大到小排列,前k個主成分累計提取了多少的原始信息,即前面
k個主成分累計提取了x1,x2,…,xp多少的信息。一般來說,如果前
k個主成分的累計貢獻率達到85%,表明前
k個主成分包含了全部測量指標所具有的主要信息,這樣既減少了變量的個數,又便于對實際問題的分析和研究。(2)累計貢獻率:前k個主成分的累計貢獻率指按照方差貢獻率17
(3)因子載荷aij:因子載荷aij為第
i個變量在第
j個因子上的載荷,實際上就是xi與Fj的相關系數,表示變量xi依賴因子Fj
的程度,或者說反映了第
i個變量
xi對于第
j公因子Fj
的相對重要性。其絕對值越大,則表示公因子Fj與xi的關系越密切。(3)因子載荷aij:因子載荷aij為第i個變量18(4)變量共同度:變量共同度也稱為公共方差,記為hj2,表示全部公因子對變量xi的總方差所作出的貢獻,或者變量xi的信息能夠被k個公因子所描述的程度,數值在0~1之間。取值越大,說明該變量能被公共因子解釋的信息比例越高。變量xi的共同度為因子載荷矩陣A
中第i
行元素的平方和,即:hi2=,(j=1,2,3,……k)(4)變量共同度:變量共同度也稱為公共方差,記為hj2,表示19
如果大部分變量的共同度都在0.8上,則說明提取出的公因子已經基本反映了各原始變量80%以上的信息,因子分析效果理想。如果大部分變量的共同度都在0.8上,則說明提取出20(5)公因子的方差貢獻:公因子Fj的方差貢獻定義為因子載荷矩陣中第j
列元素的平方和,即:Sj=
(i=1,2,3,……k)
它所反映的是該因子對所有原始變量總方差的解釋能力,其值越大,說明該因子的重要性越高。(5)公因子的方差貢獻:公因子Fj的方差貢獻定義為因子載荷21三、因子分析的基本步驟
因子分析中需要解決兩個問題:一是如何來構造少量的并且能夠盡可能的反映原有信息的因子;二是如何對析取出的因子進行命名解釋。其基本步驟如下:三、因子分析的基本步驟因子分析中需要解決兩個問221.確定待分析的原始變量是否適合進行因子分析,即進行因子分析的前提假設是否滿足。2.因子提取3.因子旋轉4.計算因子得分1.確定待分析的原始變量是否適合進行因子分析,即進行因子分析231.確定待分析的原始變量是否適合進行因子分析由于因子分析是從眾多原始變量中構造出少數幾個有代表意義的因子,這就要求原變量之間具有較強的相關性。如果原變量間不存在相關關系,或者說沒有共同成分的話,就無法、也沒有必要再去析取因子,因為原變量本身就已經是最小的不能再縮減的變量集。1.確定待分析的原始變量是否適合進行因子分析由24因此,因子分析時,需要對原變量進行相關分析。如果在計算出的相關矩陣,大部分相關系數都小于0.3,并且未通過統計檢驗,則變量不適合于進行因子分析。此外,SPSS的因子分析過程也提供了用于檢驗變量是否合適于做因子分析的方法:因此,因子分析時,需要對原變量進行相關分析。如25方法一:KMO檢驗KMO(Kaiser-Meyer-Olkin)檢驗統計量是用于比較變量間簡單相關系數和偏相關系數的指標。主要應用于多元統計的因子分析。
KMO檢驗是依據變量間的簡單相關與偏相關的比較。
方法一:KMO檢驗KMO(Kaiser-Meyer-Olki26其計算公式為所有原變量簡單相關系數的平方和除以簡單相關系數平方和加偏相關系數平方和。即:
其中,是變量i和j的簡單相關系數,是變量i和變量j的偏相關系數。(0≤KMO≤1)其計算公式為所有原變量簡單相關系數的平方和除以簡單相關系數平27如果KMO值越接近1,則越適合于做因子分析,如果KMO越小,則越不適合于做因子分析,其判斷標準如下:0.9<KMO:非常適合0.8<KMO<0.9:適合0.7<KMO<0.8:一般0.6<KMO<0.7:不太適合KMO<0.5:不合適如果KMO值越接近1,則越適合于做因子分析,如果28方法二:巴特利特(Bartlett)球形檢驗
該檢驗首先假設變量相關矩陣為單位陣(對角線為1、非對角線為0),然后檢驗實際相關矩陣與此差異性。如果差異性顯著,則拒絕單位陣假設,即認為原變量間的相關性顯著,適合于作因子分析,否則不能作因子分析。方法二:巴特利特(Bartlett)球形檢驗該檢29方法三:反映象相關矩陣檢驗
將偏相關矩陣中的每個元素取反,得到反映像相關矩陣。如果原變量間相互作用較大,則控制了這些相互作用后的偏相關系數較小,此時反映像相關矩陣中的元素的絕對值比較小,則適合于做因子分析,反之則不適合于作因子分析。方法三:反映象相關矩陣檢驗將偏相關矩陣中的每個302.因子提取
因子提取方法
因子分析中,析取因子的方法有許多種,在“抽取”對話框中的“方法”下拉列表框中,可以選擇不同的分析方法。(1)主成分法:為默認選項,也是最常用的使用方法之一。2.因子提取因子提取方法31此方法將原有的P個相關變量Xi作線性變換后轉成另一組不相關的變量Yi,即:y1=u11x1+u21x2+…+up1xpy2=u12x1+u22x2+…+up2xp ……yP=u1Px1+u2Px2+…+uppxp該方程組要求:u1k2+u2k2+u3k2+…+upk2=1(k=1,2,3,…p)此方法將原有的P個相關變量Xi作線性變換后轉成另32系數uij依照兩個原則來確定:
yi與yj(i≠j,i,j=1,2,3,…p)互不相關;
y1是x1,x2,x3,…,xp的一切線性組合(系數滿足上述方程組)中方差最大的;y2是與y1不相關的x1,x2,x3,…,xp的一切線性組合中方差次大的;yP是與y1,y2,y3,…yp都不相關的x1,x2,x3,…,xp的一切線性組合中方差最小的;即y1,y2,y3,y4,……,yp為原有變量的第1、第2、第3和第p個主成分。系數uij依照兩個原則來確定:33通過選取前面幾個方差最大的主成分,一方面能夠用較少變量反映原有變量的絕大部分信息(一般方差的累計貢獻率應大于85%),另一方面減少了數據分析和處理的復雜程度。(2)未加權的最小平方法:該方法使實際的相關陣和再生的相關陣之差的平方和達到最小。通過選取前面幾個方差最大的主成分,一方面能夠用34(3)廣義最小二乘法:該方法實際也是使實際的相關陣和再生的相關陣之差的平方和達到最小。但是對相關系數要進行加權,權重為其單值的倒數,這樣單值高的變量,其權重比單值低的變量的權重小。(3)廣義最小二乘法:該方法實際也是使實際的相關陣和再生的相35(4)最大似然法。該方法要求數據服從多變量正態分布,此時它生成的參數估計值最接近觀察到的相關陣,在樣本量較大時使用較好。(4)最大似然法。該方法要求數據服從多變量正態分布,此時它36(5)主軸因子分解:該方法從原始變量的相關性出發,使得變量間的相關程度能夠盡可能地被公因子解釋。該方法重在解釋變量的相關性,確定內在結構,而對于變量方差的解釋不太重視。(5)主軸因子分解:該方法從原始變量的相關性出發,使得變量間37(6)α因子分解法:此法將變量看成是從潛在變量空間中抽取出的樣本,在計算中盡量使得變量的α信度達到最大。(6)α因子分解法:此法將變量看成是從潛在變量空間中抽取出的38(7)映像因子分解:該方法把一個變量看作是其他變量的多元回歸,據此概念提取公因子。(7)映像因子分解:該方法把一個變量看作是其他變量的多元回歸39
事實上,如果變量數和樣本量都大,而且相關性也高,則各種因子提取法的結果基本相同,區別僅僅在于其分析思想不同。主成分法是最常用的方法,在多數情況下也是最佳的選擇;如果樣本量極大(1500以上),則極大似然法的結果稍為更精確些;如果數據不好(樣本小,或變量少),α因子法或映像因子法可能更好;當對各種方法的原理不太清楚或者適用條件不明的情況下,主成分法仍然是最好的選擇。事實上,如果變量數和樣本量都大,而且相關性也高,則40因子個數的確定根據特征值確定因子數:一般選取特征值大于1的公因子,因為如果特征值小于1,說明該公因子的解釋力度太弱,還比不上直接引入一個原變量的平均解釋力度大。但是這一點在因子分析中并不是絕對的,在實際應用中,可以將累計貢獻率、特征值大小與碎石圖等綜合起來考慮,必要時也可以保留特征值小于1,但是在專業上有明確含義的公因子。因子個數的確定根據特征值確定因子數:一般選取特征41也可以根據因子的累計方差貢獻率確定因子數:通常選取累計方差貢獻率大于85%的特征值個數為因子個數。
另外,還可以通過直觀觀察碎石圖的方式確定因子的個數。也可以根據因子的累計方差貢獻率確定因子數:通常423.因子旋轉
根據前述分析,因子分析得到的每個公共因子都對原變量中的每一變量作出一定解釋,而解釋程度的大小反映在因子載荷矩陣A
的元素結構上。一般我們可以得到每一列的因子載荷中有一些是比較大的,而另一些比較小,就可以知道該列對應的因子主要解釋了哪些變量,以此確定該公共因子的主要特征和內涵。3.因子旋轉根據前述分析,因子分析得到的43
但有時,因子載荷的大小差異不是非常明顯,此時公共因子的命名和解釋就比較困難。這時可以使用因子矩陣旋轉對因子矩陣作變換,使得旋轉之后的載荷矩陣在每一列上元素的絕對值盡量地拉開大小距離,增加因子載荷的差異性,提高因子的可解釋性。最常用的因子旋轉是最大方差法,因為此種方法使因子載荷獲得最佳分化。但有時,因子載荷的大小差異不是非常明顯,此時公44因子旋轉方法有正交旋轉和斜交旋轉兩大類:(1)最大方差正交旋轉(Varimax):最常用的旋轉方法,使各因子仍然保持正交的狀態,但盡量使得各因子的方差差異達到最大,即相對的載荷平方和達到最大,從而方便對因子的解釋。因子旋轉方法有正交旋轉和斜交旋轉兩大類:45(2)四次方最大正交旋轉(Quartimax):該方法對各因子方差差異化的效果顯然更強,同時傾向于減少和每個變量有關聯的因子數,從而簡化對原變量的解釋。(2)四次方最大正交旋轉(Quartimax):該方法對各因46(3)最大平衡值法(Equamax):該方法的特點正好介于最大方差正交旋轉和四次方最大正交旋轉之間。它使每個因子具有高載荷的變量數最小和需要解釋的變量的因子數最小。(3)最大平衡值法(Equamax):該方法的特點正好介于最47(4)直接Obimin法:直接斜交旋轉法,需要首先指定一個因子映像的自相關范圍,在Delta框中輸入值,該值的取值上限為0.8。當Delta=0時(系統默認值),斜交程度最大,可以取負值,負值越小,因子間斜交程度變得越小。(4)直接Obimin法:直接斜交旋轉法,需要首先指定一個因48(5)Promax:最常用的斜交旋轉方法,是在最大方差正交旋轉的基礎上再進行斜交旋轉。旋轉后允許因子間存在相關,這種旋轉方式往往是在有具體的結果傾向時選用,它可以按分析者的目的將因子分解為最希望的形式。適用于大數據集的因子分析。但是在實際應用中,由于斜交旋轉的結果太容易受研究者主觀意愿的左右,所以建議盡量采用默認的正交旋轉。(5)Promax:最常用的斜交旋轉方法,是在最大方差正交旋494、計算因子得分
在因子分析實際應用中,當因子確定以后,便可計算各因子在每個樣本上的具體數值,這些數值稱為因子得分,形成的變量稱為因子變量。4、計算因子得分在因子分析實際應用中,當因子確50計算因子得分的途徑是用原有變量描述因子,第j個因子在第i個樣本上的值可表示為:Fj=βj1x1+βj2x2+βj3x3+…+βjpxp(j=1,2,3,…,m)
計算因子得分的途徑是用原有變量描述因子,第j個因51但是在因子分析中,由于具體的算法可以不是主成分方法,因此不一定能像主成分分析一樣,直接從因子載荷矩陣得到公因子的表達式,此時只能采用估計的方法求得。估計因子得分的方法有多種,有一般有回歸法、Bartleet(巴特利特)和Anderson-Rubin估計法等回歸法,但最常用的是默認的回歸法。但是在因子分析中,由于具體的算法可以不是主成分52四、因子分析的spss實例應用
現希望對全國30個省、市、自治區(未包括港澳臺地區,重慶包含在在四川里)經濟發展基本情況的八項指標進行分析。具體采用的指標有:GDP、居民消費水平、固定資產投資、職工平均工資、貨物周轉量、居民消費價格指數、商品價格指數、工業總產值,數據文件見factor1.sav。操作步驟如下:(見上機操作)四、因子分析的spss實例應用現希望對全國30個53輸出結果分析:下圖為8個原始變量之間的相關系數矩陣,可見許多變量之間直接的相關性比較強,的確存在信息上的重疊。該結果確認了信息濃縮的必要性。輸出結果分析:下圖為8個原始變量之間的相關系數矩陣,可54下圖為KMO和球形Bartlett檢驗結果。KOM和球形Bartlett檢驗用于因子分析的適用性檢驗。KMO檢驗變量間的偏相關是否較大,Bartlett球形檢驗是判斷相關陣是否是單位陣。由Bartlett檢驗的顯著性為0.00<0.05,因此不為單位陣,應拒絕各變量獨立的假設,即變量間具有較強的相關性。但是KMO統計量為0.620,小于0.7,說明各變量間信息的重疊程度可能不是特別高,有可能做出的因子分析模型不是很完善,但還是值得嘗試的。下圖為KMO和球形Bartlett檢驗結果。KO55
下圖為公因子方差,它表示各變量中所含原始信息能被提取的公因子所表示的程度,可見幾乎所有變量的共同度都在80%以上,因此按在默認數量提取出來的這幾個因子對各變量的解釋能力是比較強的。下圖為公因子方差,它表示各變量中所含原始信息能被提56下圖是采用默認設置抽取特征值大于1的成分的結果,從中可以看出抽取了3個因子,但可以解釋總變異量的89.55%。表格在最右側給出了旋轉后各因子的載荷情況。由于默認只提取了前3個公共因子,因此旋轉會基于所提取的這3個因子進行。在旋轉后,3個公因子的方差貢獻率均發生了變化,彼此差距有所縮小,顯然信息量進行了重新分配,但仍然保持從大到小的排列順序,而且累計方差貢獻率仍是89.55%,和旋轉前完全相同。下圖是采用默認設置抽取特征值大于1的成分的結果57本例中是按照特征值大于1的默認標準提取了3個公因子,但這個標準是否合適呢?這可以利用碎石圖(ScreePlot)來協助判斷。本例中是按照特征值大于1的默認標準提取了3個公因58
Scree一詞來自地質學,表示在巖石斷層斜坡下方發現的小碎石,這些碎石可能是因風化、水流等從其他地點帶來,因此其地質學價值不高,可以忽略。
碎石圖用于顯示各因子的重要程度,其橫軸為因子序號,縱軸表示特征值大小。它將因子按特征值從大到小依次排列,從中可以直接觀察出道哪些是最主要的因子。前面陡坡對應較大的特征值,作用明顯;后面的平臺對應較小的特征值,其影響較弱。本例中可見前三個因子的散點位于陡坡上,而后五個因子散點形成了平臺,且特征值均小于1,因此至多考慮前三個公因子即可。Scree一詞來自地質學,表示在巖石斷層斜坡59旋轉前的成份矩陣從下圖我們可以發現,提取的三個成分各自主要解釋了哪些原始變量不是很清楚,因為光從因子載荷來看,它們之間的差異并不是很明顯,此時我們就需要進行因子旋轉。旋轉前的成份矩陣從下圖我們可以發現,提取的三個成分各60該表反映的是各因子在各變量上的載荷,即各因子對各變量的影響度:ZX1=0.911F1+0.163F2+0.213F3+ε1ZX2=0.884F1+0.385F2+0.120F3+ε2::ZX8=-0.510F1+0.257F2+0.794F3+ε8注意:在該表達式中,各變量不是原始變量,而是標準化變量。εi表示特殊因子,是除了這三公因子外影響該變量的其他因素,其對該變量的影響程度為:1-變量共同度該表反映的是各因子在各變量上的載荷,即各因子對各變量的影響度61旋轉后的成份矩陣下圖是經過旋轉后的成分矩陣,可以看出表格按照系數大小進行了排序,而且過小的系數也被抑制輸出,使得結果更清晰易讀,但是內容實際上是相同的。旋轉后的成份矩陣下圖是經過旋轉后的成分矩陣,可以看出62
由旋轉成分矩陣可以看出第一公因子在前4個原始變量有較大的載荷,主要從GDP、固定資產投資、貨物周轉量和工業總產值反映經濟發展狀況,可以命名為總量因子。第二公因子在第5個和第6個原始變量上有較大載荷,從居民消費水平和職工平均工資方面反映經濟發展水平,因此命名為消費因子。第三公因子在最后兩個原始變量上有較大載荷,表現為居民消費價格指數和商品價格指數方面,因此命名為價格因子。與未旋轉前相比較,旋轉后各公因子的意義顯然更加明確合理,也有利于對數據的解讀與應用。由旋轉成分矩陣可以看出第一公因子在前4個原始變量63成分轉換矩陣
轉換矩陣用于計算旋轉后各因子的特征值,將旋轉前各個因子的特征值矩陣與轉換矩陣相乘,即得旋轉后各個因子特征值。成分轉換矩陣轉換矩陣用于計算旋轉后各因子的特64成份得分系數矩陣在SPSS中,可以利用“得分”對話框中的“顯示因子得分系數”復選框在結果中直接輸出因子系數矩陣,本例結果如下:成份得分系數矩陣在SPSS中,可以利用“得分”對話框65根據上圖可以直接寫出各公因子的表達式F1=0.306Zx1+0.025Zx2+0.270Zx3-0.025Zx4+0.248Zx5+0.070Zx6+0.070Zx7+0.317Zx8F2=0.011Zx1+0.387Zx2+0.129Zx3+0.415Zx4-0.319Zx5+0.180Zx6-0.098Zx7+0.026Zx8F3=0.047Zx1+0.040Zx2+0.075Zx3+0.096Zx4-0.139Zx5+0.653Zx6+0.0462Zx7+0.123Zx8根據上圖可以直接寫出各公因子的表達式F1=0.306Zx1+66
下圖表示的是各因子間的協方差矩陣,因為是按正交提取的,所以各因子間的協方差為零。下圖表示的是各因子間的協方差矩陣,因為是按正交提取的67ThankYou!ThankYou!68
多元統計分析方法
————因子分析
多元統計分析方法
69引言
事物的表現是多方面的,事物之間的相互作用也是交叉重疊和具有層次性的,所以我們期望對事物進行準確描述的時候總會陷入一種兩難:一方面,對事物的各種表現的觀測越全面,對事物的認識就越準確和越完整;另一方面,對事物的觀測越全面,得到的描述變量就越多,對事物的特性的表述卻變得更加困難了!引言事物的表現是多方面的,事物之間的相互作用也是70
顯然,在高維度空間中描述事物比在低維度的空間中描述事物更客觀,卻更困難。這一矛盾如何解決呢?統計學提供了最有效的方法和手段,即下面要學習因子分析。顯然,在高維度空間中描述事物比在低維度的空間中描71一、基本理論三、因子分析的基本步驟目錄四、因子分析的spss實例應用二、因子分析模型一、基本理論三、因子分析的基本步驟目錄四、因子分析的spss72一、基本理論1.什么是因子分析?
因子分析是將具有錯綜復雜關系的變量(或樣本)綜合為少數幾個因子,以再現原始變量和因子之間的相互關系,探討多個能夠直接測量,并且具有一定相關性的實測指標是如何受少數幾個內在的獨立因子所支配,并且在條件許可時借此嘗試對變量進行分類。一、基本理論1.什么是因子分析?732.因子分析的基本思想
根據變量間相關性的大小把變量分組,使得同組內的變量之間的相關性(共性)較高,并用一個公共因子來代表這個組的變量,而不同組的變量相關性較低(個性)。2.因子分析的基本思想根據變量間相關性的大小74因子分析將每個原始變量分解成兩部分因素,一部分是由所有變量共同具有的少數幾個公共因子組成的,另一部分是每個變量獨自具有的因素,即特殊因子。因子分析將每個原始變量分解成兩部分因素,一部分是75
3.因子分析的目的
因子分析的目的,通俗來講就是簡化變量維數。即要使因素結構簡單化,希望以最少的共同因素(公共因子),能對總變異量作最大的解釋,因而抽取得因子越少越好,但抽取的因子的累積解釋的變異量越大越好。
3.因子分析的目的因子分析的目的,通俗來講就76例:
在企業形象或品牌形象的研究中,消費者可以通過一個由24個指標構成的評價體系,評價百貨商場的24個方面的優劣。但消費者主要關心的是三個方面,即商店的環境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:例:77xi=ai1F1+ai2F2+ai3F3+εi(i=1,2,3....24)稱F1
、F2、F3
是不可觀測的潛在因子,也稱為公共因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分εi,稱為特殊因子。xi=ai1F1+ai2F2+ai3F3+εi(i=178二、因子分析模型
因子分析是通過研究多個變量間相關系數矩陣(或協方差矩陣)的內部依賴關系,找出能綜合所有變量的少數幾個綜合指標,這幾個綜合指標是不可測量的,但它更能反映事物的本質,通常稱為因子。各個因子間是獨立的、互不相關,所有變量都可以表示成公因子的線性組合。二、因子分析模型因子分析是通過研究多個變量間相791.數學模型
設有N個樣本,P個指標,X=(x1,x2,.....,.xp)T為隨機向量,要尋找公共因子為F=(F1,F2,.......,FM)T,則模型:X1=a11F1+a12F2...+a1mFm+ε1X2=a21F1+a22F2...+a2mFm+ε2
::Xp=ap1F1+ap2F2...+apmFm+εp被稱為因子模型。1.數學模型設有N個樣本,P個指標,X=(x1,80
矩陣A=(aij)稱為因子載荷矩陣,aij為因子載荷,其實質就是公因子Fi和變量Xj
的相關系數。ε為特殊因子,代表公因子以外的影響因素所導致的(不能被公共因子所解釋的)變量變異,實際分析時忽略不計。上述模型表示成矩陣形式為:X=AF+ε。矩陣A=(aij)稱為因子載荷矩陣,aij為因81對求得的公因子,需要觀察它們在哪些變量上有較大的載荷,再據此說明該公因子的實際含義。但對于分析得到的初始因子模型,其因子載荷矩陣往往比較復雜,難以對公因子Fi
給出一個合理的解釋,此時可以考慮進一步做因子旋轉,以求旋轉后能得到更加合理的解釋。對求得的公因子,需要觀察它們在哪些變量上有較大82
因子分析得到的模型有兩個特點:其一,模型不受量綱的影響;其二,因子載荷不是唯一的,通過因子軸的旋轉,可以得到新的因子載荷陣,使意義更加明顯。因子分析得到的模型有兩個特點:其一,模型不受量綱832.各統計量的意義(1)特征值(Eigenwalue):它可以被看成是公因子響力度的指標,代表引入該因子后可以解釋平均多少個原始變量的信息。如果特征值小于1,說明該因子的解釋力度還不如直接引入一個原變量的平均解釋力度大,因此一般可以用特征值大于1作為納入標準。2.各統計量的意義(1)特征值(Eigenwalue):它可84(2)累計貢獻率:前
k個主成分的累計貢獻率指按照方差貢獻率從大到小排列,前k個主成分累計提取了多少的原始信息,即前面
k個主成分累計提取了x1,x2,…,xp多少的信息。一般來說,如果前
k個主成分的累計貢獻率達到85%,表明前
k個主成分包含了全部測量指標所具有的主要信息,這樣既減少了變量的個數,又便于對實際問題的分析和研究。(2)累計貢獻率:前k個主成分的累計貢獻率指按照方差貢獻率85
(3)因子載荷aij:因子載荷aij為第
i個變量在第
j個因子上的載荷,實際上就是xi與Fj的相關系數,表示變量xi依賴因子Fj
的程度,或者說反映了第
i個變量
xi對于第
j公因子Fj
的相對重要性。其絕對值越大,則表示公因子Fj與xi的關系越密切。(3)因子載荷aij:因子載荷aij為第i個變量86(4)變量共同度:變量共同度也稱為公共方差,記為hj2,表示全部公因子對變量xi的總方差所作出的貢獻,或者變量xi的信息能夠被k個公因子所描述的程度,數值在0~1之間。取值越大,說明該變量能被公共因子解釋的信息比例越高。變量xi的共同度為因子載荷矩陣A
中第i
行元素的平方和,即:hi2=,(j=1,2,3,……k)(4)變量共同度:變量共同度也稱為公共方差,記為hj2,表示87
如果大部分變量的共同度都在0.8上,則說明提取出的公因子已經基本反映了各原始變量80%以上的信息,因子分析效果理想。如果大部分變量的共同度都在0.8上,則說明提取出88(5)公因子的方差貢獻:公因子Fj的方差貢獻定義為因子載荷矩陣中第j
列元素的平方和,即:Sj=
(i=1,2,3,……k)
它所反映的是該因子對所有原始變量總方差的解釋能力,其值越大,說明該因子的重要性越高。(5)公因子的方差貢獻:公因子Fj的方差貢獻定義為因子載荷89三、因子分析的基本步驟
因子分析中需要解決兩個問題:一是如何來構造少量的并且能夠盡可能的反映原有信息的因子;二是如何對析取出的因子進行命名解釋。其基本步驟如下:三、因子分析的基本步驟因子分析中需要解決兩個問901.確定待分析的原始變量是否適合進行因子分析,即進行因子分析的前提假設是否滿足。2.因子提取3.因子旋轉4.計算因子得分1.確定待分析的原始變量是否適合進行因子分析,即進行因子分析911.確定待分析的原始變量是否適合進行因子分析由于因子分析是從眾多原始變量中構造出少數幾個有代表意義的因子,這就要求原變量之間具有較強的相關性。如果原變量間不存在相關關系,或者說沒有共同成分的話,就無法、也沒有必要再去析取因子,因為原變量本身就已經是最小的不能再縮減的變量集。1.確定待分析的原始變量是否適合進行因子分析由92因此,因子分析時,需要對原變量進行相關分析。如果在計算出的相關矩陣,大部分相關系數都小于0.3,并且未通過統計檢驗,則變量不適合于進行因子分析。此外,SPSS的因子分析過程也提供了用于檢驗變量是否合適于做因子分析的方法:因此,因子分析時,需要對原變量進行相關分析。如93方法一:KMO檢驗KMO(Kaiser-Meyer-Olkin)檢驗統計量是用于比較變量間簡單相關系數和偏相關系數的指標。主要應用于多元統計的因子分析。
KMO檢驗是依據變量間的簡單相關與偏相關的比較。
方法一:KMO檢驗KMO(Kaiser-Meyer-Olki94其計算公式為所有原變量簡單相關系數的平方和除以簡單相關系數平方和加偏相關系數平方和。即:
其中,是變量i和j的簡單相關系數,是變量i和變量j的偏相關系數。(0≤KMO≤1)其計算公式為所有原變量簡單相關系數的平方和除以簡單相關系數平95如果KMO值越接近1,則越適合于做因子分析,如果KMO越小,則越不適合于做因子分析,其判斷標準如下:0.9<KMO:非常適合0.8<KMO<0.9:適合0.7<KMO<0.8:一般0.6<KMO<0.7:不太適合KMO<0.5:不合適如果KMO值越接近1,則越適合于做因子分析,如果96方法二:巴特利特(Bartlett)球形檢驗
該檢驗首先假設變量相關矩陣為單位陣(對角線為1、非對角線為0),然后檢驗實際相關矩陣與此差異性。如果差異性顯著,則拒絕單位陣假設,即認為原變量間的相關性顯著,適合于作因子分析,否則不能作因子分析。方法二:巴特利特(Bartlett)球形檢驗該檢97方法三:反映象相關矩陣檢驗
將偏相關矩陣中的每個元素取反,得到反映像相關矩陣。如果原變量間相互作用較大,則控制了這些相互作用后的偏相關系數較小,此時反映像相關矩陣中的元素的絕對值比較小,則適合于做因子分析,反之則不適合于作因子分析。方法三:反映象相關矩陣檢驗將偏相關矩陣中的每個982.因子提取
因子提取方法
因子分析中,析取因子的方法有許多種,在“抽取”對話框中的“方法”下拉列表框中,可以選擇不同的分析方法。(1)主成分法:為默認選項,也是最常用的使用方法之一。2.因子提取因子提取方法99此方法將原有的P個相關變量Xi作線性變換后轉成另一組不相關的變量Yi,即:y1=u11x1+u21x2+…+up1xpy2=u12x1+u22x2+…+up2xp ……yP=u1Px1+u2Px2+…+uppxp該方程組要求:u1k2+u2k2+u3k2+…+upk2=1(k=1,2,3,…p)此方法將原有的P個相關變量Xi作線性變換后轉成另100系數uij依照兩個原則來確定:
yi與yj(i≠j,i,j=1,2,3,…p)互不相關;
y1是x1,x2,x3,…,xp的一切線性組合(系數滿足上述方程組)中方差最大的;y2是與y1不相關的x1,x2,x3,…,xp的一切線性組合中方差次大的;yP是與y1,y2,y3,…yp都不相關的x1,x2,x3,…,xp的一切線性組合中方差最小的;即y1,y2,y3,y4,……,yp為原有變量的第1、第2、第3和第p個主成分。系數uij依照兩個原則來確定:101通過選取前面幾個方差最大的主成分,一方面能夠用較少變量反映原有變量的絕大部分信息(一般方差的累計貢獻率應大于85%),另一方面減少了數據分析和處理的復雜程度。(2)未加權的最小平方法:該方法使實際的相關陣和再生的相關陣之差的平方和達到最小。通過選取前面幾個方差最大的主成分,一方面能夠用102(3)廣義最小二乘法:該方法實際也是使實際的相關陣和再生的相關陣之差的平方和達到最小。但是對相關系數要進行加權,權重為其單值的倒數,這樣單值高的變量,其權重比單值低的變量的權重小。(3)廣義最小二乘法:該方法實際也是使實際的相關陣和再生的相103(4)最大似然法。該方法要求數據服從多變量正態分布,此時它生成的參數估計值最接近觀察到的相關陣,在樣本量較大時使用較好。(4)最大似然法。該方法要求數據服從多變量正態分布,此時它104(5)主軸因子分解:該方法從原始變量的相關性出發,使得變量間的相關程度能夠盡可能地被公因子解釋。該方法重在解釋變量的相關性,確定內在結構,而對于變量方差的解釋不太重視。(5)主軸因子分解:該方法從原始變量的相關性出發,使得變量間105(6)α因子分解法:此法將變量看成是從潛在變量空間中抽取出的樣本,在計算中盡量使得變量的α信度達到最大。(6)α因子分解法:此法將變量看成是從潛在變量空間中抽取出的106(7)映像因子分解:該方法把一個變量看作是其他變量的多元回歸,據此概念提取公因子。(7)映像因子分解:該方法把一個變量看作是其他變量的多元回歸107
事實上,如果變量數和樣本量都大,而且相關性也高,則各種因子提取法的結果基本相同,區別僅僅在于其分析思想不同。主成分法是最常用的方法,在多數情況下也是最佳的選擇;如果樣本量極大(1500以上),則極大似然法的結果稍為更精確些;如果數據不好(樣本小,或變量少),α因子法或映像因子法可能更好;當對各種方法的原理不太清楚或者適用條件不明的情況下,主成分法仍然是最好的選擇。事實上,如果變量數和樣本量都大,而且相關性也高,則108因子個數的確定根據特征值確定因子數:一般選取特征值大于1的公因子,因為如果特征值小于1,說明該公因子的解釋力度太弱,還比不上直接引入一個原變量的平均解釋力度大。但是這一點在因子分析中并不是絕對的,在實際應用中,可以將累計貢獻率、特征值大小與碎石圖等綜合起來考慮,必要時也可以保留特征值小于1,但是在專業上有明確含義的公因子。因子個數的確定根據特征值確定因子數:一般選取特征109也可以根據因子的累計方差貢獻率確定因子數:通常選取累計方差貢獻率大于85%的特征值個數為因子個數。
另外,還可以通過直觀觀察碎石圖的方式確定因子的個數。也可以根據因子的累計方差貢獻率確定因子數:通常1103.因子旋轉
根據前述分析,因子分析得到的每個公共因子都對原變量中的每一變量作出一定解釋,而解釋程度的大小反映在因子載荷矩陣A
的元素結構上。一般我們可以得到每一列的因子載荷中有一些是比較大的,而另一些比較小,就可以知道該列對應的因子主要解釋了哪些變量,以此確定該公共因子的主要特征和內涵。3.因子旋轉根據前述分析,因子分析得到的111
但有時,因子載荷的大小差異不是非常明顯,此時公共因子的命名和解釋就比較困難。這時可以使用因子矩陣旋轉對因子矩陣作變換,使得旋轉之后的載荷矩陣在每一列上元素的絕對值盡量地拉開大小距離,增加因子載荷的差異性,提高因子的可解釋性。最常用的因子旋轉是最大方差法,因為此種方法使因子載荷獲得最佳分化。但有時,因子載荷的大小差異不是非常明顯,此時公112因子旋轉方法有正交旋轉和斜交旋轉兩大類:(1)最大方差正交旋轉(Varimax):最常用的旋轉方法,使各因子仍然保持正交的狀態,但盡量使得各因子的方差差異達到最大,即相對的載荷平方和達到最大,從而方便對因子的解釋。因子旋轉方法有正交旋轉和斜交旋轉兩大類:113(2)四次方最大正交旋轉(Quartimax):該方法對各因子方差差異化的效果顯然更強,同時傾向于減少和每個變量有關聯的因子數,從而簡化對原變量的解釋。(2)四次方最大正交旋轉(Quartimax):該方法對各因114(3)最大平衡值法(Equamax):該方法的特點正好介于最大方差正交旋轉和四次方最大正交旋轉之間。它使每個因子具有高載荷的變量數最小和需要解釋的變量的因子數最小。(3)最大平衡值法(Equamax):該方法的特點正好介于最115(4)直接Obimin法:直接斜交旋轉法,需要首先指定一個因子映像的自相關范圍,在Delta框中輸入值,該值的取值上限為0.8。當Delta=0時(系統默認值),斜交程度最大,可以取負值,負值越小,因子間斜交程度變得越小。(4)直接Obimin法:直接斜交旋轉法,需要首先指定一個因116(5)Promax:最常用的斜交旋轉方法,是在最大方差正交旋轉的基礎上再進行斜交旋轉。旋轉后允許因子間存在相關,這種旋轉方式往往是在有具體的結果傾向時選用,它可以按分析者的目的將因子分解為最希望的形式。適用于大數據集的因子分析。但是在實際應用中,由于斜交旋轉的結果太容易受研究者主觀意愿的左右,所以建議盡量采用默認的正交旋轉。(5)Promax:最常用的斜交旋轉方法,是在最大方差正交旋1174、計算因子得分
在因子分析實際應用中,當因子確定以后,便可計算各因子在每個樣本上的具體數值,這些數值稱為因子得分,形成的變量稱為因子變量。4、計算因子得分在因子分析實際應用中,當因子確118計算因子得分的途徑是用原有變量描述因子,第j個因子在第i個樣本上的值可表示為:Fj=βj1x1+βj2x2+βj3x3+…+βjpxp(j=1,2,3,…,m)
計算因子得分的途徑是用原有變量描述因子,第j個因119但是在因子分析中,由于具體的算法可以不是主成分方法,因此不一定能像主成分分析一樣,直接從因子載荷矩陣得到公因子的表達式,此時只能采用估計的方法求得。估計因子得分的方法有多種,有一般有回歸法、Bartleet(巴特利特)和Anderson-Rubin估計法等回歸法,但最常用的是默認的回歸法。但是在因子分析中,由于具體的算法可以不是主成分120四、因子分析的spss實例應用
現希望對全國30個省、市、自治區(未包括港澳臺地區,重慶包含在在四川里)經濟發展基本情況的八項指標進行分析。具體采用的指標有:GDP、居民消費水平、固定資產投資、職工平均工資、貨物周轉量、居民消費價格指數、商品價格指數、工業總產值,數據文件見factor1.sav。操作步驟如下:(見上機操作)四、因子分析的spss實例應用現希望對全國30個121輸出結果分析:下圖為8個原始變量之間的相關系數矩陣,可見許多變量之間直接的相關性比較強,的確存在信息上的重疊。該結果確認了信息濃縮的必要性。輸出結果分析:下圖為8個原始變量之間的相關系數矩陣,可122下圖為KMO和球形Bartlett檢驗結果。KOM和球形Bartlett檢驗用于因子分析的適用性檢驗。KMO檢驗變量間的偏相關是否較大,Bartlett球形檢驗是判斷相關陣是否是單位陣。由Bartlett檢驗的顯著性為0.00<0.05,因此不為單位陣,應拒絕各變量獨立的假設,即變量間具有較強的相關性。但是KMO統計量為0.620,小于0.7,說明各變量間信息的重疊程度可能不是特別高,有可能做出的因子分析模型不是很完善,但還是值得嘗試的。下圖為KMO和球形Bartlett檢驗結果。KO123
下圖為公因子方差,它表示各變量中所含
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年商丘師范學院輔導員考試真題
- 風險管理在公司戰略目標實現中的整合研究試題及答案
- 倉庫與電商平臺的協同整合計劃
- 2024年河北省廣播電視局下屬事業單位真題
- 2025屆山東省臨沂市沂縣七年級數學第二學期期末綜合測試模擬試題含解析
- 2024年嘉興海鹽國企緊缺型專業招聘筆試真題
- 成功的法學備考策略試題及答案
- 有效的沖突管理技巧計劃
- 法治與可持續發展的互動研究試題及答案
- 優化前臺接待流程的實踐指南計劃
- 食品科學與工程實踐試題集及答案
- 《2025急性冠脈綜合征患者管理指南》解讀
- 2025年內蒙古自治區中考一模語文試題(原卷版+解析版)
- 2025年河北張家口盛垣供電服務有限公司招聘筆試參考題庫含答案解析
- 建筑施工環境影響評價報告
- 科技公司簡介范文
- 《C語言程序設計》教學設計 項目四量化生活數字為先
- 農業產業布局規劃
- 江西省萍鄉市上栗縣2024-2025學年小升初語文模擬試卷(有答案)
- 2025屆湖北省建設投資集團有限公司校園招聘124人筆試參考題庫附帶答案詳解
- 2025-2030年中國智能機器人行業運營狀況與投資戰略研究報告
評論
0/150
提交評論