因子分析原理_第1頁
因子分析原理_第2頁
因子分析原理_第3頁
因子分析原理_第4頁
因子分析原理_第5頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于因子分析原理第一頁,共八十七頁,2022年,8月28日1

§1引言因子分析(factoranalysis)是一種數據簡化的技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,并用少數幾個假想變量來表示其基本的數據結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。例如,在企業形象或品牌形象的研究中,消費者可以通過一個有24個指標構成的評價體系,評價百貨商場的24個方面的優劣。第二頁,共八十七頁,2022年,8月28日2

但消費者主要關心的是三個方面,即商店的環境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:

稱是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子。第三頁,共八十七頁,2022年,8月28日3注:

因子分析與回歸分析不同,因子分析中的因子是一個比較抽象的概念,而回歸因子有非常明確的實際意義;

主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構造因子模型。主成分分析:原始變量的線性組合表示新的綜合變量,即主成分;因子分析:潛在的假想變量和隨機影響變量的線性組合表示原始變量。第四頁,共八十七頁,2022年,8月28日4§2因子分析模型

一、數學模型

設個變量,如果表示為第五頁,共八十七頁,2022年,8月28日5

稱為公共因子,是不可觀測的變量,他們的系數稱為因子載荷。是特殊因子,是不能被前m個公共因子包含的部分。并且滿足:即不相關;即互不相關,方差為1。第六頁,共八十七頁,2022年,8月28日6即互不相關,方差不一定相等,。第七頁,共八十七頁,2022年,8月28日7用矩陣的表達方式第八頁,共八十七頁,2022年,8月28日8二、因子分析模型的性質1、原始變量X的協方差矩陣的分解D的主對角線上的元素值越小,則公共因子共享的成分越多。第九頁,共八十七頁,2022年,8月28日92、模型不受計量單位的影響

將原始變量X做變換X*=CX,這里C=diag(c1,c2,…,cn),ci>0。第十頁,共八十七頁,2022年,8月28日10第十一頁,共八十七頁,2022年,8月28日113、因子載荷不是惟一的

設T為一個p×p的正交矩陣,令A*=AT,F*=T’F,則模型可以表示為且滿足條件因子模型的條件第十二頁,共八十七頁,2022年,8月28日12

三、因子載荷矩陣中的幾個統計特征1、因子載荷aij的統計意義

因子載荷是第i個變量與第j個公共因子的相關系數

模型為

在上式的左右兩邊乘以

,再求數學期望

根據公共因子的模型性質,有

(載荷矩陣中第i行,第j列的元素)反映了第i個變量與第j個公共因子的相關重要性。絕對值越大,相關的密切程度越高。第十三頁,共八十七頁,2022年,8月28日132、變量共同度的統計意義定義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統計意義:兩邊求方差

所有的公共因子和特殊因子對變量的貢獻為1。如果非常靠近1,非常小,則因子分析的效果好,從原變量空間到公共因子空間的轉化性質好。第十四頁,共八十七頁,2022年,8月28日143、公共因子方差貢獻的統計意義因子載荷矩陣中各列元素的平方和稱為所有的對的方差貢獻和。衡量的相對重要性。第十五頁,共八十七頁,2022年,8月28日15§3因子載荷矩陣的估計方法

設隨機向量的均值為,協方差為,

為的特征根,為對應的標準化特征向量,則(一)主成分分析法第十六頁,共八十七頁,2022年,8月28日16

上式給出的表達式是精確的,然而,它實際上是毫無價值的,因為我們的目的是尋求用少數幾個公共因子解釋,故略去后面的p-m項的貢獻,有第十七頁,共八十七頁,2022年,8月28日17

上式有一個假定,模型中的特殊因子是不重要的,因而從的分解中忽略了特殊因子的方差。第十八頁,共八十七頁,2022年,8月28日18注:殘差矩陣其中S為樣本的協方差矩陣。第十九頁,共八十七頁,2022年,8月28日19

(二)主因子法

主因子方法是對主成分方法的修正,假定我們首先對變量進行標準化變換。則

R=AA’+DR*=AA’=R-D稱R*為約相關矩陣,R*對角線上的元素是,而不是1。第二十頁,共八十七頁,2022年,8月28日20直接求R*的前p個特征根和對應的正交特征向量。得如下的矩陣:第二十一頁,共八十七頁,2022年,8月28日21

當特殊因子的方差不為且已知的,問題非常好解決。第二十二頁,共八十七頁,2022年,8月28日22第二十三頁,共八十七頁,2022年,8月28日23

在實際的應用中,個性方差矩陣一般都是未知的,可以通過一組樣本來估計。估計的方法有如下幾種:

首先,求的初始估計值,構造出

1)取,在這個情況下主因子解與主成分解等價;

2)取,為xi與其他所有的原始變量xj的復相關系數的平方,即xi對其余的p-1個xj的回歸方程的判定系數,這是因為xi

與公共因子的關系是通過其余的p-1個xj

的線性組合聯系起來的;第二十四頁,共八十七頁,2022年,8月28日242)取,這意味著取xi與其余的xj的簡單相關系數的絕對值最大者;4)取,其中要求該值為正數。5)取,其中是的對角元素。第二十五頁,共八十七頁,2022年,8月28日25

(三)極大似然估計法(略)

如果假定公共因子F和特殊因子服從正態分布,那么可以得到因子載荷和特殊因子方差的極大似然估計。設為來自正態總體Np(,)的隨機樣本。

第二十六頁,共八十七頁,2022年,8月28日26

它通過依賴和。上式并不能唯一確定,為此可添加一個唯一性條件:

這里式一個對角矩陣,用數值極大化的方法可以得到極大似然估計。極大似然估計將使為對角陣,且似然函數達到最大。相應的共同度的似然估計為:第J個因子對總方差的貢獻:第二十七頁,共八十七頁,2022年,8月28日27

例假定某地固定資產投資率,通貨膨脹率,失業率,相關系數矩陣為試用主成分分析法求因子分析模型。第二十八頁,共八十七頁,2022年,8月28日28

特征根為:第二十九頁,共八十七頁,2022年,8月28日29

可取前兩個因子F1和F2為公共因子,第一公因子F1物價就業因子,對X的貢獻為1.55。第一公因子F2為投資因子,對X的貢獻為0.85。共同度分別為1,0.706,0.706。第三十頁,共八十七頁,2022年,8月28日30

假定某地固定資產投資率,通貨膨脹率,失業率,相關系數矩陣為試用主因子分析法求因子分析模型。假定用代替初始的。。第三十一頁,共八十七頁,2022年,8月28日31

特征根為:

對應的非零特征向量為:第三十二頁,共八十七頁,2022年,8月28日32第三十三頁,共八十七頁,2022年,8月28日33

§4因子旋轉(正交變換)

建立了因子分析數學目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共因子的含義不清,則不便于進行實際背景的解釋。由于因子載荷陣是不惟一的,所以應該對因子載荷陣進行旋轉。目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉法。四次方最大法、方差最大法和等量最大法。(一)為什么要旋轉因子第三十四頁,共八十七頁,2022年,8月28日34

百米跑成績跳遠成績鉛球成績跳高成績

400米跑成績百米跨欄鐵餅成績撐桿跳遠成績標槍成績

1500米跑成績

奧運會十項全能運動項目得分數據的因子分析

第三十五頁,共八十七頁,2022年,8月28日35第三十六頁,共八十七頁,2022年,8月28日36

因子載荷矩陣可以看出,除第一因子在所有的變量在公共因子上有較大的正載荷,可以稱為一般運動因子。其他的3個因子不太容易解釋。似乎是跑和投擲的能力對比,似乎是長跑耐力和短跑速度的對比。于是考慮旋轉因子,得下表

第三十七頁,共八十七頁,2022年,8月28日37第三十八頁,共八十七頁,2022年,8月28日38

通過旋轉,因子有了較為明確的含義。百米跑,跳遠和400米跑,需要爆發力的項目在有較大的載荷,可以稱為短跑速度因子;鉛球,鐵餅和標槍在上有較大的載荷,可以稱為爆發性臂力因子;百米跨欄,撐桿跳遠,跳遠和為跳高在上有較大的載荷,爆發腿力因子;長跑耐力因子。第三十九頁,共八十七頁,2022年,8月28日39變換后因子的共同度設正交矩陣,做正交變換變換后因子的共同度沒有發生變化!(二)旋轉方法第四十頁,共八十七頁,2022年,8月28日40變換后因子貢獻設正交矩陣,做正交變換變換后因子的貢獻發生了變化!第四十一頁,共八十七頁,2022年,8月28日411、方差最大法

方差最大法從簡化因子載荷矩陣的每一列出發,使和每個因子有關的載荷的平方的方差最大。當只有少數幾個變量在某個因子上又較高的載荷時,對因子的解釋最簡單。方差最大的直觀意義是希望通過因子旋轉后,使每個因子上的載荷盡量拉開距離,一部分的載荷趨于1,另一部分趨于0。第四十二頁,共八十七頁,2022年,8月28日42第四十三頁,共八十七頁,2022年,8月28日43第四十四頁,共八十七頁,2022年,8月28日44第四十五頁,共八十七頁,2022年,8月28日451、四次方最大旋轉

四次方最大旋轉是從簡化載荷矩陣的行出發,通過旋轉初始因子,使每個變量只在一個因子上又較高的載荷,而在其它的因子上盡可能低的載荷。如果每個變量只在一個因子上又非零的載荷,這是的因子解釋是最簡單的。四次方最大法通過使因子載荷矩陣中每一行的因子載荷平方的方差達到最大。第四十六頁,共八十七頁,2022年,8月28日46第四十七頁,共八十七頁,2022年,8月28日47

3、等量最大法

等量最大法把四次方最大法和方差最大法結合起來求Q和V的加權平均最大。

權數等于m/2,因子數有關。第四十八頁,共八十七頁,2022年,8月28日48

§5因子得分

(一)因子得分的概念

前面我們主要解決了用公共因子的線性組合來表示一組觀測變量的有關問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,這就需要我們對公共因子進行測度,即給出公共因子的值。第四十九頁,共八十七頁,2022年,8月28日49

人均要素變量因子分析。對我國32個省市自治區的要素狀況作因子分析。指標體系中有如下指標:X1:人口(萬人)X2:面積(萬平方公里)X3:GDP(億元)X4:人均水資源(立方米/人)X5:人均生物量(噸/人)X6:萬人擁有的大學生數(人)X7:萬人擁有科學家、工程師數(人)RotatedFactorPatternFACTOR1FACTOR2FACTOR3X1-0.21522-0.273970.89092X20.63973-0.28739-0.28755X3-0.157910.063340.94855X40.95898-0.01501-0.07556X50.97224-0.06778-0.17535X6-0.114160.98328-0.08300X7-0.110410.97851-0.07246第五十頁,共八十七頁,2022年,8月28日50

高載荷指標

因子命名

因子1X2;面積(萬平方公里)X4:人均水資源(立方米/人)X5:人均生物量(噸/人)自然資源因子

因子2X6:萬人擁有的大學生數(人)X7:萬人擁有的科學家、工程師數(人)

人力資源因子

因子3

X1;人口(萬人)X3:GDP(億元)經濟發展總量因子

X1=-0.21522F1-0.27397F2+0.89092F3X3=-0.15791F1+0.06334F2+0.94855F3第五十一頁,共八十七頁,2022年,8月28日51StandardizedScoringCoefficients

FACTOR1

FACTOR2

FACTOR3X10.05764

-0.06098

0.50391X20.22724

-0.09901

-0.07713X30.14635

0.12957

0.59715X40.47920

0.11228

0.17062X50.45583

0.07419

0.10129X60.05416

0.48629

0.04099X70.05790

0.48562

0.04822F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7第五十二頁,共八十七頁,2022年,8月28日52REGIONFACTOR1FACTOR2FACTOR3beijing?-0.081694.23473-0.37983tianjin-0.474221.31789-0.87891hebei-0.22192-0.358020.86263shanxi1-0.48214-0.32643-0.54219neimeng0.54446-0.66668-0.92621liaoning-0.205110.463770.34087jilin-0.214990.10608-0.57431heilongj0.10839-0.11717-0.02219shanghai-0.200692.38962-0.04259前三個因子得分第五十三頁,共八十七頁,2022年,8月28日53

因子分析的數學模型為:

原變量被表示為公共因子的線性組合,當載荷矩陣旋轉之后,公共因子可以做出解釋,通常的情況下,我們還想反過來把公共因子表示為原變量的線性組合。

因子得分函數:可見,要求得每個因子的得分,必須求得分函數的系數,而由于p>m,所以不能得到精確的得分,只能通過估計。第五十四頁,共八十七頁,2022年,8月28日541、巴特萊特因子得分(加權最小二乘法)

把看作因變量;把因子載荷矩陣看成自變量的觀測;把某個個案的得分看著最小二乘法需要求的系數。1)巴特萊特因子得分計算方法的思想第五十五頁,共八十七頁,2022年,8月28日55由于特殊因子的方差相異,所以用加權最小二乘法求得分,每個各案作一次,要求出所有樣品的得分,需要作n次。第五十六頁,共八十七頁,2022年,8月28日56

用矩陣表達:滿足上式的F是相應個案的因子得分。第五十七頁,共八十七頁,2022年,8月28日57第五十八頁,共八十七頁,2022年,8月28日582)得分估計的無偏性如果將f和不相關的假定加強為相互獨立,則第五十九頁,共八十七頁,2022年,8月28日593)第六十頁,共八十七頁,2022年,8月28日602、回歸方法

1)思想第六十一頁,共八十七頁,2022年,8月28日61

則,我們有如下的方程組:第六十二頁,共八十七頁,2022年,8月28日62j=1,2,…,m第六十三頁,共八十七頁,2022年,8月28日63

注:共需要解m次才能解出所有的得分函數的系數。第六十四頁,共八十七頁,2022年,8月28日64矩陣表示方法

在因子模型中,假設服從(m+p)元的正態分布,有第六十五頁,共八十七頁,2022年,8月28日65第六十六頁,共八十七頁,2022年,8月28日66第六十七頁,共八十七頁,2022年,8月28日672)估計的有偏性3)平均預報誤差第六十八頁,共八十七頁,2022年,8月28日68國民生活質量的因素分析國家發展的最終目標,是為了全面提高全體國民的生活質量,滿足廣大國民日益增長的物質和文化的合理需求。在可持續發展消費的統一理念下,增加社會財富,創自更多的物質文明和精神文明,保持人類的健康延續和生生不息,在人類與自然協同進化的基礎上,維系人類與自然的平衡,達到完整的代際公平和區際公平(即時間過程的最大合理性與空間分布的最大合理化)。從1990年開始,聯合國開發計劃署(UYNP)首次采用“人文發展系數”指標對于國民生活質量進行測度。人文發展系數利用三類內涵豐富的指標組合,即人的健康狀況(使用出生時的人均預期壽命表達)、人的智力程度(使用組合的教育成就表達)、人的福利水平(使用人均國民收入或人均GDP表達),并且特別強調三類指標組合的整體表達內涵,去衡量一個國家或地區的社會發展總體狀況以及國民生活質量的總水平。第六十九頁,共八十七頁,2022年,8月28日69在這個指標體系中有如下的指標:X1——預期壽命X2——成人識字率X3——綜合入學率X4——人均GDP(美圓)X5——預期壽命指數X6——教育成就指數X7——人均GDP指數第七十頁,共八十七頁,2022年,8月28日70

旋轉后的因子結構

RotatedFactorPatternFACTOR1FACTOR2FACTOR3X10.381290.417650.81714X20.121660.848280.45981X30.648030.618220.22398X40.904100.205310.34100X50.388540.432950.80848X60.282070.853250.43289X70.900910.206120.35052

FACTOR1為經濟發展因子

FACTOR2為教育成就因子

FACTOR3為健康水平因子第七十一頁,共八十七頁,2022年,8月28日71

被每個因子解釋的方差和共同度

VarianceexplainedbyeachfactorFACTOR1FACTOR2FACTOR32.4397002.2763172.009490FinalCommunalityEstimates:Total=6.725507X1X2X3X4X50.9875300.9457960.8523060.9758300.992050

X6X70.9949950.976999

第七十二頁,共八十七頁,2022年,8月28日72StandardizedScoringCoefficients標準化得分系數

FACTOR1FACTOR2FACTOR3X1-0.18875-0.343970.85077X2-0.241090.60335-0.10234X30.354620.50232-0.59895X40.53990-0.17336-0.10355X5-0.17918-0.316040.81490X6-0.092300.62258-0.24876第七十三頁,共八十七頁,2022年,8月28日73生育率的影響因素分析

生育率受社會、經濟、文化、計劃生育政策等很多因素影響,但這些因素對生育率的影響并不是完全獨立的,而是交織在一起,如果直接用選定的變量對生育率進行多元回歸分析,最終結果往往只能保留兩三個變量,其他變量的信息就損失了。因此,考慮用因子分析的方法,找出變量間的數據結構,在信息損失最少的情況下用新生成的因子對生育率進行分析。選擇的變量有:多子率、綜合節育率、初中以上文化程度比例、城鎮人口比例、人均國民收入。下表是1990年中國30個省、自治區、直轄市的數據。第七十四頁,共八十七頁,2022年,8月28日74第七十五頁,共八十七頁,2022年,8月28日75EigenvalueDifferenceProportionCumulative3.249175972.034642910.64980.64981.214533060.962968000.24290.89270.251565070.067433970.05030.94310.184131090.083536290.03680.97990.100594800.0201

1.0000特征根與各因子的貢獻第七十六頁,共八十七頁,2022年,8月28日76

Factor1Factor2x1-0.760620.55316x20.56898-0.76662x30.891840.25374x40.870660.34618x50.890760.36962沒有旋轉的因子結構第七十七頁,共八十七頁,2022年,8月28日77Factor1可解釋方差Factor2可解釋方差2.99754292.1642615各旋轉后的共同度0.884540230.911439980.859770610.877894530.93006369第七十八頁,共八十七頁,2022年,8月28日78

在這個例子中我們得到了兩個因子,第一個因子是社會經濟發展水平因子,第二個是計劃生育因子。有了因子得分值后,則可以利用因子得分為變量,進行其他的統計分析。

Factor1Factor2x1-0.35310-0.87170x20.077570.95154x30.891140.25621x40.922040.16655x50.951490.15728

Factor1Factor2x1-0.05897-0.49252x2-0.058050.58056x30.330420.03497x40.35108-0.02506x50.36366-0.03493方差最大旋轉后的因子結構標準化得分函數第七十九頁,共八十七頁,2022年,8月28日79§6因子分析的步驟、展望和建議

計算所選原始變量的相關系數矩陣

相關系數矩陣描述了原始變量之間的相關關系。可以幫助判斷原始變量之間是否存在相關關系,這對因子分析是非常重要的,因為如果所選變量之間無關系,做因子分析是不恰當的。并且相關系數矩陣是估計因子結構的基礎。

選擇分析的變量用定性分析和定量分析的方法選擇變量,因子分析的前提條件是觀測變量間有較強的相關性,因為如果變量之間無相關性或相關性較小的話,他們不會有共享因子,所以原始變量間應該有較強的相關性。一、因子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論