主成分分析及其在社會調(diào)查中應(yīng)用_第1頁
主成分分析及其在社會調(diào)查中應(yīng)用_第2頁
主成分分析及其在社會調(diào)查中應(yīng)用_第3頁
主成分分析及其在社會調(diào)查中應(yīng)用_第4頁
主成分分析及其在社會調(diào)查中應(yīng)用_第5頁
已閱讀5頁,還剩129頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主成分分析與問卷處理的協(xié)方差

近技術(shù)陳彥光城市與環(huán)境學(xué)院訪談是基于概率論;問卷是統(tǒng)計(jì)學(xué)訪談是解釋的標(biāo)量是測度的代表,每一個對的變量代表

一個獨(dú)立的方向,每個變量之間存在關(guān)系,就會存在變量。(變量多的時候,會產(chǎn)生比較大的噪聲)0

概述主成分(principal

components)分析方法最早可以追溯到皮爾森(KarlPearson)于1901年開創(chuàng)的非隨

量的多元轉(zhuǎn)換分析;1933年霍特靈(H.A.Ho

ling)將其推廣到隨

量。0

概述無論自然地理學(xué)、人文地理學(xué)還是城市規(guī)劃學(xué),研究對象都是復(fù)雜的空間系統(tǒng),分析變量動輒數(shù)十、成百乃至上千。面對大規(guī)模的指標(biāo)體系,

須解決兩個問題:其一是如何揭示變量之間的關(guān)系,其二是如何簡化地理空間分析過程。0

概述主成分分析(Principal

Componentysis,PCA)的本質(zhì)是一種協(xié)方差近技術(shù)。PAC主要是研究如何通過少數(shù)幾個由原始變量構(gòu)成的重要分量來描述或解釋多變量的方差-協(xié)方差結(jié)構(gòu)特征。0

概述主成分的工作對象是如下類型的數(shù)據(jù)表:“樣本點(diǎn)×定量變量”0

概述(T)0

概述(Y)人口產(chǎn)值x11x12x21x22x31x320

概述工作目標(biāo):將多變量的平面數(shù)據(jù)進(jìn)行最佳綜合、簡化,以期實(shí)現(xiàn)如下目標(biāo):(1)降維處理:高維變量化為低維變量,且信息損失最少。(2)統(tǒng)計(jì)簡化:簡化變量系統(tǒng)的統(tǒng)計(jì)數(shù)字特征。(3)數(shù)據(jù)解釋:利用主成分與原始變量的相關(guān)系數(shù)建立變量與樣品的關(guān)系,據(jù)此解釋系統(tǒng)演化機(jī)制。(4)分類:對變量或者樣品進(jìn)行歸類處理。(5)綜合評價:利用主成分得分,依據(jù)重要性,對研究對象進(jìn)行排序。§0

概述上述第一、第二兩個過程又稱數(shù)據(jù)壓縮,因此有人將主成分的用途歸結(jié)為數(shù)據(jù)壓縮和數(shù)據(jù)解釋。當(dāng)然,還有系統(tǒng)分類和評價。§0

概述通過主成分分析,

可以將地理空間

到數(shù)學(xué)空間,將抽象復(fù)雜的數(shù)學(xué)空間簡化為可視的數(shù)學(xué)空間,最后將分析結(jié)果還原到地理空間。即有:地理空間→數(shù)學(xué)空間→可視化數(shù)學(xué)空間→地理空間1

基本原理(表1)對于任意m個變量,描述它們自身相互關(guān)系的特征數(shù)值包括均值、方差、協(xié)方差等統(tǒng)計(jì)量。幾何意義:平均值——位置參量。表示數(shù)據(jù)集合的重心。方差——距離參量。表示一個變量到重心的距離。協(xié)方差——相互關(guān)系參量。表示不同變量之間的夾角。1

基本原理對于數(shù)據(jù)集合構(gòu)成的矩陣X,共有經(jīng)主成分分析以后,新變量的均值為0,協(xié)方差也化為0。這樣,就只剩下m個參數(shù)了。于是系統(tǒng)分析簡化。m(m

1)21i

m

m

mi1個統(tǒng)計(jì)參數(shù)。1

基本原理舉例說來,的原來有兩個變量:長度x1和寬度x2,則有兩個均值、兩個方差、一個協(xié)方差,共計(jì)5個參數(shù)。主成分分析以后,均值和協(xié)方差為0,只剩下兩個方差了。1

基本原理在特定情況下,可以將m維化為2維,實(shí)現(xiàn)在平面上描述樣品的相互關(guān)系和樣本的結(jié)構(gòu)及分布特征,從而使得高維數(shù)據(jù)的可視性(visibility)成為可能。抽象的不可見的高化為直觀的可見的低維平面圖式,大大增強(qiáng)研究或決策人員的洞察能力,提高工作效率。1

基本原理一個經(jīng)典的實(shí)例是:1961年,英

計(jì)學(xué)家斯科特(M.

Scott)對157個英國城鎮(zhèn)的發(fā)展水平,原始的測量變量共有57個。研究表明,只要5個新的綜合變量(PC)就可以95%的精度表示原數(shù)據(jù)的變異情況。這樣,問題的復(fù)雜性由57維降為5維,而原始信息僅僅損失5%!主成分分析提高的地理分析效率由此可見一般。1

基本原理主成分變換包括兩種基本的數(shù)據(jù)轉(zhuǎn)換過程:其一是正交變換(orthogonaltransformation),據(jù)此實(shí)現(xiàn)變量之間的正交化,適當(dāng)?shù)貙⑾嚓P(guān)變量化為無關(guān)變量。其二數(shù)據(jù)約簡(datareduction),借助方差最大思想將數(shù)據(jù)信息壓縮到少數(shù)幾個新的變量即主成分(PC)中間,然后舍棄信息含量較小的主成分。1

基本原理求解主成分的過程可以目的的歸結(jié)如下:借助正交化線性變換,將m維非正交隨

量化為m維正交隨

量,然后從中提取p個方差最大的新變量,于是m維約化維p維(p<m)。1

基本原理從線性代數(shù)的角度看來,求解主成分的實(shí)質(zhì)就是線性代數(shù)學(xué)中的二次型函數(shù)化為標(biāo)準(zhǔn)形函數(shù)。通過二次型化為標(biāo)準(zhǔn)形,將變量之間兩兩交疊的二次型結(jié)構(gòu)轉(zhuǎn)化為相互垂直的標(biāo)準(zhǔn)形關(guān)系,消除原始數(shù)據(jù)向量相乘后的交叉項(xiàng),從而實(shí)現(xiàn)轉(zhuǎn)換后變量的正交化。1

基本原理現(xiàn)在

考慮一個數(shù)據(jù)表,將其表示為Y

(表2)。將這個表格轉(zhuǎn)置,得到表格X。1

基本原理(X)人口x11x21x31產(chǎn)值x12x22x321

基本原理(X的轉(zhuǎn)置)人口產(chǎn)值x11x12x21x22x31x321

基本原理抽象為一般就是Tm

x

T

xT

xX

Txxx

x

x

xn

2

n12m

nm

nm

2221x1m

x11

x12211

基本原理計(jì)算變量的方差和協(xié)方差,得到矩陣mm

mmm1vV

v

v

v

vm

22m

21

22v1m

v11

v12v1

基本原理構(gòu)造二次型函數(shù)f

(x

,

x

,,

x

)

X

TVX1

2

mj

1

k

1m

mjk

j

kxT

x1

2

mf

(x

,

x

,,

x

)

v1

基本原理展開就是f

(x1,

x2

,,

xm

)mm

m

x

x

vvTmT

xT

x

x

v

v

v

v

m1

m22m

2

21v1m

x1

v11

v1222211

基本原理主成分分析就是進(jìn)行一種變換,用新的變量zj代替原始變量xj,并且整體上沒有信息損失。變換f

(x1,

x2

,,

xm

)

f

(z1,

z2

,,

zm

)1

基本原理

m

m

2

0

z

0

z1

z

TmT

zT

z

z

2

0

0

0變化的結(jié)果表示為標(biāo)準(zhǔn)形式f

(z1,

z2

,,

zm

)211

0

1

基本原理新的變量叫做主成分得分(Score)

21

22 23

n1

n

2

n3

Z

Tz

zzz

z

z11

z12

z13

z

1

基本原理主成分得分具有多種統(tǒng)計(jì)性質(zhì),其中最基本的是:性質(zhì)1

:主成分的平均值為0。性質(zhì)2

:主成分的協(xié)差陣為對角陣(diagonalmatrix)。性質(zhì)3

:方差貢獻(xiàn)的之和等于公因子方差之和。1

基本原理主成分得分與原始變量的關(guān)系是,主成分得分z是原始變量x的線性組合:z1

a11

x1

a12

x2

a1m

xmz

a

x

a

x

a

xzm

am1x1

am

2

x2

amm

xm2m

m2

21

1

22

21

基本原理或者說原始變量是主成分得分的線性組合:x1

b11

z1

b12

z2

b1m

zmx

b

z

b

z

b

zxm

bm1z1

bm2

z2

bmm

zm2

21

1

22

2

2m

m1

基本原理

z1

sin

z2

cos2x主成分模型的求解過程在幾何上就是中學(xué)學(xué)習(xí)過的坐標(biāo)系旋轉(zhuǎn)x1

z1

cos

z2

sin

x1

sin

x2

cos2zz1

x1

cos

x2

sin1

基本原理在主成分坐標(biāo)系中表示原始變量。M(x1,

x2)

M(z1,

z2)X

1Z1Z2X

2x2z1z2OBCDEFGAx1

z1cosθz2sinθz1sinθH

z2cosθIMθθθ1

基本原理在原始變量坐標(biāo)系中表示主成分。M(x1,

x2)

M(z1,

z2)X

1Z1Z2x1X

2x2z2OMBCz1DEGAx1cosθFx2sinθHx1sinθx2cosθIθθθ2

計(jì)算步驟求解主成分模型的步驟,就是線性代數(shù)中二次型化為

的過程。第一步,將原始數(shù)據(jù)標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化公式

xij

x

j

,jijx*2

計(jì)算步驟式中分別為均值和標(biāo)準(zhǔn)差。在Excel中,計(jì)算均值的函數(shù)為average,計(jì)算標(biāo)準(zhǔn)差的函數(shù)為stdev。n

ij

jjx

ni1

i1(x

x

)2ij

jn1

x

,

1n2

計(jì)算步驟如果從協(xié)方差矩陣出發(fā),數(shù)據(jù)是否需要標(biāo)準(zhǔn)化,要看變量的量綱是否一致。如果量綱一致,不標(biāo)準(zhǔn)化也可以。如果量綱不一致,則必須標(biāo)準(zhǔn)化。另一方面,如果從相關(guān)系數(shù)矩陣出發(fā),無論原始數(shù)據(jù)是否標(biāo)準(zhǔn)化,結(jié)果都一樣。2

計(jì)算步驟第二步,求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)矩陣或者協(xié)方差矩陣。對于標(biāo)準(zhǔn)化的數(shù)據(jù),相關(guān)系數(shù)等于協(xié)方差。在Excel中,沿著主菜單的“工具-數(shù)據(jù)分析”的路徑,可以打開協(xié)方差和相關(guān)系數(shù)的工具箱。2

計(jì)算步驟Excel的相關(guān)系數(shù)和協(xié)方差計(jì)算功能(E)。2

計(jì)算步驟第三步,求協(xié)方差矩陣V或者相關(guān)系數(shù)矩陣R的特征根及其相應(yīng)的單位化特征向量。Ra

a(R

I

)a

Odet(I

R)

02

計(jì)算步驟如果只有兩個變量,在Excel中就可以計(jì)算特征根和特征向量。如果變量較多,利用Excel計(jì)算就非常麻煩。此時借助Mathcad或者

,計(jì)算過程非常簡便。2

計(jì)算步驟在中,可以直接調(diào)用計(jì)算矩陣特征系統(tǒng)的函數(shù)eig,語法如下:[U,

V]=eig(R)式中左邊,U表示特征向量矩陣,V表示相應(yīng)的特征值構(gòu)成的對角矩陣;右邊,R為相關(guān)系數(shù)矩陣。2

計(jì)算步驟第四步,計(jì)算累計(jì)方差貢獻(xiàn)率。根據(jù)特征根計(jì)算累計(jì)頻率即可。下面是一個二變量的簡單例子。2

計(jì)算步驟第五步,計(jì)算主成分載荷。計(jì)算公式如下式中λ為特征根,e為單位化特征向量。主成分載荷本質(zhì)上就是原始變量與主成分之間的相關(guān)系數(shù)。k

e

j(zk

,

x

j

)

2

計(jì)算步驟第六步,計(jì)算公因子方差。一個變量對于的p個主成分載荷的平方和就是公因子方差(p<=m,公因子方差<=1)。公因子方差用于判斷主成分提取數(shù)目p是否合適,或者變量的引入是否合理。2

計(jì)算步驟第七步,計(jì)算主成分得分。根據(jù)線性表達(dá)式計(jì)算即可。z1

a11

x1

a12

x2

a1m

xmz

a

x

a

x

a

xzm

am1x1

am

2

x2

amm

xm2

21

1

22

2

2m

m2

計(jì)算步驟如果原始數(shù)據(jù)和主成分得分全部標(biāo)準(zhǔn)化,則上面線性表達(dá)式的系數(shù)a就是主成分載荷。上述判斷可以借助回歸分析驗(yàn)證。第八步,借助主成分載荷和得分開展數(shù)據(jù)分析。2

計(jì)算步驟第八步,借助主成分載荷和得分開展數(shù)據(jù)分析。因果關(guān)系——解釋清晰化。變量約簡——變量正交化。系統(tǒng)分類——要素條理化。綜合評價——判斷定量化。3

變量分類【變量分類系統(tǒng)之一】第一種系統(tǒng)將變量歸結(jié)為分類變量、順序變量和數(shù)量變量。G.R.Iversen等在《統(tǒng)計(jì)學(xué):基本概念和方法》一書中,首先將回歸分析的變量分為兩大類:自變量(independent

variable,獨(dú)立變

量),又叫解釋變量(explanatory

variable)。因變量(dependent

variable,依存變量),又叫響應(yīng)變量(response

variable)。3

變量分類接著給出了不同類型的變量——因變量和自變量都可以是下面三種類型之一。(1)分類型變量(categorical

variable):它的值是非數(shù)量的范疇。例如對于

變量,它的值就是男和女,可以分別表示為1和0。3

變量分類(2)順序型變量(rank

variable):它的值是有序的。例如對態(tài)度變量,它的值就是

、中立和贊同,可以分別表示為-1、0和1;對比

賽名次變量,它的值是第一、第二和第三,可以分別表示1、2和3。3

變量分類(3)數(shù)量型變量(metric

variable):它的值是可以作為數(shù)學(xué)計(jì)算(加、乘)的有意義的數(shù)值。比如收入、重量、等。3

變量分類在上述變量中,順序變量有時叫做“次序變量(ordinal

variable)”,因?yàn)橐獙?shù)值排順序。一般而言,順序變量不像分類變量和數(shù)量變量那般常用。在統(tǒng)計(jì)分析中,要用順序變量表示“非常感、比較感、不太感”之類的次序。3

變量分類但是,有必要提醒大家:千萬不要將這類表示與模糊綜合評價中關(guān)于評語集的隸屬度混在一起,二者不可相提并論。西方有句名言:“哺乳動物有四條腿,鱷魚也有四條腿。但是,鱷魚并非哺乳動物。”3

變量分類【變量分類系統(tǒng)之二】第二個系統(tǒng)將變量歸結(jié)為名義變量、次序變量和間隔變量。D.G.Kleinbaum等在《應(yīng)用回歸分析和其他多變量方法》一書中根據(jù)測度的水平給出了如下變量分類:名義(nominal)變量、次序(ordinal)變量和間隔(interval)變量。大體上對應(yīng)于前面的分類變量、順序變量和數(shù)值變量。3

變量分類(1)名義(nominal)變量——數(shù)值上最弱的一種測度水平。(2)次序(ordinal)變量——較高的測度水平,不僅將數(shù)分為幾個類別,而且理出順序。(3)間隔(interval)變量——這種變量不僅可以給出數(shù)據(jù)類別的順序,而且可以給出不同類別之間距離的有意義的測度。3

變量分類上述三類變量在性質(zhì)上是累積的。順序變量包含名義變量的性質(zhì),而間隔變量又包含順序變量的性質(zhì)。在實(shí)際工作中,有些變量的歸類要具體問題具體分析。以(age)變量為例,在回歸分析中,一般將其作為間隔變量。但是,在分組的方差分析中,又是一個名義變量。3

變量分類連續(xù)與離散的分界線離散變量變量"

"的不同表示變量""名義變量順序變量間隔變量3

變量分類由于上述關(guān)系的存在,變量屬性的對待要具體問題具體分析。特別提示:根據(jù)屬性的包含關(guān)系,間隔變量在特殊的分析中可以視為順序變量或者名義變量,而順序變量也可以作為名義變量對待,但反過來不成立。上述不同的變量類型在主成分分析中都可以應(yīng)用。4

實(shí)例分析下面這個例子來自

的一個關(guān)于主成分分析的科普書籍。研究對象是

的若干家人氣很好的拉面館。3個變量,10個樣品。數(shù)據(jù)來自于

問卷(統(tǒng)計(jì)平均結(jié)果)。數(shù)據(jù)的賦值方式采用順序變量,評價等級分為5個等級(1,2,3,4,5)。4

實(shí)例分析拉面館面配料湯二樂245夢田屋地回菜之花花之節(jié)5升辰軒432丸藏拉面443海樂亭121鳴海家332奏月5534

實(shí)例分析第一步,數(shù)據(jù)標(biāo)準(zhǔn)化。在Excel中,采用平均值函數(shù)average和抽樣協(xié)標(biāo)準(zhǔn)差函數(shù)stdev。結(jié)果如下。4

實(shí)例分析4

實(shí)例分析第二步,計(jì)算協(xié)方差矩陣或者相關(guān)系數(shù)矩陣。在Excel中,利用“工具”中的“數(shù)據(jù)分析”功能即可(R)。相關(guān)系數(shù)矩陣和協(xié)方差矩陣都是對稱矩陣。Excel僅僅給出下三角部分,不難根據(jù)對稱性填充上三角的數(shù)據(jù)。4

實(shí)例分析4

實(shí)例分析前面提到,基于標(biāo)準(zhǔn)化數(shù)據(jù),協(xié)方差矩陣等價于相關(guān)系數(shù)矩陣。,計(jì)算結(jié)果卻又差別。原因何在?實(shí)際上,理論推導(dǎo)總是基于總體(population),實(shí)際數(shù)據(jù)分析通常基于樣本(sample),后者是前者的一個子集(subset)。如果改用總體標(biāo)準(zhǔn)差函數(shù)(stdevp)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,則兩種矩陣完全一樣。4

實(shí)例分析不妨從相關(guān)系數(shù)矩陣出發(fā),計(jì)算主成分。4

實(shí)例分析012010.190.3610.1910.320.360.31第三步,計(jì)算特征根及其對應(yīng)的特征向量。在Mathcad中計(jì)算。首先粘貼數(shù)據(jù)。R

4

實(shí)例分析利用函數(shù)eigenvals和eigenvecs計(jì)算。

1.0000.191 0.360

1.000 0.300

0.360

0.300 1.000

R

0.191

eigenvals(

R)P

eigenvecs(

R)

0.814

1.573

0.613

0.6040.555

0.572

0.322

0.522

0.106

0.7670.633

P

0.7904

實(shí)例分析反轉(zhuǎn)正負(fù)號,目的是與SPSS對應(yīng)。P1

2P

0.572

P2

0P

0.633

P1

0.522

0.604

0.106

P2

0.7904

實(shí)例分析(特征向量圖E)-0.8-0.6-0.4-0.20.00.60.40.20.81.00.00.10.20.30.40.50.60.7特征向量1特征向量2配料面湯4

實(shí)例分析第四步,計(jì)算累計(jì)方差貢獻(xiàn)率。特征根方差貢獻(xiàn)累計(jì)值百分比累計(jì)百分比λ11.5731.57352.42852.428λ20.8142.38727.13479.562λ30.6133.00020.438100.0004

實(shí)例分析斜坡圖(scree

plot)。1.81.61.41.210.80.60.40.511.522.533.5成分?jǐn)?shù)特征根4

實(shí)例分析第五步,計(jì)算主成分載荷。(M)(N)第一主成分z1第二主成分z2公因子方差面0.717-0.5450.811配料0.6550.7120.936湯0.794-0.0950.639方差貢獻(xiàn)1.5730.814特征根1.5730.8144

實(shí)例分析(載荷圖L)(Score)-0.8-0.6-0.4-0.200.60.40.20

0.2

0.4

0.6

0.8

1第一主成分z

1第二主成分z

20.8配料湯面4

實(shí)例分析第六步,計(jì)算公因子方差。前面已經(jīng)給出(C)。從公因子方差可以看出,三個變量對應(yīng)的公因子方差相差不大。因此,不必增加主成分,也不必改變變量數(shù)。提取兩個主成分,累計(jì)方差貢獻(xiàn)率接近80%,并且公因子方差問題不大。4

實(shí)例分析第七步,計(jì)算主成分得分。有了特征向量,就可以寫出主成分得分表達(dá)式。下面是兩個最大特征根對應(yīng)的主成分得分表達(dá)式。注意:這里的x全部代表標(biāo)準(zhǔn)化數(shù)據(jù)。z1

0.572

x1

0.522x2

0.633x3z2

0.604

x1

0.790x2

0.106

x34

實(shí)例分析利用這種表達(dá)式,代入標(biāo)準(zhǔn)化的原始數(shù)據(jù),就可以計(jì)算主成分得分。主成分得分的均值為0,方差就是相應(yīng)的特征根,標(biāo)準(zhǔn)差是特征根的平方根。將主成分得分zj標(biāo)準(zhǔn)化,就得到所謂因子得分fj

。4

實(shí)例分析4

實(shí)例分析第八步,基于主成分載荷和得分的系統(tǒng)分析。首先,以第一主成分為橫軸,第二主成分為縱軸,畫出散點(diǎn)圖。4

實(shí)例分析(主成分得分圖Z)-0.500.511.52-3-2.5-2-1.5-1-0.500.511.52第一主軸2.5第二主軸花之節(jié)奏月海樂亭夢田屋二樂丸藏鳴海家菜之花

升辰軒-1地回 -1.5

4

實(shí)例分析00

521

512

5-311

52第一主軸第二主軸花之節(jié)奏月夢田屋地回 1

5

二樂-2

5 -2 -1

5 -1 -0

5

0 0

5海樂亭 鳴海家

-0

5

丸藏菜之花 升辰軒-1-0

4-0

6-0

8-0

20

60

40

200 0

2 0

4 0

6 0

8第一主成分z

1第二主成分z

20

8配料湯面特征向量圖或者載荷與主成分得分圖配合使用。前者反映主成分的信息,后者反映研究樣品的特征。4

實(shí)例分析從特征向量圖中,或者載荷圖表中,可以看到,第一主成分反映的綜合信息。不過,它與面和湯的相關(guān)系數(shù)更高一些(載荷值大一些)[Load]。第二主成分主要反映配料方面的信息。4

實(shí)例分析第一象限:綜合發(fā)展,配料好,面、湯至少有一個方面突出。花之節(jié),奏月,二樂。第二象限:配料較好,面湯不如人意。夢田屋。第三象限:面、湯和配料都不太突出。海樂亭,菜之花,鳴海家,升辰軒。第四象限:面、湯至少有一個方面突出。地回,丸藏拉面。4

實(shí)例分析綜合排序。基于主成分得分和因子得分的計(jì)算公式如下。S

z1

z22

f2S

1

f1

4

實(shí)例分析拉面館Z1Z2綜合位序二樂0.7120.5221.2343夢田屋-0.9741.8910.9174地回0.980-1.295-0.3146菜之花-1.051-0.678-1.7309花之節(jié)1.5400.7892.3291升辰軒-0.277-0.744-1.0208丸藏拉面0.605-0.1440.4615海樂亭-2.308-0.127-2.43510鳴海家-0.660-0.338-0.9987奏月1.4330.1241.55724

實(shí)例分析3210-1-2-3拉面館綜合得4

實(shí)例分析這里給出的是一個三變量的非常簡單的例子。進(jìn)一步地,考慮“價格”、“份量”等有關(guān)變量。這樣,面、配料、湯、價格、份量等構(gòu)成的分析變量。4

實(shí)例分析演示:SPSS的計(jì)算過程和結(jié)果。5

因子分析因子分析(Factor ysis,FA)始于20世紀(jì)初的心理測量學(xué)研究。在20世紀(jì)早期,皮爾森(K.Pearson)和斯皮爾曼(C.

Spearman)等人為了定義和測得智力,發(fā)展了因子分析模型。盡管對這種方法時有爭論,但還是很快被應(yīng)用于社會學(xué)、

類學(xué)、地質(zhì)學(xué)、醫(yī)學(xué)等諸多領(lǐng)域。5

因子分析哈佛大學(xué)心理學(xué)教授霍華德·加德納(HowardGardner)于公元1983年理論專著《智能的結(jié)構(gòu)(Frames

ofMind

)》,首次提出了多元智能(Multiple

in社會溝通能力體育運(yùn)動能力數(shù)學(xué)計(jì)算能力音樂欣賞能力空間想象能力ligence)概念。語言表達(dá)能力六個因子代表六方面的智力因素5

因子分析自我反省能力社會溝通能力自然觀察能力音樂欣賞能力邏輯推理能力后來他又提出了自省能力和自然觀察能力。語言表達(dá)能力體育運(yùn)動能力八個因子代表八方面的智力因素空間想象能力5

因子分析假定公因子之間、單因子之間以及公因子與單因子之間都是互不相關(guān)的(即正交的),將原來m個變量表示成p個因子(新變量)的線性組合形式p

u

j

jx

j

akj

f

kk

1j

1,2,,

m;

k

1,2,,

p5

因子分析上式的各個變量和參數(shù)解釋如下

f

k

k

——單因子:反映相應(yīng)變量的特有信息——公因子:反映變量之間的相關(guān)信息jkj——公因子載荷,簡稱因子載荷u

——單因子載荷a

p

——公因子數(shù):正整數(shù),p

m5

因子分析因子模型是一個封閉方程,采用常規(guī)的方程求解算法無法計(jì)算。常用的求解方法如下:(1)舍棄單因子,利用主成分分析方法求主因子解。(2)借助最大似然算法求解。5

因子分析最大似然法有一個基本假定,那就是研究對象的正態(tài)分布假設(shè)。,一般的社會經(jīng)濟(jì)現(xiàn)象都從正態(tài)分布。主因解的求解過程不以正態(tài)分布為前提,因子適用范圍更為廣泛。當(dāng)利用正交變換求主因解的時候,因子分析與主成分分析沒有本質(zhì)的區(qū)別。5

因子分析因子分析與主成分分析的異同點(diǎn)。第一,從模型上看,主成分分析不考慮單因子,因子分析考慮單因子。第二,從數(shù)據(jù)表示上看,主成分分析的原始數(shù)據(jù)可標(biāo)準(zhǔn)化,也可以不標(biāo)準(zhǔn)化,主成分得分

標(biāo)準(zhǔn)化。因子分析不然,原始數(shù)據(jù)和因子得分都須經(jīng)標(biāo)準(zhǔn)化。5

因子分析第三,從求解方法上看,主成分分析通過正交變換求解。因子分析可以通過正交變換求主因解,也可以通過最大似然法等其他方面求解因子模型。第四,從處理過程上看,主成分分析一般不考慮主成分旋轉(zhuǎn)。因子分析考慮正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)。5

因子分析第五,從分析方式上看,主成分分析關(guān)注樣本對象,往往同時考慮變量關(guān)系和樣本結(jié)構(gòu)。因子分析往往不注意樣品對象,只關(guān)注變量關(guān)系及其合并結(jié)果。第六,從應(yīng)用對象上看,主成分分析一般以原始變量為因(解釋變量),主成分為果(響應(yīng)變量)。因子分析相反,往往以因子為因(解釋變量),原始變量為果(響應(yīng)變量)。5

因子分析5

因子分析因子分析的一般過程:第一步,求主因解。如果變量結(jié)構(gòu)非常清楚,計(jì)算可以結(jié)束。第二步,如果主因解的結(jié)構(gòu)不清晰,可以考慮正交旋轉(zhuǎn)。如果結(jié)構(gòu)清楚,計(jì)算結(jié)束。第三步,如果正交旋轉(zhuǎn)結(jié)果還是不夠清晰,可以考慮斜交旋轉(zhuǎn)。5

因子分析正交旋轉(zhuǎn)示意圖。-1-2-30213-4-3-2-10123-4得分1得分2f

14f

2f'

1f'

25

因子分析正交旋轉(zhuǎn)前后對比。-0.5

1.0

0.00.51.0-1.0-0.50.00.51.0載荷1載荷2-0.5

1.0

0.00.51.0-10-0.50.00.51.0載荷1載荷25

因子分析斜交旋轉(zhuǎn)示意圖。-0.50.00

51.0-1

0-0.50.00.51.0因子2f'

1f'

2g

1 -1.0

因子1g

25

因子分析斜交旋轉(zhuǎn)之后,載荷矩陣一分為二。因子載荷不再等值于變量與因子之間的相關(guān)系數(shù),載荷矩陣的功能將由因子圖式(Factorpattern)矩陣發(fā)揮,變量與因子之間的相關(guān)系數(shù)由因子結(jié)構(gòu)(Factorstructure)矩陣表達(dá)。5

因子分析順便說明,因子分析分為兩類:R型因子分析——基于變量的因子分析。Q型因子分析——基于樣品的因子分析。常用的是R型因子分析。6

因子分析一例這個例子來自

的一個關(guān)于因子分析的科普書籍。研究對象是

的一家紅茶飲料店。6個變量,15個樣品。數(shù)據(jù)來自于

問卷(15份)。數(shù)據(jù)的賦值方式采用順序變量,評價等級分為5個等級(1,2,3,4,5)。6

因子分析一例顧客店面設(shè)計(jì)店內(nèi)氣氛服務(wù)態(tài)度茶葉味道茶葉價格茶葉口感A555442B545222C444444D234333E333341F545323G555455H312544I413323J122222K323111L434434M323455N434545O2235546

因子分析一例利用SPSS求解。6

因子分析一例相關(guān)系數(shù)矩陣。Correlation

Matrix店面設(shè)計(jì)店內(nèi)氣氛服務(wù)態(tài)度茶葉味道茶葉價格茶葉口感Correlation

店面設(shè)計(jì)1.000.651.803.109.015.142店內(nèi)氣氛.6511.000.889.022.187.008服務(wù)態(tài)度.803.8891.000.019.035.099茶葉味道.109.022.0191.000.823.771茶葉價格.015.187.035.8231.000.645茶葉口感.142.008.099.771.6451.0006

因子分析一例KMO檢驗(yàn)。KMO

and

Bartlett's

Te

stKaiser-Mey

er-Olkin

Measure

of

SamplingAdequacy..580Bartlett's

Test

of Approx.

Chi-Square59.613Sphericity

df15Sig..0006

因子分析一例公因子方差。CommunalitiesInitialExtraction店面設(shè)計(jì)1.000.775店內(nèi)氣氛1.000.844服務(wù)態(tài)度1.000.948茶葉味道1.000.907茶葉價格1.000.815茶葉口感1.000.775Extraction

Method:

Principal

Componentysis.6

因子分析一例累計(jì)方差貢獻(xiàn)。Total

Variance

ExplainedComponentInitial

EigenvaluesExtraction

Sums

of

Squared

LoadingsRotation

Sums

of

Squared

LoadingsTotal%

of

VarianceCumulative

%Total%

of

VarianceCumulative

%Total%

of

VarianceCumulative

%12.74445.72745.7272.74445.72745.7272.56742.78842.78822.32038.67084.3972.32038.67084.3972.49741.60984.3973.5068.44192.8384.2654.42497.2625.1161.93199.1936.048.807100.000Extraction

Method:

Principal

Componentysis.6

因子分析一例斜坡圖。6

因子分析一例旋轉(zhuǎn)的載荷表。Compone

nt

MatrixaComponent12店面設(shè)計(jì).712-.518店內(nèi)氣氛.727-.562服務(wù)態(tài)度.753-.618茶葉味道.624.720茶葉價格.619.657茶葉口感.609.636Undef

ined

error

#11401

-

Cannotopen

textf

ile"C:\Program

Files\SPSS\en\w

indow

s\spss.err":

No

sucha.

2

components

extracted.6

因子分析一例正交旋轉(zhuǎn)后的載荷表。Rotate

d

Component

MatriaxComponent12店面設(shè)計(jì).878.064店內(nèi)氣氛.918.039服務(wù)態(tài)度.974.014茶葉味道.012.952茶葉價格.049.901茶葉口感.055.878Undef

ined

error

#11401

-

Cannot

open

text

f

ile"C:\Program

Files\SPSS\en\w

indow

s\spss.err":

No

suchUndef

ined

error

#11408

-

Cannot

open

text

f

ile"C:\Program

Files\SPSS\en\w

indow

s\spss.err":

No

sucha.

Rotation

converged

in

3

i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論