




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
SPSS統計分析實用教程(第2版)第一章SPSS簡介社會科學統計軟件包(StatisticalPackagefortheSocialScience,SPSS)是世界著名的統計分析軟件之一。經過近40年的發展,SPSS在全球已擁有大量的用戶。目前,SPSS使用Windows的窗口方式展示各種管理和分析數據的方法,可方便地用于特定的科研統計。第一章SPSS簡介SPSS運行方式1.批處理方式2.完全窗口菜單運行方式3.程序運行方式第一章SPSS簡介SPSS的啟動SPSS的數據編輯窗口SPSS的結果輸出窗口SPSS的退出SPSS的幫助系統第二章變量、數據文件、參數2.1定義變量1.定義變量名(Name)2.定義變量類型(Type):Numeric、Comma、Dot、Scientificnotation、Date、Dollar、String3.變量長度(Width)4.變量小數點位數(Decimal)5.變量標簽(Label)第二章變量、數據文件、參數6.變量值標簽(Values):對變量的每一個可能取值的進一步描述7.缺失值的定義方式(Missing):系統缺失值和用戶缺失值8.變量的顯示寬度(Columns)9.變量顯示的對齊方式(Align):Left(左對齊)、Right(右對齊)、Center(居中對齊)10.變量的測量精度(Measure):定性變量(Nominal)、定序變量(Ordinal)、定距變量(Interval)、定比變量(Interval)第二章變量、數據文件、參數2.2數據的輸入與保存1、輸入數據的一般方法2、輸入帶有變量值標簽的數據3、SPSS數據文件的保存第二章變量、數據文件、參數2.3數據的編輯1、單元值的修改:“Edit”-“GotoCase”2、增加和刪除一個個案:“Data”-“InsertCase”;“Delete”或“Edit”-“Clear”3、數據的排序:“Data”-“SortCases”4、數據的行列互換:“Data”-“Transpose”第二章變量、數據文件、5、選取個案子集:“Data”-“SelectCases”6、數據分類匯總:“Data”-“Aggregate”7、缺失值的替代:“Transform”-“ReplaceMissingValues”8、數據次序確定:“Transform”-“RankCases”第二章變量、數據文件、參數2.4變量的操作1、增加和刪除一個變量:“Data”-“InsertVariable”;“Delete”鍵或“Edit”-“Clear”2、指定加權變量:“Data”-“WeightCases”3、根據已存在的變量建立新變量:“Transform”-“ComputeVariable”4、產生計數變量:“Transform”-“CountValuewithinCases”第二章變量、數據文件、5、變量的重新賦值:
為同一個變量賦值是“Transform”-“IntoSameVariables”
為不同的變量賦值是“Transform”-“IntoDifferentVariables”6、變量的自動賦值:“Transform”-“AutomaticRecode”7、變量定義信息的查詢:“Utilities”8、變量集的定義和使用:
變量集的定義“Utilities”-“DefineVariableSets”
變量集的使用“Utilities”-“UseVariableSets”第二章變量、數據文件、參數2.5數據文件的合并和分組1、數據文件的縱向合并:選擇“Data”菜單中“MergeFiles”的“Addcases”命令2、數據文件的橫向合并:選擇“Data”菜單“MergeFiles”子菜單中的“AddVariables”命令3、數據文件的分組:選擇“Data”菜單中的“SplitFile”命令第二章變量、數據文件、參數2.6讀入其他格式的數據文件1、讀取固定格式的文本文件2、讀取自由格式的文本文件3、讀取dBASE軟件文件(.dbf)4、讀取Excel軟件文件5、讀取數據庫文件第二章變量、數據文件、參數2.7SPSS運行環境設置1、SPSS狀態欄的顯示和隱藏2、SPSS網格線的顯示和隱藏3、SPSS菜單的增加和刪除4、SPSS字體的設置第三章描述統計3.1基本描述統計分析1、均值和均值標準誤差2、中位數
3、眾數4、全距5、方差和標準差6、四分位數、十分位數和百分位7、峰度和偏度第三章描述統計3.2頻數統計頻數(Frequency)就是一個變量在各個變量值上取值的個案數。如要了解學生某次考試的成績情況,需要計算出學生所有分數取值,以及每個分數取值有多少個人,這就需要用到頻數分析。變量的頻數分析正是實現上述分析的最好手段,它可以使人們非常清楚地了解變量取值的分布情況。第三章描述統計3.3標準化Z分數及線性轉換Z分數定義:從總體中抽出一個變量值
,Z分數表示的是此變量大于或小于平均數幾個標準差。由于Z分數分母的單位與分子相同,故Z分數沒有單位,因此能夠用來比較兩個從不同單位總體中抽出的變量值。將原始數據直接轉換為Z分數時,常會出現負數和帶小數點的值,實際使用起來很不方便。因此,在有些情況下,可以對Z分數進一步加以線性轉換,使之成為正的數值。第三章描述統計3.4探索分析1.探索分析的內容包括下面幾個方面⑴檢查數據是否有錯誤⑵獲得數據分布特征⑶對數據規律的初步觀察2、探索分析的考察方法3、正態分布檢驗4、方差齊次性檢驗第三章描述統計3.5交叉列聯表分析交叉列聯表分析是指多個變量在不同取值情況下的數據分布情況,從而進一步深入分析變量之間的相互影響和關系。交叉列聯表分析除了列出交叉分組下的頻數分布外,還需要分析兩個變量之間是否具有獨立性或一定的相關性。第三章描述統計SPSS提供了多種適用于不同相關系數的相關關系,這些檢驗的零假設是:行和列變量之間彼此獨立,不存在顯著的相關關系。SPSS將自動給出檢驗的相伴概率,如果相伴概率小于顯著性水平0.05,那么應拒絕零假設,認為行列變量之間彼此相關。第三章描述統計3.6多選項分析多選項分析是對多選項問題的分析方法。所謂多選項問題,就是一個問題的答案都是順序變量或名義變量,并且允許選擇的答案可以有多種組合。對于多選項問題,編碼的方法有兩種。1.多選項二分法2.多選項分類法第三章描述統計3.7基本統計分析的報表制作報表分類:個案簡明統計報表行形式報表列形式報表第四章統計圖形統計圖形是用點的位置、線段的升降、直條的長短或面積的大小等方法來表達統計資料的內容。它可以把統計資料所反映的變化趨勢、數量多少、分布狀態和相互關系等情況形象直觀地表現出來,以便于讀者閱讀、比較和分析。SPSS制圖功能很強,能繪制許多統計圖形,這些圖形既可以在統計分析過程中產生,也可以直接由Graphs圖形菜單中所包含的一系列選項來實現。第四章統計圖形4.1條形圖條形圖(BarCharts)是利用寬度相同的條形的長短或高低來表現統計數據大小或變動情況的統計圖形。橫排的條形圖稱為帶形圖,縱排的條形圖稱為柱形圖。1、個案分組的簡單條形圖2、單個變量的簡單條形圖
3、個案取值的簡單條形圖第四章統計圖形4.2線圖線圖(LineCharts)又稱曲線圖,是用線段的升降來說明現象變動情況的一種統計圖,主要用于表示現象在時間上的變化趨勢、現象的分配情況和現象間的依存關系等。1、個案分組的單線圖2、單個變量的多線圖第四章統計圖形4.3餅圖餅圖(PieCharts),是以整個圓的面積代表被研究現象的總體,按各組成部分占總體比重的大小把圓面積分割成若干扇形,用以表示現象的部分對總體的比例關系的統計圖。根據實際問題所要反映的數據,用戶可以在餅圖的主對話框中確定不同的餅圖類型。第五章均值比較和T檢驗在正態或近似正態分布的計量資料中,經常在使用統計描述過程分析后,還要進行組與組之間平均水平的比較。本章介紹的T檢驗方法,主要應用在兩個樣本間比較。第五章均值比較和T檢驗5.1MEANS過程Means過程是SPSS計算各種基本描述統計量的過程。與描述統計分析里計算某一樣本總體均值相比,Means過程其實就是按照用戶指定條件,對樣本進行分組計算均數和標準差,如按性別計算各組的均數和標準差。第五章均值比較和T檢驗5.2單一樣本T檢驗SPSS單樣本T檢驗是檢驗某個變量的總體均值和某指定值之間是否存在顯著差異。統計的前提樣本總體服從正態分布。也就是說單樣本本身無法比較,進行的是其均數與已知總體均數間的比較。第五章均值比較和T檢驗采用T檢驗方法,計算T統計量的公式為SPSS將自動計算t值,由于該統計量服從n?1個自由度的T分布,SPSS將根據T分布表給出t值對應的相伴概率值。如果相伴概率值小于或等于用戶設想的顯著性水平a,則拒絕H0,認為總體均值和檢驗值之間存在顯著差異。相反,相伴概率大于顯著性水平a,則不拒絕H0,可以認為總體均值和檢驗值之間不存在顯著差異。第五章均值比較和T檢驗5.3兩獨立樣本T檢驗所謂獨立樣本是指兩個樣本之間彼此獨立沒有任何關聯,兩個獨立樣本各自接受相同的測量,研究者的主要目的是了解兩個樣本之間是否有顯著差異存在。這個檢驗的前提如下:
兩個樣本應是互相獨立的,即從一總體中抽取一批樣本對從另一總體中抽取一批樣本沒有任何影響,兩組樣本個案數目可以不同,個案順序可以隨意調整。
樣本來自的兩個總體應該服從正態分布。第五章均值比較和T檢驗兩總體方差未知且相同情況下,T統計量為兩總體方差未知且不同情況下,T統計量為在SPSS中,將會給出相伴概率值。如果相伴概率值小于或等于顯著性水平
,則拒絕H0,認為兩總體均值之間存在顯著差異。第五章均值比較和T檢驗5.4兩配對樣本T檢驗兩配對樣本T檢驗是根據樣本數據對樣本來自的兩配對總體的均值是否有顯著性差異進行推斷。一般用于同一研究對象(或兩配對對象)分別給予兩種不同處理的效果比較,以及同一研究對象(或兩配對對象)處理前后的效果比較。兩配對樣本T檢驗的前提要求如下:兩個樣本應是配對的樣本出處的兩個總體應服從正態分布第五章均值比較和T檢驗T檢驗值得公式為:SPSS將自動計算T值,由于該統計量服從n?1個自由度的T分布,SPSS將根據T分布表給出t值對應的相伴概率值。如果相伴概率值小于或等于用戶設想的顯著性水平
,則拒絕H0,認為兩總體均值之間存在顯著差異。相反,相伴概率大于顯著性水平
,則不拒絕H0,可以認為兩總體均值之間不存在顯著差異。第六章方差分析方差分析是R.A.Fister發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析的基本思想是:通過分析研究不同變量的變異對總變異的貢獻大小,確定控制變量對研究結果影響力的大小。通過方差分析,分析不同水平的控制變量是否對結果產生了顯著影響。如果控制變量的不同水平對結果產生了顯著影響,那么它和隨機變量共同作用,必然使結果有顯著的變化;如果控制變量的不同水平對結果沒有顯著的影響,那么結果的變化主要由隨機變量起作用,和控制變量關系不大。第六章方差分析6.1單因素方差分析單因素方差分析測試某一個控制變量的不同水平是否給觀察變量造成了顯著差異和變動。單因素方差分析實質上采用了統計推斷的方法。計算F統計量,進行F檢驗。總的變異平方和記為SST,分解為兩個部分:一部分是由控制變量引起的離差,記為SSA(組間BetweenGroups離差平方和);另一部分隨機變量引起的SSE(組內WithinGroups離差平方和)。第六章方差分析采用F檢驗:SPSS依據F分布表給出相應的相伴概率值。如果相伴概率值小于顯著性水平
,則拒絕零假設,認為控制變量不同水平下各總體均值有顯著差異;反之,則認為控制變量不同水平下各總體均值沒有顯著差異。第六章方差分析6.2多因素方差分析多因素方差分析中的控制變量在兩個或兩個以上。它的研究目的是要分析多個控制變量的作用、多個控制變量的交互作用以及其他隨機變量是否對結果產生了顯著影響。多因素方差分析不僅需要分析多個控制變量獨立作用對觀察變量的影響,還要分析多個控制變量交互作用對觀察變量的影響,及其他隨機變量對結果的影響。第六章方差分析方差分解結果為:第六章方差分析采用F檢驗:檢驗結果判斷方法與單因素方差分析相同。第六章方差分析6.3協方差分析協方差分析是將那些很難控制的因素作為協變量,在排除協變量影響的條件下,分析控制變量對觀察變量的影響,從而更加準確地對控制因素進行評價。協方差分析要求協變量應是連續數值型,多個協變量間互相獨立,且與控制變量之間也沒有交互影響。第六章方差分析應用F檢驗結果解釋和判斷如單因素方差分析。第七章相關分析衡量事物之間,或稱變量之間線性相關程度的強弱并用適當的統計指標表示出來,這個過程就是相關分析。為了能夠更加準確地描述變量之間的線性相關程度,可以通過計算相關系數來進行相關分析。相關系數是衡量變量之間相關程度的一個量值。在統計學中,一般用樣本相關系數r來推斷總體相關系數第七章相關分析7.1二元定距變量相關分析二元定距變量的相關分析是指通過計算定距變量間兩兩相關的相關系數,對兩個或兩個以上定距變量之間兩兩相關的程度進行分析。Pearson簡單相關系數用來衡量定距變量間的線性關系:第七章相關分析7.2二元定序變量的相關分析定序變量又稱為有序(ordinal)變量、順序變量,它取值的大小能夠表示觀測對象的某種順序關系(等級、方位或大小等),也是基于“質”因素的變量。Spearman和Kendall'stua-b等級相關系數用以衡量定序變量間的線性相關關系,它們利用的是非參數檢驗的方法第七章相關分析相應統計量為:第七章相關分析7.3偏相關分析偏相關分析是指當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的過程。偏相關分析的工具是計算偏相關系數r12,3:第七章相關分析7.4距離相關分析距離相關分析是對觀測量之間或變量之間相似或不相似的程度的一種測量。距離相關分析可用于同一變量內部各個取值間,以考察其相互接近程度;也可用于變量間,以考察預測值對實際值的擬合優度。距離相關分析的結果可以用于其他分析過程。例如,因子分析、聚類分析等,有助于分析復雜的數據集合。第七章相關分析距離相關分析根據統計量不同,分為以下兩種。
不相似性測量:通過計算樣本之間或變量之間的距離來表示。
相似性測量:通過計算Pearson相關系數或Cosine相關來表示。距離相關分析根據分析對象不同,分為以下兩種。
樣本間分析:樣本和樣本之間的距離相關分析。
變量間分析:變量和變量之間的距離相關分析。第七章相關分析在不相似性測量的距離分析中,根據不同類型的變量,采用不同的統計量進行計算。對連續變量的樣本(x,y)進行距離相關分析時,常用的統計量有:歐氏距離歐氏距離平方Chebychev距離Minkowski距離馬氏距離用戶自定義距離。第八章回歸分析回歸分析主要解決以下幾方面的問題:
通過分析大量的樣本數據,確定變量之間的數學關系式。
對所確定的數學關系式的可信程度進行各種統計檢驗,并區分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。
利用所確定的數學關系式,根據一個或幾個變量的值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確度。第八章回歸分析8.1一元線性回歸分析一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一個因素(自變量)是如何影響另一事物(因變量)的過程,所進行的分析是比較理想化的。第八章回歸分析一般來說,對于具有線性相關關系的兩個變量,可以用直線方程來表示它們之間的關系。一元線性總體回歸模型:一元線性回歸模型的樣本回歸方程:第八章回歸分析式中,
?是樣本回歸直線上與x相對應的y值,可視為E(y)
的估計;
是未知常數,作為總體回歸參數
的估計值,
為直線在y軸上的截距,
為直線的斜率,也稱為回歸系數,它表示自變量x每變動一個單位時因變量y的平均變動量。從幾何意義上講,一元線性回歸方程是二維平面上的一條直線。通過數據估計模型中各個參數,完成模型。第八章回歸分析通過樣本數據建立一個回歸方程后,不能立即就用于對某個實際問題的預測。因為,應用最小二乘法求得的樣本回歸直線作為對總體回歸直線的近似,這種近似是否合理,必須對其作各種統計檢驗以確定。通常作以下的統計檢驗:1.擬合優度檢驗2.回歸方程的顯著性檢驗(F檢驗)3.回歸系數的顯著性檢驗(t檢驗)第八章回歸分析8.2多元線性回歸分析多元線性回歸模型是一元線性回歸模型的擴展,其基本原理與一元線性回歸模型類似。多元線性總體回歸方程為多元線性樣本回歸方程為第八章回歸分析實際求解回歸系數的估計值,當自變量個數較多時,計算十分復雜,必須依靠計算機完成。現在,利用SPSS,只要將有關數據輸入,并指定因變量和相應的自變量,立刻就能得到計算結果。對多元線性回歸,也需要測定方程的擬合程度、檢驗回歸方程和回歸系數的顯著性。第八章回歸分析8.3非線性回歸分析非線性回歸問題大多數可以轉化為線性回歸問題來求解,也就是對非線性回歸模型進行適當的變量變換,使其轉化為線性模型。一般步驟如下:
根據經驗或者繪制散點圖,選擇適當的非線性回歸方程;
通過變量置換,把非線性回歸方程化為線性回歸;
用線性回歸分析中采用的方法來確定各回歸系數的值;
對各系數進行顯著性檢驗。第八章回歸分析幾種常見的非線性回歸模型:1.雙曲線模型2.冪函數模型3.指數函數模型4.對數函數模型5.多項式模型第八章回歸分析相對應的函數形式為:第八章回歸分析8.4曲線回歸分析在實際問題中,往往不能確定究竟該選擇何種函數模型更接近樣本數據,這時可選擇曲線估計方法,其步驟如下:
首先,根據實際問題本身特點,同時選擇幾種模型。
然后,SPSS自動完成模型的參數估計,并顯示R2、F檢驗值、相伴概率值等統計量。
最后,選擇具有R2統計量值最大的模型作為此問題的回歸模型,并作一些預測。第八章回歸分析第八章回歸分析8.5時間序列的曲線估計時間序列的曲線估計是分析社會和經濟現象中經常用到的一種曲線估計。通常把時間設為自變量x,代表具體的經濟或社會現象的變量設為因變量y,研究變量x與y之間關系的方法就是時間序列曲線估計。其具體步驟與一般的曲線估計基本類似。第八章回歸分析8.6含虛擬自變量的回歸分析在回歸分析中,對一些自變量是定性變量的先作數量化處理,處理的方法是引進只取“0”和“1”兩個值的0?1型虛擬自變量。當某一屬性出現時,虛擬變量取值為“1”,否則取值為“0”。如果在回歸模型中需要引入多個0?1型虛擬變量D時,虛擬變量的個數應按下列原則來確定:對于包含一個具有k種特征或狀態的質因素的回歸模型,如果回歸模型不帶常數項,則需引入k個0?1型虛擬變量D;如果有常數項,則只需引入k?1個0?1型虛擬變量D。當k=2時,只需要引入一個0?1型虛擬變量D。第八章回歸分析8.7邏輯回歸分析Logistic回歸分析是處理定性因變量的最主要的統計分析方法。Logistic回歸分析根據因變量取值類別不同,又可以分為BinaryLogistic回歸分析和Multinomi-nalLogistic回歸分析。BinaryLogistic回歸模型中因變量只能取兩個值1、0(虛擬因變量),而MultinomialLogistic回歸模型中因變量可以取多個值。第八章回歸分析其Logistic回歸方程為可以采用最大似然估計法(Maximumlikelihoodestimation,MLE)對其回歸參數進行估計。最大似然估計法是一種迭代算法,它以一個預測估計值作為參數的初始值,根據算法確定能增大對數似然值的參數的方向和變動。估計了該初始函數后,對殘差進行檢驗并用改進的函數進行重新估計,直到收斂為止(即對數似然不再顯著變化)。第八章回歸分析參數估計后必須進行檢驗,常用的檢驗統計量有:1.-2對數似然值(-2loglikelihood,-2LL)2.擬合優度(GoodnessofFit)統計量3.Cox和Snell的R2(Cox&Snell’sR-Square)4.Nagelkerke的R2(Nagelkerke’sR-Square)5.偽R2(Psedo-R-square)6.Hosmer和Lemeshow的擬合優度檢驗統計量(HosmerandLemeshow'sGoodnessofFitTestStatistic)7.Wald統計量第九章聚類分析和判別分析聚類分析是統計學中研究這種“物以類聚”問題的一種有效方法,它屬于統計分析的范疇。聚類分析的實質是建立一種分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區別。聚類分析的方法主要有兩種,一種是“快速聚類分析方法”(K-MeansClusterAnaly-sis),另一種是“層次聚類分析方法”(HierarchicalClusterAnalysis)。第九章聚類分析和判別分析9.1層次聚類分析中Q型聚類層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析;另一種是對研究對象的觀察變量進行分類,稱為R型聚類。它使具有共同特征的變量聚在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數。第九章聚類分析和判別分析聚類的時候會涉及兩種類型親疏程度的計算:一種是樣本數據之間的親疏程度,一種是樣本數據與小類、小類與小類之間的親疏程度。樣本數據之間的親疏程度測量方法:歐氏距離(EuclideanDistance)歐氏距離平方(SquaredEuclideanDistance)Chebychev距離Block距離Minkowski距離Customized距離第九章聚類分析和判別分析樣本數據與小類、小類與小類之間的親疏程度測量方法:最短距離法(NearestNeighbor)最長距離法(FurthestNeighbor)、類間平均鏈鎖法(Between-groupsLinkage)類內平均鏈鎖法(Within-groupsLinkage)重心法(CentroidClustering)離差平方和法(Ward’sMethod)。第九章聚類分析和判別分析9.2層次聚類分析中R型聚類層次聚類分析中的R型聚類是對研究對象的觀察變量進行分類,它使具有共同特征的變量聚在一起。R型聚類的計算公式和Q型聚類的計算公式是類似的,不同的是R型聚類是對變量間進行距離的計算,Q型聚類則是對樣本間進行距離的計算。第九章聚類分析和判別分析9.3快速聚類快速聚類分析是由用戶指定類別數的大樣本資料的逐步聚類分析。快速聚類分析計算過程如下。(1)首先需要用戶指定聚類成多少類(比如k類)。(2)然后SPSS確定k個類的初始類中心點(3)計算所有樣本數據點到k個類中心點的歐氏距離。(4)SPSS重新確定k個類的中心點。(5)重復上面的兩步計算過程,直到達到指定的迭代次數或終止迭代的判斷要求為止。第九章聚類分析和判別分析9.4判別分析判別分析先根據已知類別的事物的性質(自變量),建立函數式(自變量的線性組合,即判別函數),然后對未知類別的新事物進行判斷以將之歸入已知的類別。第九章聚類分析和判別分析判別分析有如下的假定:
預測變量服從正態分布。
預測變量之間沒有顯著的相關。
預測變量的平均值和方差不相關。
預測變量應是連續變量,因變量(類別或組別)是間斷變量。
兩個預測變量之間的相關性在不同類中是一樣的。第九章聚類分析和判別分析在分析的各個階段應把握如下的原則。
事前組別(類)的分類標準(作為判別分析的因變量)要盡可能準確和可靠,否則會影響判別函數的準確性,從而影響判別分析的效果。
所分析的自變量應是因變量的重要影響因素,應該挑選既有重要特性又有區別能力的變量,達到以最少變量而有高辨別能力的目標。
初始分析的數目不能太少。第十章因子分析10.1因子分析定義和數學模型在大多數情況下,許多變量之間存在一定的相關關系。因此,有可能用較少的綜合指標分析存在于各變量中的各類信息,而各綜合指標之間彼此是不相關的,代表各類信息的綜合指標稱為因子。因子分析就是用少數幾個因子來描述許多指標或因素之間的聯系,以較少幾個因子反映原資料的大部分信息的統計學方法。第十章因子分析因子分析有如下特點。(1)因子變量的數量遠少于原有的指標變量的數量,對因子變量的分析能夠減少分析中的計算工作量。(2)因子變量不是對原有變量的取舍,而是根據原始變量的信息進行重新組構,它能夠反映原有變量大部分的信息。(3)因子變量之間不存在線性相關關系,對變量的分析比較方便。(4)因子變量具有命名解釋性,即該變量是對某些原始變量信息的綜合和反映。第十章因子分析因子分析的出發點是用較少的相互獨立的因子變量來代替原來變量的大部分信息,可以通過下面的數學模型來表示其中為p個原有變量,是均值為零、標準差為1的標準化變量,為m個因子變量,m小于p,表示成矩陣形式為第十章因子分析其中F為因子變量或公共因子,可以將它們理解為在高維空間中互相垂直的m個坐標軸。A為因子載荷矩陣,aij為因子載荷,是第i個原有變量在第j個因子變量上的負荷。如果把變量xi看成是m維因子空間中的一個向量,則aij為xi在坐標軸Fj上的投影,相當于多元回歸中的標準回歸系數。ε為特殊因子,表示了原有變量不能被因子變量所解釋的部分,相當于多元回歸分析中的殘差部分。第十章因子分析因子分析有兩個核心問題:一是如何構造因子變量;二是如何對因子變量進行命名解釋。因子分析有下面4個基本步驟:(1)確定待分析的原有若干變量是否適合于因子分析。(2)構造因子變量。(3)利用旋轉使得因子變量更具有可解釋性。(4)計算因子變量的得分。第十章因子分析確定待分析的原有若干變量是否適合于因子分析:相關系數矩陣:如果相關系數矩陣在進行統計檢驗中,大部分相關系數都小于0.3,并且未通過統計檢驗,那么這些變量就不適合進行因子分析。SPSS在因子分析過程中還提供了幾種檢驗方法來判斷變量是否適于作因子分析:1.巴特利特球形檢驗(BartlettTestofSphericity)2.反映像相關矩陣檢驗(Anti-imagecorrelationmatrix)3.KMO(Kaiser-Meyer-Olkin)檢驗第十章因子分析構造因子變量因子分析中有多種確定因子變量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主軸因子法、極大似然法、最小二乘法等。其中,基于主成分模型的主成分分析法是使用最多的因子分析方法之一。第十章因子分析因子變量的命名解釋在實際分析工作中,主要是通過對載荷矩陣A的值進行分析,得到因子變量和原變量的關系,從而對新的因子變量進行命名。可以通過因子矩陣的旋轉來確定。旋轉的方法有正交旋轉、斜交旋轉、方差極大法,其中最常用的是方差極大法。第十章因子分析計算因子得分因子變量確定以后,對每一樣本數據,希望得到它們在不同因子上的具體數據值,這些數值就是因子得分,它和原變量的得分相對應。有了因子得分,在以后的研究中,就可以針對維數少的因子得分來進行。估計因子得分的方法有回歸法、Bartlette法、Anderson-Rubin法等。第十一章非參數檢驗許多調查或實驗所得的科研數據,其總體分布未知或無法確定。因為有的數據不是來自所假定分布的總體,或者數據根本不是來自一個總體,還有可能數據因為某種原因被嚴重污染,這樣在假定分布的情況下進行推斷的做法就有可能產生錯誤的結論。此時人們希望檢驗對一個總體分布形狀不必作限制。這種不是針對總體參數,而是針對總體的某些一般性假設(如總體分布)的統計分析方法稱為非參數檢驗(NonparametricTests)。第十一章非參數檢驗11.1總體分布的卡方檢驗總體分布的卡方檢驗適用于配合度檢驗,是根據樣本數據的實際頻數推斷總體分布與期望分布或理論分布是否有顯著差異。它的零假設H0:樣本來自的總體分布形態和期望分布或某一理論分布沒有顯著差異。第十一章非參數檢驗總體分布的卡方檢驗的原理是:如果從一個隨機變量中隨機抽取若干個觀察樣本,這些觀察樣本落在X的k個互不相交的子集中的觀察頻數服從一個多項分布,這個多項分布當k趨于無窮時,就近似服從X的總體分布。因此,假設樣本來自的總體服從某個期望分布或理論分布,同時獲得樣本數據各子集的實際觀察頻數,并依據統計量Q第十一章非參數檢驗Q值越大,表示觀察頻數和理論頻數越不接近;Q值越小,說明觀察頻數和理論頻數越接近。SPSS將自動計算Q統計量,由于Q統計量服從k-1個自由度的χ2分布,因此SPSS將根據χ2分布表給出Q統計量所對應的相伴概率值。如果相伴概率小于或等于用戶的顯著性水平
,則應拒絕零假設H0,認為樣本來自的總體分布形態與期望分布或理論分布存在顯著差異;如果相伴概率值大于顯著性水平,則不能拒絕零假設H0,認為樣本來自的總體分布形態與期望分布或理論分布不存在顯著差異。第十一章非參數檢驗11.2二項分布檢驗SPSS二項分布檢驗就是根據收集到的樣本數據,推斷總體分布是否服從某個指定的二項分布。其零假設是H0:樣本來自的總體與所指定的某個二項分布不存在顯著的差異。SPSS中的二項分布檢驗,在樣本小于或等于30時,按照計算二項分布概率的公式進行計算;樣本數大于30時,計算的是Z統計量,認為在零假設下,Z統計量服從正態分布。第十一章非參數檢驗Z統計量為SPSS將自動計算Z統計量,并給出相應的相伴概率值。如果相伴概率小于或等于用戶的顯著性水平α,則應拒絕零假設H0,認為樣本來自的總體分布形態與指定的二項分布存在顯著差異;如果相伴概率值大于顯著性水平,則不能拒絕零假設H0,認為樣本來自的總體分布形態與指定的二項分布不存在顯著差異。第十一章非參數檢驗11.3SPSS單樣本變量值隨機性檢驗單樣本變量值的隨機性檢驗是對某變量的取值出現是否隨機進行檢驗,也稱為游程檢驗(Run過程)。單樣本變量值的隨機性檢驗是由Wald提出的,它的零假設為H0:總體某變量的變量值出現是隨機的。第十一章非參數檢驗在SPSS單樣本變量值的隨機性檢驗中,SPSS將利用游程構造Z
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 燈具行業的新材料創新應用考核試卷
- 畜牧飼料成分與營養價值分析考核試卷
- 海洋生物多樣性基因組學研究考核試卷
- 拍賣行業商業模式創新趨勢考核試卷
- 灌溉技術對灌溉作物生長環境的影響考核試卷
- 廣播發射機用rf信號發射器考核試卷
- 生物質能源在制藥工業的替代研究考核試卷
- 河北省定州名校2025屆高三年級下學期四調考試數學試題
- 玉石資源保護與可持續發展考核試卷
- 企業價值評估方法比較考核試卷
- (新版)廣電全媒體運營師資格認證考試復習題庫(含答案)
- 2024年法律職業資格考試(試卷一)客觀題試卷與參考答案
- 四年級語文國測模擬試題 (1)附有答案
- MOOC 知識創新與學術規范-南京大學 中國大學慕課答案
- 室上性心動過速護理課件
- 《老師領進門》ppt課件
- 養豬技術試題及答案
- 最新EXCEL上機操作練習題1
- 吊籃四方驗收表
- 漢語教程第二冊(下)課后答案
- 弟子規全文拼音版-A4打印版注音版
評論
0/150
提交評論