




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 數據特征的描述統計分析9/13/20221SPSS的主要分析工具Analyze菜單報告Reports描述性統計分析Descriptive Statistics菜單表格Tables均值間的比較Compare Means菜單一般線性模型General Linear Model菜單相關分析Correlate菜單多元線性回歸與曲線擬合 Regression菜單對數線性模型Loglinear菜單聚類分析與判別分析Classify菜單因子分析與對應分析Data Reduction菜單信度分析與多維尺度分析Scale菜單非參數檢驗Nonparametric Tests菜單時間序列分析Time ser
2、ies 9/13/20222 描述性統計分析是統計分析的第一步,做好這第一步是下面進行正確統計推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的幾個模塊則集中在Descriptive Statistics菜單中,包括:Frequencies:頻數分析過程,特色是產生頻數表(主要針對分類變量)Descriptives:數據描述過程,進行一般性的統計描述(主要針對數值型變量)Explore:數據探察過程,用于對數據概況不清時的探索性分析Crosstabs:多維頻數分布交叉表分析(列聯表分析)Ratio statistics:比率分析9/13/20223第一節 報告分析(R
3、eport)第二節 描述性統計分析第三節 比率分析第四節 Means過程第五節 多選項分析主要內容9/13/20224第一節 報告分析(Report)1、OLAP 在線分析處理過程2、Case Summaries 個案匯總分析過程3、報告摘要分析過程Report Summaries in Rows 行形式摘要報告Report Summaries in Columns 列形式摘要報告9/13/20225按AnalyzeReportsOLAP Cubes順序單擊打開如下對話框:摘要變量框:進入此框變量為數值型變量分層變量框:進入此框變量為數值型或字符型變量1、OLAP(在線分析處理過程)9/13/
4、20226可選擇的統計量:Sum 總和Number of Cases 個案數目Mean 均值 Standard Deviation 標準差Percent of Total Sum 占總和的百分比Percent of Total N 占觀察量總數的百分比Median 中位數Grouping Median 分組中位數Std.Error of Mean 均值標準誤Minimum 最小值Maximum 最大值Range 極差First 首值Last 尾值Variance 方差 Skewness 偏度Std.Error of Skewness 偏度的標準誤Kurtosis 峰度Std.Error of
5、Kurtosis 峰度的標準誤Harmonic Mean 調和平均數Geometric Mean 幾何平均數9/13/20227標題對話框輸入統計量的標題 輸入注解,這些注解將顯示在統計量輸出欄的下面04-1 下面舉例說明9/13/2022830名少兒身高數據 表4-19/13/20229(1)操作步驟:1)按AnalyzeReportsOLAP Cubes順序單擊打開OLAP Cubes對話框2)打開數據文件“少兒身高.sav”,將height變量選入Summary Variable框中,將sex變量作為分組變量選入Grouping Variable 框中;3)單擊Statistics按鈕,
6、在 Statistics框中選擇Sum、Mean、Median項作為要輸出的統計量;4)單擊Title按鈕,在Title框中輸入“少兒身高分層報告”,單擊Continue返回;單擊OK9/13/2022109/13/202211表4-3 個案處理摘要 表4-2說明個案的一些基本情況,包括總個數、有效值個數和缺省值個數。表4-3是分層報告,輸出了總和、均值和中位數。 表4-2(2)輸出結果及分析9/13/2022122 、個案匯總分析過程、主要功能 計算指定變量的分組統計量,分組變量可能是一個,也可以有多個。如是多個,則將所有水平進行交叉分組。每個組中,變量值可以顯示或不顯示。、個案匯總分析 按
7、AnalyzeReportsCase Summaries順序單擊打開Case Summaries 對話框。9/13/202213可在參數框中輸入數值,該數值表示分析過程只對前幾個個案進行帶有缺省值的個案不被顯示在列出個案的同時,顯示個案的序號分組變量:可選擇一個或多個待分析變量:數值型或字符型變量。Summarize Cases 對話框見下圖9/13/202214輸入腳注在輸出結果中顯示各分組統計量的標題在分析過程中剔除帶有缺失值的個案鍵入一個字符以便在輸出結果中標記缺失值輸入標題、例題分析: 對表4-1資料(數據文件為“04-1少兒身高.sav”)進行個案匯總分析。Options 對話框9/
8、13/202215 1)打開數據文件“04-1少兒身高.sav” 2)打開Case Summaries對話框,將height選入 Variables框中,作為匯總分析的變量,將sex和grade選入Grouping Variables框中作為分組變量。 3)清除Display cases復選框。 4)單擊Statistics按鈕,在 Statistics框中選擇Number of cases、Mean、Median項作為要輸出的統計量;單擊Continue返回。 5)單擊OK(1)操作步驟9/13/2022169/13/202217表4-4 個案處理摘要 表4-4說明個案的總個數、有效值個數和
9、缺省值個數以及各占的百分比。(2)輸出結果及分析9/13/202218分組統計量 表4-5分三部分,1、男生身高的基本統計量,2、女生身高的基本統計量,3、全部身高的基本統計量。在每部分中又包括分年級進行的統計和總的統計,這就是交叉分組。 表4-59/13/202219、主要功能 把個案的統計結果用一種簡單扼要的表格輸出,有助于更好地把握數據的分布特征。、行形式報告摘要按AnalyzeReportsReport Summaries in Rows順序,打開 Summaries in Rows 對話框。3、報告摘要分析過程9/13/2022209/13/202221輸入變量的列標題,不輸入則將輸
10、出變量的標簽或名稱選擇列標題對齊的方式選擇變量值所處的位置以縮進的形式輸出,可輸入縮進數值;變量值位于列中央鍵入列寬數值,如不設列寬,則:如輸出數值標簽,則列寬為數值標簽中的最長者;如輸出變量值,則列寬為變量所定義的寬度;如設置了列標題,則列寬為標題的最長者;如未設置列標題,則列寬為輸出的變量標簽的最長者。選擇輸出的內容:將輸出變量值將輸出變量標簽Format 對話框9/13/202222輸出列變量之和。輸出列變量的均值。輸出列變量中的最小值。輸出列變量中的最大值。輸出列變量中個案的數目。輸出列變量中高于Value框中設定值的個案占總數的百分比輸出列變量中低于Value框中設定值的個案占總數的
11、百分比輸出列變量中位于Low和Hight框中設定值之間的個案占總數的百分比輸出標準差。輸出輸出峰度。輸出方差。輸出偏度。Summary對話框9/13/202223Report欄的Option 對話框進行缺失值和輸出頁碼的設置:剔除帶有缺失值的觀測量輸入一個代表系統的和用戶的缺失值字符設置報告的起始頁碼可進行頁面設置:可輸入分組變量間的間距行數(不超過20)每個分組變量都在新的一頁輸出在新的一頁輸出下一個分組變量,并接著上一頁的頁碼輸出下一頁的頁碼輸入設置分組標題和報告內容之間的間距,最多可插入20行空白Break Column 中的Options對話框9/13/202224所輸數值表示報告的每
12、一頁輸出從第幾行開始所輸數值表示報告的每一頁輸出在第幾行結束規定每一頁輸出的左邊間距規定每一頁輸出的右邊間距選擇報告輸出內容的對齊方式設置頁面的標題、腳注和頁面的距離:設置標題與報告的距離設置注腳與報告的距離決定分組變量顯示的位置:所有的分組變量值均位于第一列,激活Indent an each break參數框在此框中設置分類變量值縮進的位置。默認為2空格設置列標題的輸出格式:在標題下添加下劃線設置列標題下的空白行(默認為2)選擇列標題的對齊方式設置分組變量的顯示位置:顯示在統計量的上一行顯示于統計量的同一行,并覆蓋統計量標題設置分組變量與統計量之間的空白行數Report欄的Layout對話框
13、9/13/202225按Next進入下一行的設置,按 Previous返回上一行對齊方式選擇特殊變量的值作為標題與注腳在此對話框可規定標題與注腳的輸出內容和格式,最多可設置10行Report欄的Titles 對話框9/13/202226、列形式報告摘要列形式報告摘要與行形式報告摘要不同之處在于:行形式報告摘要中匯總統計量位于行上,而列形式報告摘要中匯總統計量位于列上。按AnalyzeReportsReport Summaries in Columns 順序,打開Summaries in Columns 對話框。9/13/202227 Summaries in Columns對話框 將要分析的變
14、量選入此框,每選一個變量進入框內,可以單擊Format按鈕,打開Format對話框(與前同),設置該變量輸出格式(其他方面設置見下圖)。9/13/2022281、Data Columns欄 1)Summary 對話框與行形式基本同,不同是只能選擇一個統計量 2) Format 對話框與行形式同 3) Insert Total按鈕按Summary按鈕,出現Summary對話框(如右)Insert Total按鈕的Summary 對話框至少挑選2個參與計算合計的變量,并將其移入右邊變量框。在Summaries in Columns 對話框中單擊Insert Total按鈕,新增Total變量9/1
15、3/202229 1)Options對話框(見下圖) 2)Format對話框與“行形式”同 3)Sort Sequence欄:確定分組變量升降排序規則 4)Data are already sorted復選框,已將分組變量排序2、Break Columns欄顯示每一類分組變量小計結果,在Label框中鍵入分組變量的標簽在此欄中設置頁面:分組變量間的間距行數,輸入值不超過20每個分組變量都在新的一頁輸出在新的一頁輸出下一個分組變量,并接著上一頁順序編寫頁碼在此欄中設置小計前的空白行數9/13/2022303、Preview復選框:只輸出報告的第一頁,便于用戶預覽4、Report欄 Options
16、如下圖 Layout對話框與“行形式”同 Titles對話框與“行形式”同 Options對話框在每一頁的底部顯示該列的總和,在Label框中鍵入標簽剔除帶有缺失值的個案輸入一個代表系統和用戶的缺失值的字符設置報告的起始頁9/13/202231將表4-1資料(數據文件“04-1少兒身高.sav”)進行分析:先做行形式報告輸出,再做列形式報告輸出。(1)單個分組變量的行形式報告按AnalyzeReportsReport Summaries in Rows順序,打開Summaries in Rows 對話框。挑height變量進入Data框,grade變量進入Break框。單擊Break Colu
17、mns欄的 Summary按鈕,打開 Summary Lines for grade對話框,選中Mean of Values、Number of Cases復選框,再按Continue返回 Summaries in Rows對話框。選中Display cases復選框。單擊Titles 按鈕,打開Titles對話框,在標題欄的Center 框中輸入標題“少兒身高分組統計”,再按返回。單擊“OK”完成,輸出結果見表46。、例題分析9/13/2022329/13/202233個案分組報告 少兒身高分組統計 年級 身高- -四年級 121.40 134.10 135.80 135.50 133.40
18、 140.30 120.90 141.40Mean 132.85N 8五年級 131.50 132.60 140.40 137.40 128.20 129.00 129.30 132.70 130.10 139.70 133.00 124.00 138.80 138.60MEAN 133.24N 14六年級 129.20 136.00 132.20 140.90 136.70 137.50 125.40 137.50Mean 134.42N 8列出了個案按年級分組后的匯總表 表4-69/13/202234打開Summaries in Rows 對話框,挑選height變量進入Data框,sex
19、、grade變量進入Break框。單擊 Summary按鈕,選中Standard deviation、 Kurtosis、Skewness等。選中Break 欄中的sex變量,單擊 Summary按鈕,選中Mean of Values、 Number of Cases、Minimum Value和 Maximum Value ,再按Continue返回 。選中Break 欄中的grade 變量,單擊 Summary按鈕,選中Mean of Values、 Number of Cases復選框,再按Continue返回 。單擊“OK”完成, 輸出結果見表4-7。(2)兩個分組變量的行形式報告9/
20、13/2022359/13/202236 少兒身高分組統計性別 年級 身高- - -男 四年級 Mean 131.70 N 4 五年級 Mean 132.63 N 7 六年級 Mean 134.57 N 4Mean 132.90Minimum 121.40Maximum 140.90N 15女 四年級 Mean 134.00 N 4 五年級 Mean 133.84 N 7 六年級 Mean 134.27 N 4Mean 134.00Minimum 129.90 Maximum 141.40N 15Grand Total Std.Dev 5.70Kurtosis -.29Skewness -.6
21、3表分為3部分:1.男生統計量表:各年級的均值和個數,全體男生的均值、個數、最大值和最小值;2.女生統計量表:各年級的均值和個數,全體女生的均值、個數、最大值和最小值;3.全體的統計量:標準差、偏度和峰度。 兩個分組變量的行形式報告 表4-79/13/202237(3)兩個分組變量的列形式報告打開Summaries in Columns 對話框,挑height變量進入Data框;單擊Report 欄中的Options對話框,選中Display grand total復選框,再按Continue返回;單擊 Summary按鈕,選中Mean of Values,再按Continue返回。 先后挑選
22、sex、grade變量進入Break框。單擊Titles 按鈕,打開Titles對話框,在標題欄的Center 框中輸入標題“少兒身高分組統計”,再按Continue返回。單擊“OK”完成, 輸出結果見表48。9/13/2022389/13/202239 少兒身高分組統計 身高性別 年級 Mean_ _ _男 4 133.4 5 131.3 6 134.6女 5 134.0Grand Total 133.5表分為3部分:1.男生的均值表,按各年級算出均值;2.女生的均值表,按各年級算出均值;3.全體的均值。兩個分組變量的列形式報告 表4-89/13/202240第二節 描述性統計分析(Desc
23、riptive Statistics)1、 Frequencies 頻數分析表2、 Descriptive 描述性統計分析過程3、 Explore 探索分析過程4、 Crosstabs 列聯表分析過程9/13/2022411、頻數分析表、主要功能 可對數據按組進行歸類整理,形成變量不同水平的頻數分布表和圖形,對數據的分布趨勢進行初步分析。、頻數分析 按Analyze-Descriptive Statistics-Frequencies順序,打開Frequencies對話框。9/13/202242將一個或多個變量向右移入Variable(s)框。按Statistics按鈕,打開Statistic
24、s對話框顯示頻數分布表按Chart按鈕,打開Chart 對話框按Format按鈕,打開Format 對話框 Frequences主對話框9/13/202243 輸出百分位數:輸出四分位數,顯示25%、50%、75%的百分位數;將數據平均分為所設定的相等等份,可輸入2100 的整數,如鍵入4則輸出第25、50、75百分位數自定義百分位數,可輸入0100 的整數。輸入值后: 按Add:輸入值后按此鍵,可反復操作鍵入多個百分位數; 按Remove:刪除已鍵入的數值 按Change:重新輸入新數離散趨勢欄分布形狀欄在計算百分位數值和中位數時,假設數據已分組,且用各組的組中值代替各組數據集中趨勢欄輸出統
25、計量對話框9/13/202244Chart 對話框不輸出任何圖形,為默認 輸出條形圖,各條高度代表變量各分類的頻數輸出圓圖,圓圖中各塊的數值表示各分類變量的頻數輸出直方圖,此圖僅適用于區間型數值變量。選擇此項后,還可選擇With normal curve,畫出的直方圖帶有正態曲線只有選擇了條形圖和圓圖項才有效,決定縱軸表示的統計量縱軸表示頻數縱軸表示百分比9/13/202245Format 對話框控制頻數表輸出的分類數量,默認為10。多變量框中可設定多變量表格輸出的格式設置頻數表輸出的格式選擇頻數表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發生的頻數的升序排列按變量各種取值
26、發生的頻數的降序排列9/13/202246表49 100名大學生血清蛋白含量(%)、例題分析04-2對某高校100名大學生血清蛋白含量(g%)做頻數分析,數據如表49 9/13/202247(1)具體步驟打開數據文件“大學生血清.sav”,按AnalyzeDescriptive StatisticFrequencies 順序,打開Frequencies對話框。將變量xdh移入Variable(s)框,選中Display frequency tables復選框,要求輸出頻數分布表。單擊Statistics按鈕,選擇要輸出的統計量。單擊Chart 按鈕,選擇Histogram項,輸出直方圖,并選擇
27、With normal curve復選框,輸出正態曲線。單擊Format 按鈕,選Ascending項。單擊“OK”完成。9/13/202248血清蛋白含量的直方圖 血清蛋白含量的統計表(2)輸出結果及分析9/13/202249血清蛋白含量的頻數分布表9/13/202250、主要功能調用此過程對變量進行描述性統計分析,計算均值、標準差、全距和標準誤差等,并可將原始數據轉換成Z分數。、描述統計量分析按Analyze / Descriptive Statistics / Descriptives順序單擊,打開 Descriptives主對話框。如圖在左邊框中選一個或多個變量移入如選中此框,將對Va
28、riables框中選擇的變量進行標準化, 產生相應的Z分數,并作為新變量保存到數據窗口,其變量名在原變量名前加z。Descriptives 對話框 2、描述性統計分析過程9/13/202251Options 對話框 基本統計量當Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布、例題分析 04-3已知20個初生嬰兒的體重數據如下表,對其進行描述統計分析。9/13/202252277029152795299528602970308731263125465422723503421834183921
29、2669370723102573388120個初生嬰兒的體重(g)(1)操作步驟:打開數據文件“嬰兒體重.sav”。打開 Descriptives主對話框,選定變量t進入Variable(s)欄中。選中Save standardized values as variables 復選框,要求計算變量的z值,并保存結果到當前數據集中。單擊Options 按鈕,選中Mean、Std.Deviation、Minimum、Maximum 、Variance 項。(2)輸出結果及分析9/13/202253嬰兒體重的描述統計量這時打開原數據集,可看到多了一列zt,這是t 的z 分數,如下圖所示:保存了z 分
30、數的數據集9/13/202254、主要功能 調用此過程可檢查數據是否有錯誤、考察樣本分布特征及對樣本分布規律作初步考察,剔除奇異值和錯誤數據。探索分析過程將提供在分組或不分組的情況下常用的統計量與圖形。、探索分析 按Analyze-Descriptive Statistics-Explore 順序單擊,打開 Explore 主對話框,如下圖:3、 探索分析過程9/13/202255選擇一個或多個變量進入Dependent框作為因變量,單擊OK可獲得因變量的一系列基本統計量和圖形。此作為分組變量,可以是字符變量,對因變量的分析將按該變量的觀測值進行分組分析。可有多個分組變量,這時會按多個變量的交
31、叉組合進行分組。該框中的變量作為標識符, 在輸出諸如異常值時,用該變量進行標識,只允許有一個標識符??赏瑫r輸出基本統計量和圖形只輸出基本統計量只輸出圖形Explore 主對話框9/13/202256輸出基本統計量 均值的置信區間,可鍵入199%的任意值,根據該值算出置信區間的上下限。給出中心趨勢的最大似然比的穩健估計量,當數據分布均勻,且兩尾較長,或當數據中存在極端值時,可給出比均值或中位數更合理的估計。輸出最大和最小的5個數,且在輸出窗口中加以標明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數。Statistics對話框9/13/202257只有指定分組變量才有效,可輸
32、出分布水平圖,同時輸出回歸直線斜率以及對方差的Levenes檢驗不輸出分布水平圖對每組數據產生一個中位數與四分位數范圍的自然對數散點圖,同時在滿足每組數據方差相等的條件下對數據進行冪變換的估計。根據在Power參數框中指定的變換對原始數據進行變換。不對數據進行轉換 Explore 欄中Plots對話框在此對話框中可選擇要輸出的統計圖形及其參數。Boxplots欄只有在主對話框中指定了一個以上變量時,才有效。在該欄選擇箱線圖的輸出方式:每一個因變量生成一個箱線圖所有因變量生成一個箱線圖不顯示任何箱線圖生成莖葉圖(默認)生成直方圖輸出正態概率和離散正態概率圖,同時輸出K-S統計量中的Lillief
33、ors顯著水平檢驗,如果觀測數不超過20,將用W-S統計量代替K-S統計量。9/13/202258確定缺失值的處置:因變量或分組變量中帶有缺失值的觀測量都將在分析過程中被剔除。在分析過程中根據分組變量產生的組中帶缺失值的觀測量都將被剔除。分組變量的缺失值被單獨分為一組,輸出頻數時將標出缺失組。Explore 欄中Options對話框、例:04-4下表為30名10歲少兒的身高(cm)數據,對其進行探索分析編號身高編號身高編號身高男女男女男女1131.5132.76135.5137.511132.2124.02137.4133.07121.4141.412129.0140.33128.2139.7
34、8129.2138.813132.6130.14136.0125.49135.4120.914140.9133.45140.4138.610135.8137.515129.3136.79/13/202259(1)操作步驟打開數據文件“04-4Explore分析.sav”,打開Explore主對話框,選變量height進入Dependent List欄中,選sex變量進入Factor List欄中;在Display欄中選擇 Both項;打開Statistics對話框,選中Descriptives 、M-estimation、 Outliers復選項,單擊Continue返回;打開Plots對話框
35、,選擇Boxplots欄中的Factor levels together項,選擇Descriptives欄內的 Stem-and-leaf復選項,選擇Spread vs level with levene Test欄中的 Power estimation項,單擊 Continue 返回。單擊OK。(2)輸出結果及分析 9/13/202260個案摘要表M估計量表表4-13表4-149/13/202261少兒身高的分組描述統計量表4-159/13/202262少兒身高的極端值方差一致性檢驗表4-16表4-179/13/202263HIGHT Stem-and-Leaf Plot forSEX= 1
36、 Frequency Stem & Leaf 1.00 12 . 1 4.00 12 . 8999 3.00 13 . 122 5.00 13 . 55567 2.00 14 . 00 Stem width: 10.00 Each leaf: 1 case(s)少兒身高的莖葉圖少兒身高的箱線圖9/13/202264 結果分析表4-13摘要性地說明了數據的基本情況,包括總數、有效值數目和缺失值數。 表4-14是按性別分組后的統計量表,上半部分是男生,下半部分是女生的。 表4-15下面的a、b、c、d分別表示四種加權常數,此表的結果是使用四種不同的方法計算出的M估計量的結果。 表4-16顯示分組后
37、少兒身高的極端值分布,最大值和最小值各取5個。 表4-17是方差的一致性檢驗,零假設是分組后的方差為相等的。表中四行是依據不同的統計量得到的檢驗,分別是基于均值、基于中位數、基于中位數與調整后的自由度和基于調整后的均值。由于其P值均大于0.05,不能否定零假設,即可以認為男生和女生的身高的方差是無差異的。9/13/202265莖葉圖從左到右分為三部分:頻數、莖和葉、莖是整數部分,葉是小數部分,Stem width表示莖寬。每行的莖和葉組成的數字再乘以莖寬,即得到實際數據的近似值,實際數據中與該近似值靠近的值的個數即為頻數表示的個數。箱線圖各部分的含義:方箱是箱線圖的主體,上下邊為四分位數,中間
38、粗線為中位數,變量的50%的觀測值落在這一區域中。方箱上下兩條縱向直線是觸須線,觸須線外的兩端線為本體的最大值和最小值。本體指除奇異值外的變量值。奇異值用“o”表出,本例中無奇異值。9/13/202266 4、列聯表分析過程 、主要功能 調用列聯表分析過程可進行計數資料和某些等級資料的列聯表分析,一個行變量和一個列變量可組成一個二維列聯表,如再加一個控制變量則可組成一個三維列聯表。而多個行、列、控制變量就可組成一個復雜的多維列聯表。在分析中可對二維和多維列聯表資料進行統計描述和2檢驗,并計算相應的百分數指標。此外,還可計算四格表確切概率(Fishers Exact Test),且有單雙側(On
39、e-Tail、Two-Tail)、對數似然比檢驗( Likelihood Ratio)以及線性關系的Mantel-Haenszel 2檢驗。9/13/202267交叉列聯表分析統計學上的定義和計算公式 定義:前面的分析都是對單個變量的數據分布情況進行分析。但在實際分析中,還需要掌握多個變量在不同取值情況下的數據分布情況,從而進一步深入分析變量之間的相互影響和關系,這種分析就稱為交叉列聯表分析。9/13/202268 交叉列聯表分析除了列出交叉分組下的頻數分布外,還需要分析兩個變量之間是否具有獨立性或一定的相關性。要獲得變量之間的相關性,僅僅靠頻數分布的數據是不夠的,還需要借助一些變量間相關程度
40、的統計量和一些非參數檢驗的方法。9/13/202269常用的衡量變量間相關程度的統計量是簡單相關系數,但在交叉列聯表分析中,由于行列變量往往不是連續變量,不符合計算簡單相關系數的前提條件。因此需要根據變量的性質,選擇其他的相關系數,如Kendall等級相關系數、Eta值等。9/13/202270SPSS提供了多種適用于品質變量數據的相關系數,這些檢驗的零假設是:行和列變量之間彼此獨立,不存在顯著的相關關系。SPSS將自動給出檢驗的相伴概率,如果相伴概率小于顯著性水平0.05,那么應拒絕零假設,認為行列變量之間彼此相關。9/13/202271計算公式如下(1)卡方統計量檢驗是常用的檢驗行列變量之
41、間是否相關的方法。交叉列聯表的卡方檢驗零假設是:行列變量之間獨立,計算公式為注:其自由度為(行數1)(列數1)。9/13/202272(2)Contingency coefficient:列聯系數。用于名義變量之間的相關系數計算。計算公式由卡方統計量修改而得,公式為 其中,N為有效個案數。(3) Phi相關系數:9/13/202273 (4)Gramers V:V系數。用于名義變量之間的相關系數計算。計算公式由卡方統計量修改而得,公式為 數值界于01之間,其中K為行數和列數較小的實際數。9/13/202274列聯表分析過程、列聯表分析程序 按Analyze-Descriptive Statis
42、tics-Crosstabs 順序打開 Crosstabs 主對話框,見下頁:9/13/202275該框中的變量作為分布表中的行(列)變量,必須是數值型或字符型分類變量。該框中的變量作為控制變量,決定頻數分布表中的層,可有多個控制變量,如要增加新的控制變量,按Next 鍵,要修改以前的變量按Previous 鍵顯示每一組中各變量的分類條形圖只輸出統計量,不輸出多維列聯表。Crosstabs 對話框9/13/202276行和列變量相互獨立的假設檢驗,有多種檢驗法。進行相關系數的檢驗,有兩項結果顯示:Pearson相關系數和 Spearman相關系數適用于定類變量的統計量:基于卡方檢驗基礎上對相關
43、性的檢驗用來描述相關性當用自變量預測因變量時,此系數反映這種預測降低錯誤的比率。顯示不確定系數,表示用一個變量來預測其他變量時降低錯誤的比率適用于定序變量:Gamma系數反映兩個有序變量間的對稱相關性。是Gamma檢驗的非對稱推廣。對有序變量和秩變量相關性的非參數檢驗。與Kendalls tau-c相似適用于定序變量:用于檢驗相關性用于檢驗兩個評估人對同一對象的評估是否具有一致系。檢驗某事件發生和某因子之間的關系進行兩個相關的二值變量的非參數檢驗進行一個二值因素變量和一個二值響應變量的獨立性檢驗。Crosstabs的Statistics 對話框9/13/202277Crosstabs的Cell
44、 Display 對話框選擇在列聯表中輸出的統計量,包括觀測量數、百分比、殘差輸出觀測值的實際數量如果行和列變量在統計上是獨立的或不相關的,那么會在單元格中輸出期望的觀測值的數量。輸出單元格中觀測量的數目占整行全部觀測量數目的百分比輸出單元格中觀測值的數目占整列全部觀測量數目的百分比輸出單元格中觀測量的數目占全部觀測量數目的百分比計算非標準化殘差計算標準化殘差計算調整后殘差9/13/202278Table Format 對話框決定各行的排列順序:各行的排列按升序各行的排列按降序、例題 04-5為了探討吸煙與慢性支氣管炎有無關系,調查了339人,情況如下:吸煙和慢性支氣管炎調查表患慢性支氣管炎未
45、患慢性支氣管炎吸煙43162不吸煙131219/13/202279輸入數據:變量n為采得的數據;變量x為是否吸煙:1為吸煙,2為不吸煙;變量h為是否患病:1為患病,2為不患病。數據文件名為“Crosstab.sav”。在Data菜單中選Weight Cases項,打開Weight Cases對話框。 Weight Cases by,再將變量n選入Frequence Variable 框,單擊OK完成加權。按Analyze-Descriptive Statistics-Crosstabs 順序打開 Crosstabs 主對話框。將x 變量選入Row框作為行變量,將h變量選入Column 框作為列
46、變量。打開Statistics對話框,選中 Chi-square Contingency coefficient和Phi and Cramers V復選框,單擊Continue返回。單擊Cell按鈕,打開Cell display對話框,選中observed和Expected 復選框,單擊Continue返回;單擊OK。(1)操作步驟9/13/202280統計摘要表,列出觀測量有效值個數、缺失值個數和總的個數。 從下頁的列聯表中可看出,吸煙人中患病者有43人,比期望值33.9大,不吸煙人中患病者只有13人,比期望值22.1小。 (2)輸出結果及分析 輸出結果如表:吸煙與患病統計摘要表9/13/2
47、02281吸煙與患病列聯表卡方檢驗9/13/202282卡方檢驗表,從表中可看出,Chi-Square值為7.469,P值為0.0060.05,應否定零假設,即認為吸煙與患慢性支氣管炎是不獨立的。由于使用卡方檢驗要求每個單元格頻數不少于5,當條件不滿足時,還可用Fisher精確檢驗,其雙側檢驗P值為0.007。列聯表中變量之間相關程度測量,主要通過計算品質相關系數進行檢驗。品質相關系數檢驗表9/13/202283第三節 比率分析1. 比率分析的目的和主要指標 比率分析用于對兩變量間變量值比率變化的描述分析,適用于數值型變量。 例如根據04-6各地區保險業務保費收入的數據,分析各地區財產保險業務
48、的保費收入占全部業務保費收入的比例情況。9/13/202284 通常的分析可以生成各個地區財產保險業務的保費收入占全部業務保費收入的比率變量,然后對該比率變量計算基本描述統計量(如均值、中位數、標準差、全距等),進而刻畫比率變量的集中趨勢和離散程度。 SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標,大致也屬于集中趨勢描述指標和離散程度描述指標的范疇,具體包括:9/13/202285(1)加權比率均值(Weighted mean):兩變量均值的比,屬集中趨勢描述指標。(2)AAD(Average Absolute Deviation)平均絕對離差:是對比率變量離散程度的描述,
49、計算公式為: 其中, 是比率數,M是比率變量的中位數,N為樣本數9/13/202286(3)COD(Coefficient of Dispersion)離散系數:也是對比率變量離散程度的描述,計算公式為:(4)PRD(Price-related Differential)相關價格微分:是比率均值與加權比率均值的比,也是比率變量離散程度的描述。9/13/202287(5)COV變異系數:用于對比率變量離散程度的描述,分為基于均值的變異系數(Mean centered COV)和中位數的變異系數(Median centered COV )。前者是通常意義下的變異系數,是標準差除以均值;后者定義為:
50、9/13/2022882. 比率分析的基本步驟(1)選擇菜單AnalyzeDescriptive StatisticsRatio,出現如下窗口9/13/202289(2)將比率變量的分子選擇到Numerator框中,將比率變量的分母選到Denominator框中。(3)如果做不同組間的比率比較,則將分組變量選擇到Group Variable框中。(4)單擊Statistics按鈕指定輸出哪些關于比率的描述統計量,出現如下窗口:至此,SPSS將自動計算比率變量,并將相關指標輸出到輸出窗口中。9/13/202290第四節 Means過程一、 Means過程 該過程實際上更傾向于對樣本進行描述,可以
51、對需要比較的各組數據計算描述指標,包括均值、標準差、總和、觀測量數、方差等一系列單變量統計量。二、完全窗口分析 按AnalyzeCompare MeansMeans順序,打開Means主對話框(如圖4-1)。9/13/202291圖41 Means主對話框該框的變量為因變量,即用于分析的變量。該框的變量為自變量,必須至少有一個變量單擊此按鈕,進入下一層,返回則按Previous按鈕。見圖429/13/202292Statistics框:供選擇的統計量Statistics for First Layer復選框:Anova table and eta: 進行分組變量的單因素方差分析并計算eta 統
52、計量。Test for linearity:產生因變量與第一層自變量的R和R2。 圖42 Options 對話框Cell Statistics框: 選入的描述統計量,默認為均值、樣本數、標準差。9/13/202293三、04-7例題分析 某醫生測得如下血紅蛋白值(g%),用Means過程對其做基本的描述統計分析。表5-1血紅蛋白值(g%)編號性別年齡血紅蛋白值hb編號性別年齡血紅蛋白值hb編號性別年齡血紅蛋白值hb111813.661511610.88291167.88211810.57161189.653011812.35311612.56172168.363111613.6542179.8
53、71811811.66322169.8752178.99192188.543321810.09621711.35202177.783421812.55711714.562121611.363511816.04811612.402211612.783611813.7892168.052311815.093711711.671011814.03242188.673811710.981121812.83252178.56392168.781211615.502621812.564011611.351321812.252721711.561421710.062811614.679/13/2022941
54、、操作步驟 1) 打開數據文件“血紅蛋白.sav” 。2)按順序Analyze Compare Means Means打開主對話框(設置見圖4-3)。3)單擊Option, 打開Options對話框,選擇統計量(設置見圖4-5)。4)單擊OK完成。9/13/202295選hb選sex按Next,進入layer 2of 2,選age圖43 在主對話框選送變量圖44 第二層變量框9/13/202296選擇統計量按此按鈕復選此2項,對第一層次分組數據進行方差分析和線性檢驗圖45 Options對話框9/13/202297表418 個案概要表 表418 是個案概要表,個案總個數為40,其中有效值為40
55、個、無效值為0。2. 結果及分析9/13/202298表419 分組描述統計量 表419 分三部分:第一、二部分先按性別分組,再按年齡分組計算觀測值合計、均數、標準差、方差和個數;第三部分只按年齡分組,最后一行為合計。9/13/202299表421 按年齡分組的描述統計量表420 按性別分組的描述性統計量 血紅蛋白* 性別 血紅蛋白* 年齡 表420、21是將sex和age一起放在layer 1of 1中,分別計算男、女(不作年齡分組)。年齡分三組(不作性別分組)的觀測值合計、均數、標準差、方差和個數。9/13/2022100表422 方差分析表 表422是方差分析表,共6列:第一列方差來源:
56、組間的、組內的、總的方差;第二列為平方和;第三列為自由度;第四列為均方;第五列為F值;第六列為 F 統計量的P值,P值小于0.05,所以性別對血紅蛋白值有顯著影響。9/13/2022101表423 eta統計量 表423是eta統計量表,統計量表明因變量和自變量之間聯系的強度,0.567的值處于中等水平,2是因變量中不同組間差異所解釋的方差比,是組間平方和與總平方和之比,即由64.5256除以 200.787得到。9/13/2022102表424 按年齡分組的方差分析表 表424是將年齡作為第一層自變量得到的方差分析表,Linearity是假設因變量均值是第一層自變量值的線性函數,Deviat
57、ion from Linearity是不能由線性模型解釋的部分。9/13/2022103表425 按年齡分組的eta統計量表425是將年齡作為第一層自變量得到的eta統計量表,R和R2測度線性擬合優度,R是觀測值與預測值之間的相關系數。9/13/2022104第五節 多選項分析(頻數分析和交叉分析)多選項問題的概念:多選項問題是根據實際調查的需要,要求被調查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領域對某事物評價的研究中常常遇到這樣的問題。可以選多個,分為限選和不限選:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作
58、的頻數或頻率。不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調查家庭擁有各種電器的頻數或頻率。9/13/20221051. 多選項問題的分解多選項問題的分解通常有兩種方法:多選項二分法;多選項分類法。多選項二分法及其編碼(multiple dichotomies method):多選項二分法是將多選項問題中的每一個答案設為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只有表明“是”和“否”的兩個代碼0或1。編號 調查內容 選 項 1 您喜歡紅色嗎 是 否 2 您喜歡橙色嗎 是 否 3 您喜歡黃色嗎 是 否 4 您喜歡綠色嗎 是 否 5 您喜歡青色嗎 是 否 6 您喜歡藍色嗎 是 否 7 您喜歡紫色嗎 是 否 8 您喜歡黑色嗎 是 否 9 您喜歡白色嗎 是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論