




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 數據預處理和描述性分析 本章內容第一節 異常值和缺失值的處理第二節 信度與效度分析第三節 描述性分析第一節 異常值和缺失值的處理 一、異常值的檢驗和處理 (一)異常值的檢驗 一批數據中,有部分數據與其他數據相比明顯不一致的稱為異常值,或稱離群值。如果數據中混進了異常值,就會使相應分析誤差增大。因此,在利用數據進行分析之前,有必要對異常數據進行檢驗并做相應處理,以便于發現具有普遍性的規律。 SPSS中Explore過程主要用于對資料的性質、分布特點等完全不清楚時的一種檢驗,故又稱之為探索性分析,對于異常值的檢驗具有很好的作用。1、探究分析的作用 (1)考察數據的奇異性。過大或過小的數據均
2、有可能是異常值、影響點或是錯誤輸入的數據。對于這樣的數據第一要找出,第二要分析原因,第三要決定是否對這些數據進行處理。 (2)檢查數據分布特征。許多分析方法對數據的分布有一定要求,例如要求樣本來自正態分布總體,從實驗或實際測量得到的數據是否符合正態分布的規律,決定了它們是否可以選用只對正態分布數據適用的分析方法。 (3)考查方差齊性。另外對若干組數據均值差異性的分析需要根據其方差是否相等,選擇進行檢驗的計算公式。2、探索分析提供的考查方法(1)箱圖:是對任何分布的數據的整體描述。其中: 矩陣框是箱圖的主體,上中下三條線分別表示變量的第75、50、25百分位數。 中間的縱向直線稱觸須線,上截止截
3、線是變量值本體最大值,下截止截線是變量值本體最小值。除異常值和極值以外的變量值成為本體值。 異常值所使用的標記為“0” 。 極值所使用標記為“*”。 (2)莖葉圖:能直觀地描述數據的頻數分布。莖葉圖自左至右分為三大部分:頻數、莖、葉。莖表示數值的整數部分,葉表示數值的小數部分。每行的莖和每個葉組成的數字相加再乘以莖寬,即莖葉所表示實際數據的近似值。 (3)正態性檢驗:除偏度、峰度統計量外,SPSS還提供以下兩種方法進行正態性檢驗: 常用的觀測量數據的正態分布檢驗的方法是Q-Q圖,后面的章節會加以介紹。 Lillifors統計量檢驗法可以在方差與均值未知的情況下直接使用,它是對Kolmogoro
4、v-Smirnov統計量的修正。(4)方差齊性檢驗 在進行均值多組間比較時,要求各組的方差相同,所以要進行方差齊性檢驗,例如常用的方差分析就要求分組樣本的數據來自方差相同的正態總體。另外,在進行獨立樣本T檢驗之前也要事先進行方差齊性檢驗。具體內容請見第六章。3、探索分析過程在SPSS中的實現 (1)建立或打開了數據文件后,按從“Analyze” “Descriptive Statistics”“Explore”,進入Explore對話框。見圖4-1所示。 圖4-1 數據探索對話框 (2)從源變量中,選擇若干個數值型變量作為因變量送入Dependent框中。 (3)指定分組變量。在源變量框中選擇
5、一個或多個分組變量進入Factor框中。 (4)選擇標識變量。在源變量表中指定一個變量作為觀測量的標識變量,送入Label Cases by框中。 (5)Display欄,確定輸出項。其中:Both選項表示輸出圖形以及描述統計量,Statistics選項表示只輸出描述統計量。Plots選項表示只輸出圖形。(6)單擊Statistics按鈕,打開如圖4-2所示的對話框,選擇描述統計量。其中:圖4-2 選擇描述性統計量的對話框 Descriptive復選項,要求輸出基本描述統計量,包括平均數、中位數、眾數、5%的調整平均值、標準誤、方差、標準差、最大值、最小值、范圍、等距四分位數、峰度與偏度、峰度
6、與偏度的標準誤。在Confidence intervals for mean框中設置均值的置信區間。 M-estimators復選項,要求輸入集中趨勢最大似然比的穩健估計。 Outliers復選項,要求輸出5個最大值與最小值,在輸出窗口中它們被標明為極端值。 Percentiles復選項,要求輸出第5、10、25、50、75、90以及95百分位數。 (7)展開Plots對話框,見圖4-3所示,選擇統計圖形及其參數。圖4-3 統計圖對話框 Boxplots單選項組:確定箱式圖的繪制方式,可以是按組別分組繪制(Factor levels together),也可以不分組一起繪制(Depentend
7、s together),或者不繪制(None)。 Descriptive復選項組:可以選擇繪制莖葉圖(Stem-and-leaf)和直方圖(Histogram)。 Normality plots with test選項:繪制正態分布圖并進行變量是否符合正態分布的檢驗。 Spread vs. Level with Levene Test單選項組:當選擇了分組變量時,對所有的散布/層次圖來說,同時輸出回歸直線斜率以及方差齊性的Levenes檢驗結果。如果選擇了Transformed轉換選項,將依據轉換后的數據計算。(8)單擊Options按鈕,彈出如圖4-4所示的對話框 圖4-4 選擇對話框圖4-
8、4中: Exclude cases listwise表示分析過程中,剔除帶有缺失值的觀測量; Exclude cases pairwise表示分析過程中,成對剔除有缺失值的觀測量; Report values表示分組變量中的缺失值將被單獨分為一組。輸出頻數表時也包括缺失組。(二)異常值的處理 1、刪除法。如果樣本充分大,刪除異常值后對整個結論沒有影響,這種方法不失為一種簡單可行的方法。但如果樣本數量本身有限,刪除異常值后,樣本本身的代表性值得懷疑,也就會影響研究結論。 2、替代法,就是用正常數據區間的端點來替代異常數據。如果某項數據服從正態分布,運用“拉依達準則(3準則)”來進行異常值的檢驗;
9、如果某項指標不符合正態分布,就用 “五數概括法”來進行異常值的檢驗。二、缺失值的分類和處理 (一)缺失值的分類 缺失值是指現有數據集中某個或某些屬性的值是不完全的。缺失值分為幾下幾種: 1、從缺失的原因來講分為機械原因和人為原因。 2、從缺失的分布來講可以分為完全隨機缺失(MCAR) ,隨機缺失(MAR)和系統缺失(systematic missing) 。 (二)缺失值的處理 1、刪除法 當采集到的數據量很大時,可以將數據缺失的樣本刪除。刪除法又分為表列刪除法和配對刪除法。 (1)表列刪除法,是將數據缺失的受訪者的所有資料全部刪除的方法,不管受訪者缺失數據的數量,只要一項遺漏,則該受訪者全部
10、資料均被刪除,以保證進行運行的所有受訪者數據都是完整的。這種方法只有當觀測的樣本數據量足夠或數據缺失時,不會因刪除導致參數的有效估計時,才可采用。 (2)配對刪除法,是只在需要用缺失或遺漏值進行分析時,才被刪除,其他信息仍然被使用的方法。 配對刪除法相對于表列刪除法,觀測樣本數量不會因刪除而減少過多,同時信息利用較為充分。但同時也帶來以下方面的問題:一是不一致性;二是假設檢驗產生問題;三是導致產生系統性偏差; 四是導致以 統計量為基礎的各種指數產生偏差; 五是必須假定所有缺失都是MCAR類型。 2.替代法 替代法是設法為缺失值尋找合適的替代值,將其插補到缺失值的位置,而進行計算的方法,它的思想
11、來源是以最可能的值來插補缺失值比全部刪除不完全樣本所產生的信息丟失要少。 (1)平均數替代:平均數替代是以變量中有效值的平均數替代缺失值的方法。 (2)回歸估計替代:回歸估計替代是用回歸模型的估計值替代缺失值的方法。 (3)Cold deck替代:Cold deck替代不是利用獲取的數據本身,而是利用外在資源或以往研究結果作為缺失值的替代值。 (4)個例替代:是通過尋找樣本以外、與其類似的觀察案例,以其取值替代缺失值的方法。 (5)多元替代:將幾種方法組合,如取幾種替代值的平均值替代缺失,這就是多元替代。 (6)形態匹配替代:是在已經采集的數據中,尋找與缺失值類似的另一例,即相匹配的個例,以其
12、取值作為替代值的方法。第二節 信度與效度分析一、信度分析(一)信度的定義 信度(reliability)是指測量結果具有一致性或穩定性的程度,對于同一個人在不同時間,以相同的測量工具進行測量,如果兩次測量結果一致,表明測量結果具有穩定性、可靠性。一致性越高,信度越高。一致性的程度也是相對的,誤差越小,信度越高。信度主要檢測所收集數據的可靠性。(二)信度的衡量方法測量中通常有兩類誤差發生,即系統誤差和隨機誤差。測量的結果可以表示為: 信度可以定義為 這時,信度表示成一種變差的比例,即相關系數的平方,或如式 信度度量的具體方法有: 1、再測信度,采用同一個問卷在同一人群中先后測量兩次,評價兩次測量
13、的相關性。 2、復本信度,是在一個測量中采用兩個或兩個以上的復本來對同一群研究對象進行測量時所得到的結果的一致性程度。 3、折半信度,是指只用一個測量工具對同一組受試者實施一次測量,但將奇數題和偶數題分開計分,再計算奇數題和偶數題分數之間的相關系數。 4、內部一致性信度,問卷對每個概念的測量往往都要用一系列的條目,因而根據這些條目之間的相關性可以評價信度。 5、評分者信度,是由調查者給被測者打分或評定等級,則這種測量的可靠性主要取決于調查者評分的一致性和穩定性。(三)信度度量方法在SPSS軟件中的實現表4-6信度測量調用過程表測量方法調用過程分析結果再測信度AnalyzeScaleReliab
14、ility StatisticsIntraclass correlation co-efficient選項內部相關ICC系數(測量變量為連續變量和等級變量)AnalyzeDescriptive statistics CrosstabsKappa選項Kappa系數(測量變量為分類變量)復本信度AnalyzeCorrelationbivariate根據需要可選擇Pearson、Kendalls tau-b和Spearman選項Spearson相關系數、Kendall等級相關系數和Spearman等級相關系數續表4-6信度測量調用過程表測量方法調用過程分析結果折半信度Analyze Scale Re
15、liabilityModel中Split-half選項Spearman-Brown系數、Guttman Split-Half系數內部一致性信度Analyze Scale Reliabilitymodel 中Alpha選項Cronbachs Alpha系數評分者信度Analyze Scale ReliabilityStatistics中Friedman chi-square選項Kendall和諧系數Analyze Correlation bivariate根據需要可選擇Pearson、Kendalls tau-b和Spearman選項Spearson相關系數、Kendall等級相關系數、Spea
16、rman等級相關系數二、效度分析(一)效度的定義 效度(validity)是指測量工具能夠正確測量出所要測量問題的程度。效度越高表示測量結果越能顯示出所要測量對象的真正特征。 信度與效度的關系為:信度僅考慮測量結果是否一致,不涉及結果是否正確;效度是針對測量目的,考察測量的有效程度。測量結果要有效是前提,在有效的前提下再考慮測量的精確性,因為可信不一定有效。(二)效度衡量的具體方法 效度表示測量工具能夠測出其所要測量的特征的正確性,通常采用效度系數來衡量。效度系數一般規定為與測量目標值的方差在總測量值方差中所占的比例,即效度系數為:其中 , 是想要測量的目標值,則是與測量目的不相關的系統性偏差
17、。效度度量的具體方法 1、表面效度,是指測量結果與人們頭腦中的印象或學術界形成的共識的吻合程度,如果吻合度高,則表面效度高。 2、內容效度,是指測量內容的適合性和相符性,即測量所選題目是否符合測量目的和要求。 3、效標效度,是指測量結果與一些能夠精確表示被測概念的標準之間的一致性程度。 4、結構效度,指問卷所能衡量到理論上期望的特征的程度,即問卷所要測量的概念能顯示出科學的意義并符合理論上的設想。 (三)效度測量在SPSS軟件中的實現 在SPSS統計分析軟件中沒有專門的效度分析模塊,表面效度和內容效度屬于主觀指標,一般采取專家評價法。效標效度和結構效度可以通過Analyze菜單進行分析,其調用
18、過程見表4-7所示。 表4-7 效度測量調用過程表測量方法調用過程分析結果效標效度Analyze Correlation bivariate根據需要可選擇Pearson、Kendalls tau-b和Spearman選項Spearson 相關系數(測量變量為連續變量)、Kendall或Spearman等級相關系數(測量變量為分類變量)結構效度Analyze Data Reduction Factor(一般在Extraction和Rota-tion選項下選擇Principal components和Varimax進行主成分極大方差旋轉因子分析法)公共因子的累積方差貢獻率、公因子方差值、每個條目公
19、共因子負荷值等第三節 描述性分析一、描述性分析概述 (一)描述性分析的作用 描述性分析的目的通常不是對研究假設的檢驗,而是為了說明樣本選擇的適當性,因此人們常常稱之為有效性測試。有效性測試通常包括檢驗樣本數據的代表性、對照數據的匹配性以及樣本數據結構與理論推測的一致性。在某些研究中,作者也借助于描述性統計對預期結果作一些輔助性觀察,作為對預期假設支持或否定的部分證據。有時,描述性統計也為調整樣本數據分布提供依據。 (二)基本描述統計量 1、頻數、百分比 計算變量的頻數和百分比就是計算變量在某個變量值上取值的個案數,以及占總個案數的比例。 2、集中趨勢 集中趨勢是對頻數分布資料的集中狀況和平均水
20、平的綜合測度。包括算術平均數,眾數和中位數。 3、離散程度 離散程度是對頻數分布的差異程度的度量,用來衡量集中趨勢數值的代表性,或者反映變量值的穩定性和均衡性。包括標準差,分位值等等。 4、分布 分布是說明數據分布與標準正態分布的吻合程度。包括峰度和偏度。 5、統計圖形 統計圖是一種最為直接的數據刻畫方式,它無疑能夠非常清晰直觀地展示變量的取值狀況。常用的圖形有:條形圖、直方圖等。 二、頻數分布表分析(一)概述 頻數分布表是描述性統計中最常用的方法之一,Frequencies 過程就是專門為產生頻數表而設計的。它不僅可以產生詳細的頻數表,還可以按要求給出某百分位點的數值,以及常用的條圖、圓圖等
21、統計圖。對于頻率報告和條形圖,可以用升序或降序排列不同的值,也可以按其頻率對類別進行排序。當變量具有許多不相同的值時,可提取頻率報告。(二)頻數分布分析過程在SPSS中的實現1、建立或打開了數據文件后,按Analyze Descriptive StatisticsFrequencies,打開如圖4-8所示的對話框。圖4-8 頻數分布主對話框 2、在源變量框中選擇一個或多個變量,送入Variable(s)框中。 3、選中Display frequency tables,要求輸出頻數分布表。 4、單擊Statistics按鈕,打開相應對話框,見圖4-9所示。圖4-9 輸出統計量對話框(1)Perc
22、entile Values欄,指定百分位數。 Quartiles復選項,輸出四分位數。 Cut points for equal groups復選項,輸出等分點的百分位數。 Percentile(s)復選項,自定義百分位數。 (2)Central Tendency欄,指定集中趨勢統計量。包括Mean(均值)、Median(中位數)、Mode(眾數)和Sun(所有值的總和)。如果中位數與眾數相差很大,說明觀測量中存在異常值。 (3)Dispersion欄,離散程度統計量欄。包括Std.Deviation(標準差)、Variance(方差)、Range(全距)、Minimum(最小值)、Maxim
23、um(最大值)和S.E.mean(均值標準誤)。 (4)Distribution欄,檢查數據的正態性。包括Skewness(偏度)和Kurtosis(峰度)。 (5)Values are group midpoints項,在接受百分位數值和中位數時,假設數據已經分組,用各組的組中值代表各組數據。 5、單擊Charts按鈕,展開Frequencies: Charts對話框,見圖4-10。圖4-10 圖形參數選擇對話框 (1)Chart Type欄,選擇圖形類型。 None,不選擇作圖; Bar charts,輸出條形圖。適用于分類變量。 Pie charts,輸出餅圖。適用于分類變量。 Histogram,輸出直方圖。適用于連續的數值型變量。 (2)Chart Value欄,在選擇了條形圖和餅圖后生效。 Frequencies,條形圖縱軸表示頻數,餅圖的每塊表示屬于該組的觀測量頻數。 Percentages, 條形圖縱軸表示百分比,餅圖的每塊表示該組觀測量數占總數的百分比。 6、單擊Format按鈕,打開如圖4-11所示的對話框。在對話框中設置頻數表輸出格式圖4-11 頻數分布表格式對話框 (1)Order by欄,設置頻數表順序,在選擇了Display
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家長會教師心得體會分享
- 2025-2030中國多肽藥物行業市場深度調研及發展趨勢與投資前景預測研究報告
- 2025-2030中國多功能氣候室行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國復方肝浸膏糖漿行業市場發展分析及前景趨勢與投資研究報告
- 2025-2030中國壬基酚乙氧基化物行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國地下變壓器行業市場深度調研及發展趨勢和前景預測研究報告
- 2025-2030中國同意管理平臺(CMP)軟件行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國可降解塑料行業發展趨勢與前景展望戰略研究報告
- 2025-2030中國可持續紙行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國去角質潔面乳行業市場發展趨勢與前景展望戰略研究報告
- 虛擬資產安全管理制度
- 2025年高考地理二輪復習:綜合題答題技巧(含練習題及答案)
- 保險基礎知識教學課件
- 2025年中考英語三輪復習之選詞填空
- 護理科研課程分享
- 2025 屆高三部分重點中學3月聯合測評(T8聯考)英語試題答案
- 2025陜煤集團榆林化學有限責任公司招聘(137人)筆試參考題庫附帶答案詳解
- 衢州2025年浙江衢州龍游縣綜合事業單位招聘43人筆試歷年參考題庫附帶答案詳解
- 測繪成果質量管理制度(一)
- 小學英語名詞單數變復數的語法規則及練習題含答案
- NB-T+10110-2018風力發電場技術監督導則
評論
0/150
提交評論