第2講(SPSS入門)-3自學部分_第1頁
第2講(SPSS入門)-3自學部分_第2頁
第2講(SPSS入門)-3自學部分_第3頁
第2講(SPSS入門)-3自學部分_第4頁
第2講(SPSS入門)-3自學部分_第5頁
已閱讀5頁,還剩96頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

預測理論與方法授課教師:楊小寶副教授北京交通大學2012.112023/2/3第2講SPSS入門-自學章節2.2.3SPSS數據的錄入、編輯2.2.6SPSS數據文件合并2.3.7數據預處理的其它功能2.4.4多選項分析2.4.5比率分析2.4.6探索性分析SPSS數據的錄入(與Excel類似,自學)

SPSS數據的編輯(與Excel類似,自學)

SPSS數據的定位

插入和刪除一條個案

插入和刪除一個變量

數據的移動、復制和刪除2.2.3SPSS數據的錄入、編輯1)錄入定義好SPSS數據結構后,可將具體的數據輸入到SPSS中,最終形成SPSS數據文件。SPSS數據的錄入操作在數據編輯窗口中的數據視圖(DataView)卡片中實現。其操作方法與EXCEL基本類似,也是以電子表格的方式進行錄入。錄入帶有變量值標簽的數據時,可以在下拉按鈕中的值標簽列表中選擇一個作為輸入。2)SPSS數據的編輯

數據必須輸入正確才能保證正確的分析結果。但很難一次輸入正確,所以就需要進行修改,一般包括數據的定位、插入、刪除、修改、復制等。2a)SPSS數據的定位

數據的定位目的是將當前數據單元定位到某個特定的單元中。有三種定位方式:

1、按個案號碼定位:將當前單元格定位在任何單元格中,選擇菜單編輯(Edit)轉至個案(GotoCase),出現如下對話框,輸入欲定位的個案號碼并確認。2.按變量號碼定位:編輯(Edit)轉至變量(GotoVariable)

3、按變量值定位:編輯Edit查找Find將當前單元定位在某變量列的任何一個個案上選擇菜單編輯Edit查找Find,出現如下對話框輸入定位變量值并確認于是,SPSS自動對指定的變量進行搜索,并將當前單元定位于定位變量值相等的第一個個案上。2b)插入和刪除一個個案插入一個個案,即在數據編輯窗口的某個個案前插入一個新個案:將當前數據單元確定在一個個案上,選擇菜單編輯Edit插入個案InsertCase(或工具欄插入個案圖標按鈕)

刪除一個個案,在欲刪除的個案號碼上單擊鼠標左鍵,于是待刪除的個案數據全部反向顯示;單擊鼠標右鍵,從彈出菜單中選擇清除cut選項。2c)插入和刪除一個變量插入一個變量,即在數據編輯窗口的某個變量前插入一個新變量:將當前數據單元確定在一個變量上,選擇菜單菜單編輯Edit插入變量InsertVariable刪除一個變量,在欲刪除的變量名上單擊鼠標左鍵,于是待刪除的數據全部反向顯示;單擊鼠標右鍵,從彈出菜單中選擇清除cut選項。2d)數據的移動、復制和刪除

數據的移動、復制和刪除:與一般的應用程序相同選擇操作對象(變量、個案、若干連續單元等)剪切:Edit+Cut(Ctrl+X)復制:Edit+Copy(Ctrl+C)粘貼:Edit+Paste(Ctrl+V)

恢復刪除或修改前數據Edit+Undo(或工具欄Undo圖標按鈕)縱向合并數據文件橫向合并數據文件2.2.6SPSS數據文件合并

當數據量較多時經常會把一份大的數據分成幾個小的部分,有幾個錄入員分別錄入,以期加快數據錄入速度,但一份完整的數據被分別存儲在幾個數據文件中,如果要分析這份數據就必須首先將若干個小的數據文件合并起來。要實現兩個或多個SPSS數據文件的合并,應首先將其中的某個數據文件讀入數據編輯窗口中,然后依次與其他數據文件合并。合并的方式有兩種:縱向合并和橫向合并。1)縱向合并數據文件從外部數據文件中增加個案到當前數據文件中,稱為縱向合并,相互合并的數據文件應該有相同的變量。步驟:打開一個數據文件;菜單:數據Data合并文件MergeFiles添加個案AddCases在彈出窗口中打開一個存在于磁盤上的需要縱合并的文件不同名變量同名變量注意:有變量的Pair(配對)問題,右邊的新的活動數據集中的變量VariablesInnewworkingdatafile框中顯示的變量名是兩個數據文件中都有的變量名,左邊的非成對變量UnpairedVariables框中的變量名是兩個文件中的不同變量名,其中變量名后面的*表示該變量是當前數據編輯窗口中的變量,+表示該變量是待合并文件中的變量。如果希望在合并后的數據文件中看出個案的來源,可以選擇將個案源表示為變量Indicatecasesourceasvariable項將自動生成一個變量名為source01取值0或1的變量。可選擇其中的兩個變量名并單擊對pair按鈕指定配對,表示雖名稱不同但數據含義是相同,可合并的數據;也可指定某變量,不經匹配,強行合并。匹配合并后的數據結果2)橫向合并數據文件從外部數據文件增加變量到當前數據文件,稱為橫向合并,橫向合并文件時要注意以下三個問題:1、相互合并的數據文件必須至少有一個名稱相同的變量,該變量是兩文件橫向合作的依據,稱為關鍵變量;2、兩個數據文件都必須先按關鍵變量進行升序排列;3、不同數據文件中數據含義不相同的數據項變量名不應相同。步驟:打開一個數據文件;菜單:數據Data合并文件MergeFiles添加變量AddVariables在彈出窗口中打開一個存在于磁盤上的需要橫向合并的文件橫向合并后的數據結果計數數據轉置加權處理SPSS缺失值處理數據排秩SPSS變量集2.3.7數據預處理的其它功能(自學)1)計數目的2)計數區間3)計數的基本操作4)計數的應用舉例1.計數1)計數目的SPSS實現的計數是對所有個案或滿足某條件的部分個案,計算若干變量中有幾個變量的值落在指定的區間內,并將計數結果存入一個新變量中的過程。例如對大學畢業班學生的成績進行綜合測評時,可以依次計算每個學生的若干門課程中有幾門課程得了優,有幾門課程得了良,有幾門課程不及格。SPSS實現計數的關鍵步驟是:指定哪些變量參與計數,計數的結果存入哪個新變量中指定計數區間(尤為關鍵)SPSS中的計數區間可以有以下幾種描述形式:單個變量值(Value)系統缺失值(System-missing)系統缺失值或用戶缺失值(Systemoruser-missing)給定最大值和最小值的區間(nthroughm)小于等于某指定值的區間(Lowestthroughn)大于等于某指定值的區間(nthroughhighest)2)計數區間(1)選擇菜單轉換Transform對個案內的值計數Count,出現如下窗口:3)計數的基本操作居民儲蓄調查數據.sav(2)將參與計數的變量選到

變量(V)NumericVariables框中(3)在目標變量TargetVariable框中輸入存放計數結果的變量名,并在目標標簽TargetLabel框中輸入相應的變量名標簽。(4)單擊定義值DefineValues按鈕定義計數區間,出現如下圖窗口:通過單擊添加Add、更改Change、刪除Remove按鈕完成計數區間的增加、修改和刪除。(5)如果僅希望對滿足某條件的個案進行計數,則單擊如果If按鈕并輸入相應的SPSS條件表達式。否則,本步可略去。居民儲蓄調查數據.sav利用居民儲蓄調查數據分析近些年儲戶收入的總體狀況。我們認為如果儲戶收入今年比去年增加了,且認為今后收入仍會增加則認為收入狀況較好。試分析有多少個儲戶的收入狀況較好。收入情況為順序數據,其中1表示增加,2表示基本不變,3表示減少。4)計數的應用舉例思路:從兩個變量中分別選出其值為1,即收入增加的,計數為1。若兩變量都為1,則計數為2結果居民儲蓄調查數據.savSPSS的數據轉置就是將數據編輯窗口中數據的行列互換。基本操作步驟如下:

(1)選擇菜單數據Data轉置Transpose。

(2)指定數據轉置后應保留哪些變量,將它們選入變量Variables框中,未被選中的變量將在新文件中缺失。

(3)指定轉置后數據文件中各變量如何取名。2.數據轉置

應選擇一個取值唯一的變量(如職工號)作為標記變量并放到名稱變量NameVariable框中。轉置后數據各變量取名為K_標記變量值(如K_001、K_002、K_003等)。如果略去本步,則轉置后數據各變量名默認為VAR00001,VAR00002,VAR00003等。同時,SPSS還會自動產生一個名為Case_lbl的新變量,用來存放原數據文件中的各變量名。注:字符串數據不能轉置數據加工(職工數據).sav應用舉例結果3)加權處理統計分析中的加權處理是極為常見的,如計算加權平均數等。例如,希望掌握菜市場某天蔬菜銷售的平均價格。如果僅用各種蔬菜銷售單價的平均數作為平均價格就很不合理,還應考慮到銷售量對平均價格的影響。因此,以蔬菜的銷售量為權數計算各種蔬菜銷售單價的加權平均數,就能夠較準確地反應平均價格水平。SPSS中指定加權變量的操作步驟是:

(1)選擇菜單數據Data加權個案WeightCases。

(2)選擇加權個案WeightCasesby選項,并將某變量作為加權變量選到WeightCasesby框中。注意的是一旦指定了加權變量,那么以后的分析處理中加權是一直有效的,直到取消加權為止。取消加權應選擇請勿對個案加權Donotweightcases選項。

大量的缺失值會給數據分析帶來極大的影響,這就需要采用科學的方法對缺失值進行插補。操作步驟如下:

(1)選擇菜單轉置Transform替換缺失值replacemissingvalues。(2)將需要插補的變量單擊按鈕送到新變量NewVariables框中,該變量自動會生成一個新的變量,變量名為原變量名_13)在方法Method中選擇插補方法。

4)SPSS缺失值處理Seriesmean:該變量所有非缺失值的均值Meanofnearbypoints:該變量相鄰非缺失值的均值Medianofnearbypoints:該變量相鄰非缺失值的中位數Linearinterpolation:線性內插法(用缺失值前后兩點的中點值做替代,如果前后值有一個是缺失值,則得不到替換值)Lineartrendatpoint:用線性擬合方式確定替代值,自變量為1-n的數值。

結果數據排秩是根據某變量觀測值的大小,按一定的順序排秩,生成一個代表其秩次的新變量,但原始觀測值本身順序不發生改變。操作步驟如下:

(1)選擇菜單轉置Transform個案排秩rankcases(2)將需要排秩的變量單擊按鈕送到變量Variables框中,該變量自動會生成一個新的變量,變量名為R+原變量名;可選擇分類變量到排序標準By框中,如果選擇,系統將按照此變量的不同組別分別進行排秩。5)數據排秩(3)選擇將秩指定給AssignRank1to下面的復選框選擇排秩的順序。(4)在秩的類型RankTypes對話框中選擇排秩方式;在結Ties對話框中選擇相同觀測值排秩方式。

秩結果=(N+1)/2數據加工(職工數據).sav應用舉例實際統計分析中SPSS數據編輯窗口的變量會有幾十甚至上百個,此時簡化變量選擇的操作變顯得非常必要,SPSS變量集變是一種通過減少變量顯示個數而簡化變量選擇操作的方式。6)SPSS變量集SPSS變量集是存放許多SPSS變量名的集合。SPSS變量集包括系統變量集和用戶變量集兩大類。系統變量集用戶變量集系統變量集

SPSS事先定義好的的變量集,它包括兩個集合,分別名為ALLVARIABLES和NEWVARIABLES。其中ALLVARIABLES變量集中存放數據編輯窗口中的所有變量名,NEWVARIABLES變量集中存放數據編輯窗口中所有尚未存盤的新定義的變量名。這兩個系統變量集有時包含的變量名是完全相同的。用戶變量集是用戶根據實際需要自己定義的變量集,可以有若干個。如果用戶僅希望對SPSS眾多變量中的某幾個變量進行相同的處理及分析,則可以先將這幾個變量定義到一個用戶變量集中,然后再指定使用這個變量集。于是,在數據處理或分析時,SPSS僅顯示指定變量集中的變量名,進而大大減少了顯示變量的個數,加快了變量選擇的操作速度。1、定義用戶變量集

SPSS定義用戶變量集的操作步驟如下:(1)選擇菜單實用程序Utilities定義變量集DefineSets(2)在設置名稱SetName框中輸入用戶變量集的名稱。(3)選擇若干變量單擊小箭頭按鈕將它們送到集合中的變量VariablesinSet框中,表示用戶變量集將包含這些變量。(4)單擊添加集合AddSet按鈕將定義的用戶變量集加到SPSS變量集中。更改集合ChangeSet按鈕可對已定義的用戶變量集做修改。刪除集合RemoveSet按鈕可從SPSS變量集中刪去某個用戶變量集。2、變量集的使用

SPSS有許多變量集,用戶應告知將使用哪個變量集。系統默認使用的變量集是系統變量集。使用SPSS變量集的基本操作步驟如下:(1)選擇菜單實用程序Utilities使用變量集UseSets(2)單擊小箭頭按鈕將需使用的變量集選到選擇應用的變量集SetinUse框中。還可將不需使用的變量集從SetinUse框中剔出。需要說明的是,在SPSS運行過程中應至少有一個變量集正在被使用,因此在SetinUse框中應至少有一個變量集。結果:現在只包含6個變量居民儲蓄調查數據.sav2.4.4多選項分析多選項分析的目的多選項分析的基本操作多選項分析的應用舉例1)多選項分析的目的多選項問題的概念:多選項問題是根據實際調查的需要,要求被調查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領域對某事物評價的研究中常常遇到這樣的問題。可以選多個,分為限選和不限選多選項問題分析的一般步驟第一,將多選項問題分解第二,利用前面講到的頻數分析或交叉分組下的頻數分析等方法進行分析。一、多選項問題的分解分解原因:對一個多選項問題僅設置一個SPSS變量在數據處理和分析中是行不通的。解決思路:將問卷中的一道多選項問題分解成若干個問題,對應設置若干個SPSS變量,分別存放描述這些問題的幾個可能被選擇的答案。分解的兩種方法:多選項二分法(MultipleDichotomiesMethod)和多選項分類法(MultipleCategoryMethod)。多選項二分法多選項二分法是將多選項問題中的每一個答案設為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只能有表明“是”和“否”的兩個代碼0或者1。編號調查內容選項

1您喜歡紅色嗎□是□否

2您喜歡橙色嗎□是□否

3您喜歡黃色嗎□是□否

4您喜歡綠色嗎□是□否

5您喜歡青色嗎□是□否

6您喜歡藍色嗎□是□否

7您喜歡紫色嗎□是□否

8您喜歡黑色嗎□是□否

9您喜歡白色嗎□是□否二分法的編碼在建立數據文件時,變量名使用相同的變量主名,后面加以不同序號組成,本組問題的9個變量名可以是color1-color9。而答案的編碼規則為:回答“是”變量值為1,回答“否”變量值為0,其他值為缺失值。編號調查內容選項

1您喜歡紅色嗎□是□否

2您喜歡橙色嗎□是□否

3您喜歡黃色嗎□是□否

4您喜歡綠色嗎□是□否

5您喜歡青色嗎□是□否

6您喜歡藍色嗎□是□否

7您喜歡紫色嗎□是□否

8您喜歡黑色嗎□是□否

9您喜歡白色嗎□是□否多選項分類法多選項分類法中,首先應估計多選項問題最多可能出現的答案個數;然后為每個答案設置一個SPSS變量,變量取值為多選項問題中的所有可選答案。如上面有關選擇服裝的主體顏色,您可以選擇喜歡的三種,在提供的10種答案前上選擇。

1、紅2、橙3、黃4、綠5、青

6、藍7、紫8、黑9、白 10、說不清分類法的編碼這個問題可以有三個答案。在建立數據文件時,要建立三個變量color1,color2,color3表示回答者選擇的三個顏色。如選擇結果為1、紅、6、藍、8、黑,則變量color1的值為1,變量color2的值為6,變量color3的值為8。

如果采用多選二分法則有6個選項,故應設6個變量,運用0-1編碼方法編碼,即:1,0,1,0,1,1。如果采用多選分類法,則編碼為1,3,5,6,0,0。1356136問題2:您擇業中考慮的主要因素有(限選三項)1經濟收入2專業對口3發展前途4地理區位5個人愛好6風險大小7勞動強度8社會福利9社會地位

10其他

因為限選三項,故應設三個變量,編碼依次為1,3,6。2)多選項分析的基本操作首先將每個題的若干答案組成一個綜合變量即變量集(Set),然后對綜合變量的各種取值進行分析。只有通過定義多選項變量集,SPSS才能確定應對哪些變量取相同值的個案數進行累加。多選項分析在SPSS中是通過分析Analyze多重響應MultipleResponse中的各項功能實現的。居民儲蓄調查數據.sav1.定義變量集DefineSets:(1)從左邊的變量中將多選變量集的變量選擇到集合中的變量variablesinsets框中,建立多選二分變量集或多選分類變量集。(2)在將變量編碼為variablesarecodedas框中指定多選變量集中的變量是按照那種方法編碼的。二分法Dichotomies表示以多選二分法編碼,并在countedvalue中輸入用哪個數值來表示選中該選項。類別categories表示以多選分類法編碼,并在range框中輸入變量取值的最小值和最大值。居民儲蓄調查數據.sav(3)為多選項變量集命名,系統會自動在該名字前加字符$。(4)單擊添加add按鈕將定義好的多選項變量集加到多響應集multiresponsesets框中。SPSS可以定義多個多選項變量集。2.頻率Frequencies:對多選變量集進行頻數分析。從多響應集multiresponsesets中把待分析的多選項變量集選擇到表格tablesfor框中;3.交叉表Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析。(1)選擇列聯表的行變量并定義取值范圍;(2)選擇列聯表的列變量并定義取值范圍;(3)選擇列聯表的控制變量并定義取值范圍;(4)單擊option按鈕選擇列聯表的輸出內容和計算方法。Matchvariableacrossresponsesets選項表示,如果列聯表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,依次類推。結果中:注意PctofResponses(占總回答數的%)和PctofCase(占總個案數%)的區別。3)多選項分析的應用舉例利用居民儲蓄調查數據進行分析,實現以下兩個分析目標:

1.分析儲戶的儲蓄目的;

2.分析不同年齡段儲戶的儲蓄目的。居民儲蓄調查數據.sav

分析1.為進行多選項分析,首先定義名為cxmd的多選項變量集,其中包括a7_1、a7_2、a7_3三個變量,然后對多選項變量集進行頻數分析;2.對不同年齡段儲戶儲蓄目的進行分析,采用多選項交叉分組下的頻數分析。一、定義多變量集(如前述)二、頻率分析操作(如下)居民儲蓄調查數據.sav頻率分析輸出結果三、交叉表下的頻率分析操作居民儲蓄調查數據.sav交叉分組輸出結果2.4.5比率分析比率分析的目的和主要指標比率分析的基本步驟與應用舉例1)比率分析的目的和主要指標比率分析用于對兩變量間變量值比率變化的描述分析,適用于數值型變量。例如根據1999年各地區保險業務情況的數據,分析各地區財產保險業務的保費收入占全部業務保費收入的比例情況。通常的分析可以生成各個地區財產保險業務的保費收入占全部業務保費收入的比率變量,然后對該比率變量計算基本描述統計量(如均值、中位數、標準差、全距等),進而刻畫比率變量的集中趨勢和離散程度。SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標,大致也屬于集中趨勢描述指標和離散程度描述指標的范疇,具體包括:(1)加權比率均值(Weightedmean):兩變量均值的比,屬集中趨勢描述指標。加權比率均值的計算:相對數(或比率)用Y表示,有Y=a/b,a、b為總量指標。求各期Y的平均一般不能采用簡單算術平均法,因為各期數據Yi的對比基礎bi不同,它們對全期總平均水平的影響作用應輕重有別。計算公式:分別計算其分子、分母的平均數,對比得:

上式實質上等于對各期Y加權算術平均。(2)AAD(AverageAbsoluteDeviation)平均絕對離差:是對比率變量離散程度的描述,計算公式為:其中,是比率數,M是比率變量的中位數,N為樣本數(3)COD

(CoefficientofDispersion)離散系數:也是對比率變量離散程度的描述,計算公式為:(4)PRD

(Price-relatedDifferential)相關價格微分:是比率均值與加權比率均值的比,也是比率變量離散程度的描述。(5)COV變異系數:用于對比率變量離散程度的描述,分為基于均值的變異系數(MeancenteredCOV)和中位數的變異系數(MediancenteredCOV)。前者是通常意義下的變異系數,是標準差除以均值;后者定義為:2)

基本步驟與應用舉例(1)選擇菜單分析Analyze描述統計DescriptiveStatistics比率Radio,出現窗口基本分析(各地區保險業務保費收入).sav(2)將比率變量的分子選擇到分子Numerator框中,將比率變量的分母選到分母Denominator框中。(3)如果做不同組間的比率比較,則將分組變量選擇到組變量GroupVariable框中。(4)單擊統計量Statistics按鈕指定輸出哪些關于比率的描述統計量,出現如下窗口:基本分析(各地區保險業務保費收入).sav統計量框輸出結果2.4.6探索分析探索分析的目的和方法探索分析的基本步驟探索分析的應用舉例1)探索分析的目的和方法分析目的和方法奇異性:數據過大或過小(找出、分析原因、是否剔除)分布特征:數據是否來自正態總體考察方法:統計量和統計圖形(箱式圖、莖葉圖、QQ圖)一般是考察定距變量

分析Analyze描述統計DescriptiveStatistics探索Explore分析變量(DependentList):數值型變量分組變量(FactorList):分類變量標識變量(LabelCasesby):用某變量的值作為觀察值得標識如id2)探索分析的基本步驟選擇一個或多個變量進入Dependent框作為分析變量,單擊OK可獲得分析變量的一系列基本統計量和圖形。此作為分組變量,可以是字符變量,對分析變量的分析將按該變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論