




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
StatisticalProgramforSocialSciencesSPSSforWindows第二章數據文件的建立與整理第一節重點介紹spss軟件及其數據文件的建立第二節數據文件的整理第三節簡單介紹Minitab軟件及其數據文件的建立學習目標1.熟悉SPSS統計軟件中數據文件的建立數據的預處理一.數據的審核與篩選二.數據的排序數據的審核、篩選與排序數據的審核發現數據中的錯誤數據的篩選找出符合條件的數據數據排序發現數據的基本特征升序和降序數據的審核
(原始數據)審核的內容完整性審核檢查應調查的單位或個體是否有遺漏所有的調查項目或指標是否填寫齊全準確性審核檢查數據是否真實反映客觀實際情況,內容是否符合實際檢查數據是否有錯誤,計算是否正確等數據的審核
(第二手數據)適用性審核弄清楚數據的來源、數據的口徑以及有關的背景材料確定這些數據是否符合自己分析研究的需要時效性審核應盡可能使用最新的統計數據確認是否必要做進一步的加工整理數據的篩選對審核過程中發現的錯誤應盡可能予以糾正當發現數據中的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,需要對數據進行篩選數據篩選的內容包括:將某些不符合要求的數據或有明顯錯誤的數據予以剔除將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔出引例:某克山病區測得11例克山病患者與13名健康人的血磷值(mmol/L)如下,問該地急性克山病患者與健康人的血磷值是否不同?患者:
0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.87具體工作流程如下:
建立數據文件數據的加工整理統計分析解釋分析結果定義數據文件的結構錄入修改保存數據統計軟件參與的主要是:數據輸入數據分析數據輸出§2.2
SPSS數據文件的建立一.SPSS軟件簡介二.SPSS數據文件的建立第一講SPSS簡介1簡介SPSS是StatisticalProgramforSocialSciences的簡稱,即社會科學統計程序,由美國SPSS公司1970年代推出,迄今已有近30年的歷史。是國際著名三大社會科學統計軟件包之一(SAS、SPSS、Statis)。我們現在使用的是SPSSforWindows12.0版。SPSSForWindows的概述
SPSSForWindows的特點SPSSForWindows對環境的要求SPSSForWindows的軟件安裝SPSSForWindows的啟動與退出1.1SPSSForWindows的特點操作界面極為友好,輸出結果美觀漂亮多種實用分析方法,強大的圖形處理能力操作簡便,易于學習、易于使用與其他軟件有數據轉換接口(ODBC)1.2SPSSForWindows對環境的要求
對硬件環境的要求16M以上內存30%以上自由空間對軟件環境的要求Windows95.98.2000關于spss的漢化1.3SPSSForWindows的軟件安裝
開機啟動windows把spss的安裝光盤放入光驅雙擊setup文件同意版權聲明next選擇安裝目錄填寫用戶名、單位名和系列號選擇安裝類型安裝完成1.4SPSSForWindows的啟動與退出
SPSSForWindows系統的啟動SPSSForWindows系統的退出§2.1數據的輸入和保存1.1.1進入SPSS的界面1.1.2定義變量1.1.3輸入數據1.1.4保存數據1.1.1進入SPSS的界面數據視圖:用于查看、錄入和修改數據
變量視圖:用來定義和修改變量的定義
請將鼠標在上圖中的各處停留,很快就會彈出相應部位的名稱。現在所看到的是SPSS的數據管理窗口。這是一個典型的Windows軟件界面,有菜單欄、工具欄。特別的,工具欄下方的是數據欄,數據欄下方則是數據管理窗口的主界面。該界面和EXCEL極為相似,由若干行和列組成,每行對應了一條記錄,每列則對應了一個變量。由于現在我們沒有輸入任何數據,所以行、列的標號都是灰色的。
小貼士:對數據表界面操作不熟悉的朋友可先學習一下EXCEL的操作(因為它的幫助是中文的)。
§2.1數據的輸入和保存1.1.1進入SPSS的界面1.1.2定義變量1.1.3輸入數據1.1.4保存數據1.1.2定義變量在VariableView對話框中對變量進行定義,變量的定義要符合規則,對不同數據的變量類型要合乎定義,如單擊“Type”按鈕可以實現變量類型的定義等。
單擊VariableView按鈕后該資料是定量資料,設計為成組設計,因此我們需要建立兩個變量,一個變量代表血磷值,習慣上取名為X,另一個變量代表觀察對象是健康人還是克山病人,習慣上取名為GROUP。在VariableView對話框中第一個變量定義為group,Type為Numeric,并在Lable處注明1為患者,2為健康人;第二個變量定義為X,Type為Numeric,Width為8,Decimals為2等等。
變量標簽就在Label框中直接輸入,變量值標簽則在它右側的Value框定義。以group為例,單擊Value框右半部的省略號,會彈出變量值標簽對話框如下:上部的兩個文本框分別為變量值輸入框和變量值標簽輸入框,分別在其中輸入“1”和“克山病患者”,此時下方的Add鈕變黑,單擊它,該變量值標簽就會被加入下方的標簽框內。與此類似定義變量值“2”為“健康人”,最后按OK,變量值標簽就設置完成。此時你做任何分析,在結果中都有相應的標簽出現。如果你現在就想看效果,切換回DataView界面,然后選擇菜單View==>ValueLabels,怎么樣,看到了嗎?值標簽定義方法缺失值
單擊missing框右側的省略號,會彈出缺失值對話框如下:界面上有一列三個單選鈕,默認值為最上方的“無缺失值”;第二項為“不連續缺失值”,最多可以定義3個值;最后一項為“缺失值范圍加可選的一個缺失值”,文如其意,不用我多解釋了吧。缺失值定義方法數據表達——常量
常量類型數值型普通書寫方式例如2638.4科學記數法用于表示特大或特小的數字如1.23E182.56E-16字符型被單引號或雙引號括起來的一串字符如:‘book’“I’maboy”日期型SPSS變量名由不多于8個字符組成首字母是可為字母或數字或除?-!和*以外的字符注意不能以下劃線_和園點“.”作為變量名的最后一個字符變量名不能與SPSS保留字相同,SPSS的保留字有ALLANDBYEQGEGTLELTNENOTORTOWITH不區分變量名的大小寫,如ABC和abc
被認為是同一個變量數據表達——Spss變量(變量命名原則)數據表達—Spss變量(變量類型與默認長度)三種基本類型:數值型、字符型、日期類型長度小數顯示方式輸入顯示Numeric8.2標準格式,圓點表示小數點38.4238.42Comma8.2圓點做小數點,逗點做三位分割符1,343,438.11,343,438.1Dot8.2逗點做小數點,圓點做三位分割符34.3434E23.434,34Scietific8.2科學計數法457.8E4457.8E4Date8.2格式非常多Dollar8.2前綴為$,以逗點為分割符$12343$12343Cuscurrency8.2String8.2一串字符串BelieveBelieve數據表達—Spss變量(標簽、值標簽和格式)
變量標簽VariableLabels例如:變量名變量標簽
Wweight或體重
HHeight或身高值標簽ValueLabels例如變量值值標簽
SexfFemalemMale
變量格式顯示寬度對齊方式缺失值(MissingValue)原始數據的組織方式
SPSS數據的基本組織方式在原始數據的組織方式中,數據編輯窗口中的一行稱為一個個案(Case),數據編輯窗口中的一列稱為一個變量,每個變量都有一個名字。居民儲蓄調查問卷性別職業年齡1、請問您的收入是()
A1000以內B1000~2000C2000~5000D5000以上。。。。。。一份關于居民儲蓄的調查問卷變量1變量2變量3變量4原始數據組織形式性別職業年齡收入11124A22333B…….…….…..頻數數據的組織方式
SPSS數據的基本組織方式在頻數數據的組織方式中,數據編輯窗口中的一行為變量的一個分組(Case),數據編輯窗口中的一列仍為一個變量,代表某個問題及頻數。頻數數據舉例年齡段職稱35歲以下(1)36~49歲(2)50~60歲(3)60歲以上教授015835副教授102022講師201010變量1變量2變量3:人數頻數數據組織形式職稱年齡段人數1101215。。。。。。。。。。錄入下面10名學生成績調查表
上機轉化為學生成績的調查表編碼將個人的學號(姓名)作為地址碼用數字表示,該變量相應由字符型變為數字型,性別編碼為男性為M,女性為F,對于未答、缺失、缺考、情況不清的編碼,使用不可能出現的碼表示。如字符變量用U碼、數據變量用-9表示,編碼后的結果如下圖學生成績的調查表編碼所示:
問卷調查數據處理實例步驟:1、問題分類2、建立變量3、輸入數據4、驗收2進入SPSS之前的準備工作2-1-1數據資料的形式:矩陣式數據:數據要求每一橫行為一個個案(Case,即一份調查數據),縱列按變量排列,一列是一個變量(問卷中的一道問題),從而形成矩陣格式。2-1數據資料的形式及編碼編碼錄入2-1-2
編碼的概念:根據一定的規則將研究資料轉換為可進行統計分析的數碼資料的過程。問題025:您認為打工的外地人對北京市的社會秩序是否有影響?(單選)1□有很大影響2□有較大影響
3□沒有影響4□不好說4編碼答案2-1-3編碼的步驟:1)確定變量;變量:用來反映文意概念的量化形式。在統計中往往指最小的分析單位。編碼就是對變量進行編碼。變量由兩個部分構成:變量名和變量值。要注意區分何為變量,何為變量值。在調查問卷中還要注意區分問題和變量。問題009:您有幾個兒子?幾個女兒?
1□兒子_______人
2□女兒________人
23問題變量1變量2變量1的值變量2的值2)制作編碼表直接過錄0-1編碼變量名:一個數據文件中,一個變量只能有一個唯一名稱。碼位:某一變量在數據文件中占據的欄位碼數:某一變量由幾位數組成。該變量是數值型(Numeric)——如定距、定比,還是字串型(String),如定類、定序。前者在統計中可以做高級運算,后者則不可以。不適于被訪人回答的問題的編碼。一般采用7,97,997等。被訪人回答不知道時的編碼。一般采用8,98,998等。被訪人拒絕回答某變量時的編碼。一般采用9,99,999等。問卷中出現漏答時的處理編碼。一般采用9,99,999等。23100011不好進行后續的數據分析!多選項問題將多選項問題進行分解!解決辦法方法多選項二分法多選項分類法將多選項問題中每個答案設為一個SPSS變量,每個變量只有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。應估計多選項問題最多可能出現的答案個數;然后為每個答案設置為一個SPSS變量,變量取值為多選項問題中的可選答案。案例1你家中是否有下列物品:(1)電話(2)傳真機(3)有線電視(4)衛星電視(5)大哥大(6)BP機對應設置6個SPSS變量,其取值為1或0,其中1表示報考,0表示不報考。多選項二分法SPSS變量名變量名標簽變量值V1有電話嗎?0/1V2有傳真機嗎?0/1V3有有線電視嗎?0/1V4有衛星電視嗎?0/1V5有大哥大嗎?0/1V6有BP機嗎?0/1假設問卷調查中出現的最多答案個數為4,則可設置4個SPSS變量,分別表示答案一、答案二、答案三,答案四,變量取值為0~6,其中0代表此答案未選,其余對應6個可選答案。多選項分類法SPSS變量名變量名標簽變量值V1答案一0/1/2/3/4/5/6V2答案二0/1/2/3/4/5/6V3答案三0/1/2/3/4/5/6V4答案四0/1/2/3/4/5/6如選擇了電話(1),大哥大(5),BP機(6),則V1,V2,V3,V4依次取值為1,5,6,0某地區高三學生的高考志愿調查中,為分析學生填報志愿的傾向性,設計了這樣一道問題。案例2按照你的志愿,請按順序依次選擇你打算報考的三所大學:(1)北京大學(2)清華大學(3)南京大學(4)南京理工大學(5)東南大學(6)南京師范大學對應設置6個SPSS變量,其取值為1或0,其中1表示報考,0表示不報考。多選項二分法SPSS變量名變量名標簽變量值V1報考北京大學嗎?0/1V2報考清華大學嗎?0/1V3報考南京大學嗎?0/1V4報考南京理工大學嗎?0/1V5報考東南大學嗎?0/1V6報考南京師范大學嗎?0/1由于問卷要求被調查者選擇三個答案,所以可設置3個SPSS變量,分別表示志愿一、志愿二、志愿三,變量取值為1~6,依次對應6所大學。多選項分類法SPSS變量名變量名標簽變量值V1志愿一1/2/3/4/5/6V2志愿二1/2/3/4/5/6V3志愿三1/2/3/4/5/6兩種方法選擇依據便于分析是否丟失信息案例1中,無論采用哪種分解方法都會存在一定的問題。但從避免信息丟失方面考慮,第一種方式要優于第二種,因為第二種方式會導致較多的缺失數據。案例2兩種方法對比多選項二分法優點:能很方便地分析出各個學校的考生報考情況。缺點:不便于分析考生在各個志愿中的報考學校情況。多選項分類法優點:能很方便地分析出考生在各個志愿中的報考學校情況。缺點:但不便于分析各個學校的考生報考情況。從信息丟失方面考慮,第二種分解方式沒有造成信息丟失。結論在選擇多選項問題的分解方法時,應考慮到具體問題和具體分析目標,在避免信息丟失的前提下,減少稀疏數據。
SPSS變量的數據類型大多應定義成數值型,這樣有利于以后的數據分析;不同的數據應根據其實際含義規定其度量尺度,如存(取)款目的,職業等應為定類型變量,收入水平、年齡等為定序型變量,存(取)款金額為定距型變量等;變量值標簽的定義在問卷數據的處理中有重要作用。小貼士:§2.1數據的輸入和保存1.1.1進入SPSS的界面1.1.2定義變量1.1.3輸入數據1.1.4保存數據1.1.3輸入數據直接在第一行第一列group下方用鍵盤鍵入1,第一行第二列X下方用鍵盤鍵入0.84,其余依次鍵入,從第12行開始為健康人,因此group應取為2,最終該數據集應該有24條記錄。數據錄入方法——直接敲就是了!按行輸入數據(按Tab鍵)按列輸入數據(按Enter鍵)錄入帶有變量值標簽的數據(通過下拉按鈕完成)
數據的錄入
但在此之前應首先通過選擇菜單:view==>ValueLabels,打開變量值標簽的顯示開關,如果它前面顯示一個√,則表示變量值標簽的顯示開關已經打開,變量值標簽將顯示在數據編輯窗口中;反之,則表示開關尚未打開,不顯示變量值標簽只顯示變量值。
應當說明的是,在值標簽顯示開關打開的狀態下,雖然屏幕顯示的是標簽,但實際內部存儲的仍是變量值。§2.1數據的輸入和保存1.1.1進入SPSS的界面1.1.2定義變量1.1.3輸入數據1.1.4保存數據1.1.4保存數據單擊保存類型列表框,可以看到SPSS所支持的各種數據類型,有DBF、FoxPro、EXCEL、ACCESS等,這里我們仍然將其存為SPSS自己的數據格式(*.sav文件)。在文件名框內鍵入Li1_1并回車,可以看到數據管理窗口左上角由Untitled變為了現在的變量名Li1_1。
選擇菜單File==>Save,由于該數據從來沒有被保存過,所以彈出Saveas對話框如下:根據居民儲蓄調查問卷,設計SPSS變量,并定義SPSS數據的結構,并選取部分填答好的問卷,建立居民儲蓄調查數據文件。上機題目可選答案1.您認為現在買東西合算還是存錢合算?(1)買東西合算(2)存錢合算2.您今年的收入比去年增加了還是減少了?(1)增加(2)基本不變(3)減少3.預計未來一兩年中您的收入?(1)增加(2)基本不變(3)減少4.您的月收入水平屬于?(1)800元以下(2)800~1500元(3)1500~5000(4)5000元以上5.您本次存(取)款的金額是多少?()元6.您本次存(取)款的種類?(1)三年以上定期(2)三年以下定期(3)活期(4)定活兩便(5)有獎儲蓄(6)個人通知存款(7)活期工資賬戶(8)各類信用卡表1居民儲蓄調查問卷題目可選答案7.存(取)款的目的(可多選)?(1)買高檔消費品(2)結婚用(3)正常生活零用(4)做生意(5)購買農業生產資料(6)買證券及單位集資(7)買房或建房(8)支付孩子教育費(9)養老金(10)防止意外事故(11)得利息8.您認為現在的物價水平?(1)過高,難以接受(2)偏高,可以接受(3)正常9.您對近期市場物價趨勢的看法?(1)會迅速上升(2)基本穩定(3)會略有下降10.若物價上升幅度較大,您準備?(1)提款購物(2)購買其它證券(3)繼續存款11.如果目前利率維持不變,您準備?(1)繼續存款(2)提款購物(3)購買其它證券12.您手中一部分現金不存入銀行的原因?(1)日常生活用錢(2)生意周轉金(3)便于隨時購買中意商品(4)購買國庫券、債券、股票等續表題目可選答案13.您的戶口屬于?(1)城鎮戶口(2)農村戶口14.您的工作單位或職業是?(1)國家機關(2)商業服務業(3)文科衛行業(4)公交建筑業(5)經營性公司(6)學校(7)一般農戶(8)種糧棉專業戶(9)種果菜專業戶(10)工商運輸個體戶(11)退休人員(12)金融機構(13)現役軍人15.您的年齡是?(1)20歲以下(2)20~35歲(3)35~50歲(4)50歲以上續表補充說明——讀取其他格式的數據文件直接讀入其他格式的數據文件使用文本向導讀入文本文件選擇菜單File==>Open==>Data或直接單擊快捷工具欄上的按鈕,系統就會彈出OpenFile對話框:1、直接打開選擇數據文件類型,并輸入數據文件名即可。其次中間還有一個“Paste”按鈕,該按鈕在SPSS的大多數對話框中都存在,是用于自動生成SPSS程序的。2、
使用文本導入向導讀入文本文件選擇菜單File==>ReadTextData,系統就會彈出OpenFile對話框:對!和前面的情況完全一樣,只是文件類型自動跳到了Text(*.txt)。實際上,該功能在SPSS中已被整合到了OpenFile對話框中之所以在菜單上保留該條目有兩個原因:1.讀入純文本的情況非常普遍,放在這里更加醒目;2.為了和SPSS老版本的使用上保持兼容。2.1.3.3
使用文本導入向導讀入文本文件例2.1現有一數據文件以純文本的形式存為“e:\work\經濟管理統計分析軟件\SPSSDATA\Li1_1.txt”,且第一行為變量名,請將其讀入SPSS。解:在OpenFile對話框選中相應的文件名并單擊“確定”,系統會自動啟動文本導入向導對話框如下:2.1.3.3
使用文本導入向導讀入文本文件可以看到該向導共分6步,這是第一步。中部為一對單選按鈕,問題為“你的文本文件和預定義格式相一致嗎?”,下方為按預定義格式讀入的數據文件的預覽。顯然,SPSS的預定義格式并沒有正確識別該文件。因此選擇“No”并單擊“下一步”,系統彈出向導的下一個對話框如下:2.1.3.3
使用文本導入向導讀入文本文件最上方的問題是“你的變量是如何排列的?”,下面的選項分別為Delimite(用某種字符區分)和FixedWidth(固定寬度),一般都是Delimite,第二個問題是“變量名包括在文件最前面了嗎?”,我們當然選“Yes”,單擊“下一步”,系統彈出第三個對話框:2.1.3.3
使用文本導入向導讀入文本文件最上方的句子意為“第一條記錄從第幾行開始?”,右側可以輸入行數。由于我們所用的數據第一行為變量名,因此這里輸入2。下面的問題是“你的記錄是怎樣存儲在文件中的?”。可以是“每一行代表一條記錄”,或者“每**個變量代表一條記錄”,數據一般都是第一種情況。下一個問題是“你想導入多少條記錄?”,可以是“所有記錄”、“前**條”或“隨機導入**%的記錄”。一般也選前者。單擊“下一步”,第四個對話框如下:2.1.3.3
使用文本導入向導讀入文本文件最上方的問題為“變量間用的是哪種分隔符?”,可選的有Tab鍵、空格、逗號、分號或自行定義的其他符號。本數據采用的是空格,可見系統已經自動識別并選擇了空格,而下方的數據預覽窗口顯示出了正確的數據讀入情況。單擊“下一步”,第五個對話框如下:2.1.3.3
使用文本導入向導讀入文本文件上方的提示為“定義在數據預覽窗口中所選擇的變量。”。顧名思義,在這個對話框中你可以在數據預覽窗口中選擇某一列變量,然后更改其變量名和類型。當然,在這里我們不用這樣做,直接單擊“下一步”,系統彈出文本導入向導的最后一個對話框如下:2.1.3.3
使用文本導入向導讀入文本文件最上面的問題為“你愿意保存這次的文件(讀入)格式設置以備下次使用嗎?”,第二個問題為“你是否愿意將以上操作粘貼為SPSS語句?”,一般這兩個問題我們都可以不管。單擊“完成”,系統最終成功的讀入了Li1_1.txt。3、
讀取EXCEL文件現在SPSS10.0以上的版本讀取EXCEL數據和讀取SPSS的數據并無太大差異。選擇菜單File==>Open==>Data或直接單擊快捷工具欄上的按鈕,系統就會彈出OpenFile對話框:3、
讀取EXCEL文件輸入文件名,選擇文件類型為EXCEL(﹡.xls),然后單擊『打開』按鈕:3、
讀取EXCEL文件在顯示的對話框中單擊OK按鈕:事實上,SPSS11.0以上版本在出現最終數據文件之前還會跳出一個output1SPSSViewer輸出窗口,可以保存,也可以不保存。SPSS數據的編輯主要包括對數據的定位、增加、刪除、修改和復制等工作。補充說明——SPSS數據的編輯SPSS數據的定位自動定位1、按個案號碼自動定位選擇菜單Data==>Gotocase2、按變量值自動定位選擇菜單Edit==>Find人工定位:適用于數據量較少的情形;(略)自動定位:按用戶給出的定位條件自動尋找滿足條件的第一個數據單元,適用于數據量多的情形。SPSS數據個案的插入和刪除1、插入一個個案選擇菜單Data==>Insertcase2、刪除一個個案單擊鼠標左鍵,選中待刪除的個案,然后單擊鼠標右鍵,從彈出菜單中選擇Cut選項SPSS數據的移動、復制和刪除定義源數據塊:將鼠標移到到源數據塊的左上角單元上,并拖動鼠標至源數據塊的右下角單元上;單擊鼠標右鍵:如果要清除數據塊內容,則選Clear選項;如復制,選Copy;如移動,選Cut;指定目標單元:將鼠標移到目標單元的左上角,然后單擊右鍵,選擇Paste選項。SPSS能夠將數據保存成多種格式的數據文件,常見的有SPSS格式文件、Excel、dbf和文本格式文件。補充說明——SPSS數據保存的格式文件優點缺點SPSS文件可以被SPSS軟件直接讀取,且能夠將SPSS數據的結構和數據兩部分全部完整保存下來無法被其它軟件讀取,通用性差Excel文件Dbf格式文件文本文件可以被相應軟件直接讀取。其中保存為Excel文件時,會將各變量的變量名寫入Excel工作表的第一行上,且一個個案為一行;保存為Dbf文件時,會將變量名和相應的數據類型轉成數據庫文件的字段名和字段類型,且一個個案為一條記錄;保存為文本文件時,第一種,固定格式,依據每個變量顯示的寬度,將變量值數據以空格左補齊對齊;第二種以Tab鍵作為各數據之間的分隔符,第一行是變量名,第二行以后是數據,一個個案為一行;僅保存SPSS數據編輯窗口中的變量值,而不保存變量的其它屬性。如果用戶希望將SPSS數據與其他軟件共享,則可將SPSS數據保存成兩份,一份為SPSS文件格式,另一份為其他軟件可以讀取的數據文件格式,從而方便數據共享。讀入居民儲蓄調查數據.xls文件和居民儲蓄調查數據.Dat文件上機SPSS的運行步驟如下:錄入數據定義數據整理數據統計數據察看結果§
2.2
數據文件的整理在SPSS中,數據文件的編輯、整理等功能被集中在了Data和Transform兩個菜單項中,這兩個菜單的內容如下所示:Data菜單項Transform菜單項
1.
【SortCases對話框】
2.【Transepose對話框】2.2.1用于數據管理的菜單項——Data菜單項
3.【MergeFiles對話框】
4.【Aggregate對話框】
5.【SplitFile對話框】
6.【SelectCases對話框】
7.【WeightCases對話框】
8.【Data菜單中的其余對話框】例2.5
對數據集li1_1.sav按group升序,x降序的次序排列。【SortCases對話框】解:選擇菜單Data==>SortCases,系統彈出SortCases對話框:該對話框并不復雜,其中比較特殊的是下方的SortOrder單選鈕,有升序和降序兩種選擇。請注意,該單選鈕是和上方的SortBy框一起使用的.請注意:group和x后面分別跟著Ascending和Descending,表明前者是按升序、后者按降序排列;由于Group在前,因此排序時以Group優先。數據排序步驟:Data=>sortcase1、數據文件:數據加工(職工數據).sav
按照年齡排序;按照基本工資排序;先后按年齡和基本工資排序。2、數據文件:學生成績調查表.sav
按照年齡排序;找出數學成績最高分和物理成績最低分。上機【MergeFiles對話框】
——合并數據文件合并的方式增加觀測量到當前數據(縱向合并)增加變量到當前數據文件(橫向合并)縱向合并數據文件選擇菜單Data==>MergeFile==>
AddCases,然后輸入一個已存在于磁盤上的需進行縱向合并處理的SPSS數據文件名。彈出對話框如下:
【MergeFiles對話框】縱向合并數據文件
VariablesinNewWorkingDataFile框中顯示的變量名是兩個數據文件中的同名變量,SPSS默認它們有相同的數據含義,并將它們作為合并后新數據文件中的變量;
UnpairedVariables框中顯示的變量名是兩個數據文件中的不同名變量,變量名后面的﹡表示該變量是當前數據編輯窗口的變量,+表示該變量是欲插入數據文件中變量;選Indicatecasesourceasvariable項,可在合并后數據文件中將自動生成一個名為source01的變量,取值為0代表個案來自第一份數據文件,取值為1代表個案來自第二份數據文件;橫向合并數據文件選擇菜單Data==>MergeFile==>
AddVariables,然后輸入一個已存在于磁盤上的需進行橫向合并處理的SPSS數據文件名。彈出對話框如下:
利用職工數據文件演示數據文件的縱向合并和橫向合并。上機用于對數據進行分類匯總,所謂分類匯總就是按指定的分類變量對觀測值進行分組,對每組記錄的各變量值求指定的描述統計量,結果可以存入新數據文件,也可以替換當前數據文件。選擇菜單Data==>Aggregate,系統彈出Aggregate窗口:【Aggregate對話框】上圖中各個零件的含義如下:
BreakVariables框:用于選擇分組變量;
AggregateVariables框:用于選擇被匯總的變量;
Name&Label鈕:用于定義新產生的匯總變量的名稱和標簽;
Function鈕:用于定義匯總函數,共有三組函數,以最常用的第一組為例,可選的函數有均數、同組的第一個觀測值、最后一個觀測值、同組記錄數、標準差、最小值、和、最大值共8個;
其他不再一一介紹。例2.6
計算Li1_1.sav中兩組的血磷值標準差。【Aggregate對話框】解:該題完全可以用更簡單的方法完成,這里只是演示一下匯總對話框的用法。
BreakVariables框:GroupAggregateVariables框:xFunction鈕:(Standarddeviation單選鈕:Continue鈕)Addaggregatedvariablestoworkingdatafile單選鈕:選中
OK1、利用居民儲蓄調查數據,分析城鎮儲戶和農村儲戶的一次平均存(取)款金額是否有顯著的差異(計算各自的均值和標準差)。2、利用學生成績調查表數據,分析數學、物理、化學、英文各科成績的平均成績和標準方差。上機【SelectCases
對話框】很多時候我們不需要分析全部的數據,而是按某種要求分析其中的一部分(比如只分析男性的身高、只對前200個數據進行分析以了解大概情況),這時使用SelectCases對話框可以大大簡化工作。該對話框界面如下所示:【SelectCases
對話框】
Allcases單選鈕:和下面的4個單選鈕為一組,選中它則分析所有的記錄;
Ifconditionissatisfied單選鈕:只分析滿足條件的記錄;
If按鈕:和If單選鈕一起使用,單擊后彈出If對話框;
Randomsampleofcases單選鈕:從原數據中隨機抽樣;
Sample按鈕:和Random單選鈕一起使用,可以設定按百分比抽取記錄,或者精確設定從前若干個記錄中抽取多少個記錄;
Basedontimeorcaserange單選鈕:基于記錄序號來選擇記錄;
Range按鈕:和Based單選鈕一起使用,用于輸入記錄序號范圍;
Usefiltervariable單選鈕:使用篩選指示變量來選擇記錄,必需在下面選入一個篩選指示變量,該變量取值為非0的記錄將被選中,進入以后的分析;
Filtered單選鈕:和下面的Deleted單選鈕為一組,表示未被選中的記錄只是被隔離,這些記錄的記錄號會被加上斜杠以示區別;
Deleted單選鈕:未被選中的記錄將被刪除,一般不要使用。當對數據集做出篩選后,所做的篩選將在以后的分析中一直有效,直到再次改變選擇條件為止。同時在多數情況下,系統會自動產生一個名為filter_$的篩選指示變量,被選中的記錄該變量取值為1,反之則為0。利用居民儲蓄調查數據,根據不同的分析要求采用不同的數據選取方法抽樣:如果只希望分析城鎮儲戶的情況,則可以通過數據選擇功能采用指定條件的抽樣方法進行抽樣;如果只希望對其中的70%的數據進行分析,可通過數據選擇功能采用隨機抽樣中的近似抽樣方法進行抽樣。上機
1.
【SortCases對話框】
2.【Transepose對話框】2.2.1用于數據管理的菜單項
3.【MergeFiles對話框】
4.【Aggregate對話框】
5.【SplitFile對話框】
6.【SelectCases對話框】
7.【WeightCases對話框】
8.【Data菜單中的其余對話框】【Transepose對話框】該對話框用于對數據進行行列轉置,可以在原數據文件中指定一個變量記錄轉置后的變量名。原變量名則自動保存在系統產生的名為case_lbl的字符變量中。該對話框也非常簡單,左側為候選變量框;右上方為Variable框,用于選入需要轉置的變量,一般應選入除名稱變量外的所有其他變量,如果有變量未選入,則轉置時會被自動丟棄;右下方為NameVariable框,用于指定原數據文件中記錄轉置后變量名的字符變量,但不是必需的,此時系統會將新變量自動按var001、var002...的順序命名。【SplitFile
對話框】用于將數據文件分組進行處理,該對話框我們在第一章時已經使用過了,這里再介紹一下各個對話框元素的用途:
Analyzeallcases單選框:和下面的兩個單選框為一組,選中本框不拆分文件;
Comparegroups單選框:按所選變量拆分文件,各組分析結果緊挨在一起便于相互比較;
Organizeoutputbygroups單選框:按所選變量拆分文件,各組分析結果單獨放置;
Groupsbasedon框:用于選擇拆分數據文件的變量;
Sortthefilebygroupingvariables單選框:將數據按所用的拆分變量排序;
Fileisalreadysorted單選框:數據保持原狀,不按所用的拆分變量排序。【Weight
Cases
對話框】在默認情況下,每一行就是一條記錄,這在多數情況下沒有什么問題,但有時卻非常麻煩,想想看如果你需要計算一個四格表卡方,有100例,如果每一行就是一條記錄,你就需要輸入100條記錄!如果希望在計算過程中利用不同的變量對數據進行加權處理,就需要用到WeightCases對話框。該對話框的使用極為簡單,界面上有兩個單選鈕,分別是不權重記錄和用某變量權重記錄,如果選擇后者,則需要選中一個權重變量。【Data菜單中的其余對話框】
Definedates對話框:可以自動生成時間變量。
InsertVariable命令:在當前列插入新變量(在當前列點右鍵選擇InsertVariable
命令亦可)。
Insertcases命令:在當前行插入新記錄(在當前行點右鍵選擇InsertCases命令亦可)
。
Gotocases對話框:到達指定記錄號的記錄,該命令在記錄數極多時(1000條以上)非常有用。
1.
【ComputeVariable對話框】
2.【Count對話框】2.2.2用于數據管理的菜單項——Transform菜單項
3.【Record對話框】
4.【RankCases對話框】
5.【AutomaticRecode對話框】
6.【CreateTimeSeries對話框】
7.【ReplaceMissingValues對話框】
8.【Transform菜單中的其余對話框】【ComputeVariable對話框】例3.2
在li1_1.sav中建立新變量temp,令其值當血磷值大于1時為2,否則為1。解:這里需要用到ComputeVariable對話框,外加一點技巧。第一步:給變量temp均賦值為1,然后將血磷值大于1的記錄其temp變量值改為2即可。選擇菜單Transform==>Compute,彈出ComputeVariable對話框如下:
【ComputeVariable對話框】左上角為需要計算的變量名,在其中鍵入“temp”,此時“Type&Lable”按鈕就會變黑,左下方為候選變量列表,現在還用不著;中部為類似計算器的軟鍵盤,可以用鼠標按鍵輸入數字和符號,這里我們直接輸入“1”,輸入的內容會立刻在右上方的數值表達式窗口中出現;軟鍵盤右側為函數窗口,可以在這里找到并使用所需的SPSS函數;這次也用不到。好,現在“OK”按鈕已經變黑,單擊他,系統就會自動生成一個新變量temp,并且取值均為1。【ComputeVariable對話框】軟鍵盤上幾個奇奇怪怪的符號的含義如下:~=&|**~不等號,等價于<>邏輯符號AND邏輯符號OR乘方,相當于函數EXP()邏輯符號NOT在函數窗口中選中某個函數并單擊右鍵,系統就會彈出該函數的用法說明。函數主要是和變量名組合起來使用的,比如說ABS(x)就是取變量x的絕對值。【ComputeVariable對話框】第二步:再次選擇菜單Transform==>Compute,系統也再次彈出這個對話框,將數值表達式窗口中的1改為2,然后單擊中下部的“If”按鈕,系統彈出記錄選擇對話框如下:
由于我們這里不是對所有記錄做變換,因此選中第二個單選鈕“Includeifcasestatisfies
confition:”,此時下方的所有窗口變亮,表明現在可用;在左側選中血磷值(x),然后單擊“”,x就被引入了右側的變量框,任你用鍵盤或者用鼠標,總之將下面這個算式補充完:x>1,單擊continue按鈕。第三步:單擊“OK”按鈕,由于我們要替換變量值,系統會彈出一個確認對話框,確認替換,就ok了。1、利用學生成績調查表計算每位同學的總分和平均分,并排名;2、利用職工基本情況數據,假設職稱1至4級職工的工資分別上調50%,30%,20%,10%,依據職稱級別計算實發工資。提示:定義實發工資變量名:sfgz,并輸入計算方法:(sr-bx)×系數,系數因職稱不同而不同。上機【Count對話框】Count對話框用于計算某個值或某些值在某個變量的取值中是否出現,比如我們想看看有哪些記錄的血磷值在2~3之間,選擇菜單Transform==>Count,系統彈出Count對話框如下:TargetVariable框中用于指定記錄變量值是否出現的變量名,在這里輸入temp2;選中血磷值(x),將其選入Variables窗口,此時“DefineValues”按鈕變黑,單擊它,系統彈出變量值定義窗口如下:【Count對話框】左半部為變量值定義窗口,可以定義某個值、系統缺失值、系統或用戶定義缺失值、變量值范圍、小于某值或大于某值。我們這里是第四種情況:選擇Range,在through兩側分別鍵入2、3,然后單擊已變黑的“Add”按鈕,“2thru3”就會被加入“ValuestoCount”框內。然后單擊“Continue”,再單擊Count對話框的“OK”,可以看到系統自動生成變量temp2,其中10、11號記錄因血磷值介于2和3之間,temp2取值為1,其余的記錄temp2取值均為0。利用居民儲蓄調查數據,分析近些年儲戶收入的總體狀況。提示:由于數據的限制,我們暫且認為,如果儲戶收入今年比去年增加了,且認為今后兩年內收入仍會增加,則認為收入狀況較好。因此可對所有個案計算“今年收入”和“未來收入”這兩個變量中有幾個取1(1代表收入增加)。如果計算結果為2,則表示兩變量值均為增加,相應的儲戶收入狀況較好。進一步,還可以計算計數值為2的個案數占總個案數的百分比,進而分析被調查儲戶的總體收入狀況。上機1、利用學生成績調查表,找出各科成績在85分以上的人數各有多少?2、利用數據加工(職工數據),找出年齡在20-30,30-40,40-50以及50以上的人數各有多少?基本工資在1000以上的有多少人?上機【Recode對話框】Recode對話框用于從原變量值按照某種一一對應的關系生成新變量值,可以將新值賦給原變量,也可以生成一個新變量。例2.3
在Li1_1.sav中生成新變量temp3,當血磷值小于1時取值為0,1~2時取值為10,大于2時取值為20。解:選擇菜單Transform==>Record==>IntoDifferentVariables,Recode對話框如下:【Recode對話框】將血磷值(x)選入InputVariable->OutputVariable框,此時OutputVariable框變黑,在其中鍵入新變量名temp3并單擊Change,可見原來的x->?變成了x->temp3。單擊“OldandNewValues”,系統彈出變量值定義對話框如下:按照題目的要求,選擇Range:Lowestthrough,在右側框中鍵入1,然后在右上方的Value右側框中鍵入對應的新變量值0,此時下方Add鍵變黑,單擊它,Old->New框中就會加入Lowestthru1->0,按照類似的方法依次加入另兩條轉換規則,最終Old->New框中共有Lowestthru1->0、1thru2->10、Else->20三條,現在單擊Continue,再單擊OK,系統就會按要求生成新變量temp3。【Recode對話框】
OutputVariable框:選入xOutputVariableName框:鍵入temp3:單擊Change鈕選中x->temp3:單擊OldandNewValues鈕:
Range:Lowestthrough單選鈕:鍵入1:NewValueValue單選鈕:鍵入0:單擊Add鈕
Range:through單選鈕:兩側分別鍵入1、2:NewValueValue單選鈕:鍵入10:單擊Add鈕
Range:Allothervalues單選鈕:NewValueValue單選鈕:鍵入20:單擊Add鈕單擊Continue
單擊OK。圖片太多了,雖然這樣非常直觀,但太慢了。等大家對基本界面操作熟悉了后,我們將對比較簡單的對話框試著對操作用文字的方式描述,比如上面的操作我們將用文字表達為:【Recode對話框】在連續變量或變量值較多的情況下,可采用組距分組。組距分組是將全部變量值依次劃分為若干個區間,并將這一區間的變量值作為一組,為以后的頻數分析以及直方圖的繪制打下基礎。【Recode對話框】組距分組
a.選擇組數。=6b.確定各組的寬度。=(2.11-0.54)/6=0.266,可近似取為0.3分組操作
a指定分組變量
b定義分組區間
c指定存放分組結果的變量選擇菜單Transform==>Record==>
intoDifferentVariables:將分組變量血磷值X選擇到NumericVariable→Output框中;在OutputVariable框后輸入存放分組結果的變量名,并單擊Change鈕確認,可以在Lable后輸入相應的變量名標簽;單擊OldandNewValues按鈕進行分組區間定義。指定分組區間的下限和上限,并在NewValue框中給出該區間對應的分組值(也可以指定該區間數據在分組后為系統缺失值)單擊Add按鈕確認分組區間并加到Old→New框中,單擊Change和Remove按鈕用來修改和刪除分組區間。如果僅對符合一定條件的個案分組,則單擊If按鈕并輸入SPSS條件表達式,否則本步可略去。
例2.4對血磷值數據進行組距分組。【Recode對話框】一般選擇DifferentVariables,否則會覆蓋掉原來的變量選擇菜單Transform==>CategorizeVariables:將分組變量選擇到CreateCategories框中;在Numberofcategories框后輸入分組數目(如四分位數分組,組數為4);在連續變量或變量值較多的情況下,分位數分組是一種較為有效而快捷的分組方法。分位數分組與組距分組類似,所不同的是,分位數分組中各組的下限值和上限值是由分位數決定的。【CategorizeVariables對話框】SPSS將自動計算各四分位數并進行分組,分組結果將存放在一個名為n+分組變量名的新變量中。選擇菜單Transform==>AutomaticRecord:將分組變量血磷值X選擇到Variable→NewName框中;在NewName框后輸入存放分組結果的變量名,并單擊AddNewName鈕;在RecordStartingfrom框中選擇單變量值分組按升序還是按降序進行,Lowestvalue表示升序,Highestvalue表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 咖啡館行業人力資源優化考核試卷
- 核能發電站環境監測數據分析考核試卷
- 期刊出版與國際合作考核試卷
- 海上旅客運輸綠色發展考核試卷
- 玉器收藏品加工技藝與市場前景考核試卷
- 河北省邢臺市一中2024-2025學年高二3月月考語文試題(原卷版+解析版)
- 腎癌根治術的護理常規
- 二零二五保安派遣服務勞動合同書
- 科技興新項目計劃項目指南
- 園藝師考試分數評估與答案
- 第五章-機構的組合與創新設計
- 中心靜脈壓的監測(CVP)
- 車站(助理)調度員技能鑒定理論考試題庫(含答案)
- NB-T47025-2012纏繞墊片-標準
- 工程合同完畢確認書范本
- 藥用植物與生藥學考試題與答案
- 華蟾素片與血腦屏障的相互作用
- 2024年人教版小學數學五年級下冊第三單元測試卷(含答案解析)
- JT∕T 1485.2-2023 自動化集裝箱起重機遠程操控安全作業規程 第2部分:集裝箱門式起重機
- 帕金森患者生活質量問卷(PDQ-39)
- JB-T 10530-2018 氧氣用截止閥
評論
0/150
提交評論